A / B 테스트에 대한 복습

요즘은 데이터에 관한 모든 것입니다. 리더는 증거가없는 한 결정을 내리고 싶어하지 않습니다. 물론 그것은 좋은 일입니다. 다행히도 직감에 의존하지 않고도 정보를 얻을 수있는 방법이 많이 있습니다. 특히 온라인 설정에서 가장 일반적인 방법 중 하나는 A / B 테스트입니다.

A / B 테스트가 무엇인지, 어디서 시작되었는지, 사용 방법을 더 잘 이해하기 위해 Kaiser Fung과 이야기했습니다. , 그는 Columbia University에서 응용 분석 프로그램을 설립했으며 대중 매체의 데이터 및 그래픽에 대한 비판적 조사에 전념하는 블로그 인 Junk Charts의 저자입니다. 그의 최신 저서는 Number Sense : How to Use BigData to Your Advantage입니다.

A / B 테스팅이란 무엇입니까?

A / B 테스팅은 가장 기본적인 방법입니다. 어떤 것의 두 가지 버전을 비교하여 어떤 것이 더 나은지 알아내는 것입니다. Fung은 웹 사이트 및 앱과 가장 자주 연관되지만이 방법은 거의 100 년이 지났다고 말합니다.

1920 년대 통계 학자이자 생물학자인 Ronald Fisher는 A / B 테스트와 무작위 제어 실험의 가장 중요한 원리를 발견했습니다. 일반. Fung은 “그는 이와 같은 실험을 처음으로 실행 한 것은 아니지만 기본 원리와 수학을 알아 내고이를 과학으로 만든 최초의 사람이었습니다.”라고 말했습니다.

Fisher는 농업 실험을 실행했습니다. 이 땅에 비료를 더 넣으면 어떻게됩니까? 원칙이 지속되었고 1950 년대 초 과학자들은 의학에서 임상 실험을 시작했습니다. 1960 년대와 1970 년대에는 마케팅 담당자가 직접 반응 캠페인을 평가하기 위해 개념을 적용했습니다 (예 : 고객을 대상으로하는 엽서 나 편지가 더 많은 판매로 이어질까요?).

현재 형태의 A / B 테스트는 1990 년대에 시작되었습니다. Fung은 지난 세기 동안 수학이 테스트는 변경되지 않았습니다. “동일한 핵심 개념이지만 이제는 온라인, 실시간 환경, 참가자 수 및 실험 수 측면에서 다른 규모로 수행하고 있습니다.”

A / B 테스트는 어떻게 작동합니까?

원하는 것을 결정하여 A / B 테스트를 시작합니다. 테스트합니다. Fung은 웹 사이트의 구독 버튼 크기와 같은 간단한 예를 제공합니다. 그런 다음 성능을 평가하는 방법을 알아야합니다. 이 경우 측정 항목이 버튼을 클릭 한 방문자 수라고 가정 해 보겠습니다. 테스트를 실행하기 위해 두 세트의 사용자 (사용자가 사이트를 방문 할 때 무작위로 할당 됨)를 보여주고 다른 버전 (단추의 크기 만 다른 경우)을 보여주고 어떤 것이 성공 지표에 가장 큰 영향을 미쳤는지 확인합니다. 이 경우 어떤 버튼 크기로 인해 더 많은 방문자가 클릭하게 되었나요?

실제에서는 클릭 여부에 영향을 미치는 요소가 많이 있습니다. 예를 들어 모바일 장치에서는 특정 크기 버튼을 클릭 할 가능성이 더 높은 반면 데스크톱에서는 다른 크기로 그려 질 수 있습니다. 여기에서 무작위 화가 도움이 될 수 있으며 매우 중요합니다. 어느 그룹에 속한 사용자를 무작위로 지정하면 모바일과 데스크톱과 같은 다른 요인이 평균적으로 결과를 이끌어 낼 가능성을 최소화 할 수 있습니다.

“A / B 테스트는 가장 기본적인 유형으로 간주 될 수 있습니다. 무작위 대조 실험입니다.”Fung은 “가장 간단한 형태로 두 가지 치료법이 있으며 하나는 다른 치료법으로 작용합니다.”라고 말합니다. 모든 무작위 제어 실험과 마찬가지로 통계적 유의성을 달성하는 데 필요한 샘플 크기를 추정해야합니다. 그러면 표시되는 결과가 “배경 잡음 때문이 아닙니다”라고 Fung은 말합니다.

때로는 쉽게 조작 할 수없는 특정 변수가 성공 측정 항목에 큰 영향을 미친다는 사실을 알고 있습니다. 예를 들어 웹 사이트의 모바일 사용자는 데스크톱 사용자에 비해 클릭이 적은 경향이 있습니다. 무작위 화 결과 세트 A가 세트 B보다 모바일 사용자를 약간 더 많이 포함 할 수 있으며, 이로 인해 세트 A가보고있는 버튼 크기에 관계없이 클릭률이 낮아질 수 있습니다. 경쟁의 장을 평준화하려면 먼저 테스트 분석가가 사용자를 분할해야합니다. Fung은 구독 버튼의 크기가 매우 기본적인 예라고 Fung은 말합니다. 실제로는 각 버전에 무작위로 할당합니다. 크기뿐만 아니라 색상, 텍스트, 서체 및 글꼴 크기를 찾습니다. 많은 관리자가 순차적 테스트를 실행합니다. 예를 들어 크기를 먼저 테스트 (대형 대 소형), 색상 테스트 (파란색 대 빨간색), 서체 테스트 (Times 대 Arial)는 두 가지 이상의 요인을 변경해서는 안된다고 믿기 때문입니다. 동시에. 그러나 Fung에 따르면 그 견해는 통계 학자에 의해 반박되었습니다. 순차 테스트는 요인이 상호 작용할 때 일어나는 일을 측정하지 않기 때문에 차선책입니다. 예를 들어 사용자는 평균적으로 파란색을 선호하지만 Arial과 결합하면 빨간색을 선호 할 수 있습니다.이러한 종류의 결과는 서체 테스트가 이전 테스트에서 “승리 한”파란색 버튼에서 실행되기 때문에 순차적 A / B 테스트에서 정기적으로 누락됩니다.

대신 더 복잡한 테스트를 실행해야합니다. . 일부 관리자에게는 이것이 어려울 수 있습니다. A / B 테스트의 매력은 실행하기가 얼마나 간단하고 간단하기 때문입니다 (그리고 이러한 실험을 설계하는 많은 사람들은 통계 배경이 없다고 Fung은 지적합니다). / B 테스트에서 우리는 동시에 많은 수의 독립적 인 테스트를 실행하는 경향이 있습니다.”라고 그는 말합니다. 그 이유는 대부분 테스트 할 수있는 가능한 조합의 수에 마음이 끌리기 때문입니다. 그러나 수학을 사용하면 “이러한 처리의 특정 하위 집합 만 현명하게 선택하고 실행할 수 있습니다. 그러면 데이터에서 나머지를 추론 할 수 있습니다.” 이를 A / B 테스트 세계에서 “다 변수”테스트라고하며 종종 A / B / C 테스트 또는 A / B / C / D 테스트를 수행하게됩니다. 색상과 크기가있는 위의 예에서 큰 빨간색 버튼, 작은 빨간색 버튼, 큰 파란색 버튼 및 작은 파란색 버튼과 같은 다른 그룹을 표시한다는 의미 일 수 있습니다. 글꼴도 테스트하고 싶다면 테스트 그룹의 수가 훨씬 더 많아 질 것입니다.

어떻게합니까? A / B 테스트의 결과를 해석 하시겠습니까?

귀사의 회사에서 계산을 처리하는 소프트웨어를 사용할 가능성이 있으며 해당 결과를 해석 할 수있는 통계 전문가를 고용 할 수도 있습니다. 그러나 출력을 이해하고 테스트 변형 (위의 예에서 새로운 버튼)을 진행할지 여부를 결정하는 방법에 대한 기본적인 이해가 도움이됩니다.

Fung은 대부분의 소프트웨어 프로그램이보고한다고 말합니다. A / B 테스트의 두 가지 전환율 : 하나는 컨트롤 버전을 본 사용자에 대한 것이고 다른 하나는 테스트 버전을 본 사용자에 대한 것입니다. “전환율은 클릭 수 또는 사용자가 취한 기타 액션을 측정 할 수 있습니다. 보고서는 다음과 같이 표시 될 수 있습니다. 대조 : 15 % (+/- 2.1 %) 유사 18 % (+/- 2.3 %)” 이는 사용자의 18 %가 2.3 %의 오차 한계로 새로운 대안 (아마도 더 큰 파란색 버튼)을 클릭했음을 의미합니다. 이를 실제 전환율이 15.7 %에서 20.3 % 사이로 떨어지는 것으로 해석하고 싶을 수 있지만 이는 기술적으로 정확하지 않습니다. “실제 해석은 A / B 테스트를 여러 번 실행하면 범위의 95 %가 실제 전환율을 포착한다는 것입니다. 즉, 전환율은 시간의 5 % 오차 범위를 벗어납니다. 설정 한 통계적 유의성 수준)”이라고 Fung은 설명합니다.

이게 머리를 감싸기 어려우면 클럽에 가입하십시오. 중요한 것은 18 %의 전환율이 여기가 당신의 판단이 들어오는 곳입니다. 18 %의 대화 율은 15 %의 것보다 확실히 낫고 오류의 한계를 허용합니다 (12.9 % -17.1 % 대 15.7 % -20.3 %). 사람들이 말하는 것을들을 수 있습니다. 이를 “3 % 상승도”라고합니다 (상승도는 단순히 대조군 버전과 성공적인 테스트 처리 간의 전환율 차이 비율입니다). 이 경우 새 버전으로 전환하는 것이 좋은 결정일 가능성이 높지만 새 버전을 구현하는 데 드는 비용에 따라 달라집니다. 값이 낮 으면 스위치를 사용해보고 실제로 어떤 일이 발생하는지 확인할 수 있습니다 (테스트와 달리). 온라인 세계에서 테스트 할 때의 가장 큰 장점 중 하나는 일반적으로 원본으로 쉽게 되돌릴 수 있다는 것입니다.

회사는 A / B 테스트를 어떻게 사용합니까?

Fung은 다음과 같이 말합니다. 온라인 환경이 관리자, 특히 마케터가 “사람들이 클릭하게 만들 가능성이 가장 높은 것은 무엇입니까? 아니면 제품을 구매합니까? 아니면 당사 사이트에 등록 할 수 있습니까?”와 같은 질문에 대답하는 데 온라인 환경이 적합하다는 것을 기업이 인식함에 따라 방법론의 인기가 높아졌습니다. ” A / B 테스트는 이제 웹 사이트 디자인에서 온라인 제안, 헤드 라인, 제품 설명에 이르기까지 모든 것을 평가하는 데 사용됩니다. (사실 지난주에 여기에서 신제품을 마케팅하는 데 사용하는 언어에 대한 A / B 테스트 결과를 살펴 보았습니다. HBR.)

대부분의 실험은 피험자가 알지도 못하는 사이에 실행됩니다. “사용자로서 우리는 항상 이러한 테스트의 일부이며이를 알지 못합니다.”라고 Fung은 말합니다.

웹 사이트 뿐만이 아닙니다. 마케팅 이메일이나 광고도 테스트 할 수 있습니다. 예를 들어 두 가지 버전의 이메일을 고객 목록에 보내고 (물론 목록을 먼저 무작위로 지정) 어떤 버전이 더 많은 판매를 생성하는지 파악할 수 있습니다. 그러면 다음 번에 당첨 된 버전을 보낼 수 있습니다. 또는 두 가지 버전의 광고 문구를 테스트하여 어떤 버전이 방문자를 더 자주 전환하는지 확인할 수 있습니다. 그렇다면 가장 성공적인 테스트를 위해 더 많은 시간을 투자해야한다는 것을 알고 있습니다.

A / B 테스트를 할 때 사람들이하는 실수는 무엇입니까?

Fung에게 회사가 저지르는 실수에 대해 물었습니다. A / B 테스트를 수행 할 때 그는 세 가지 일반적인 테스트를 지적했습니다.

첫째, 너무 많은 관리자가 테스트를 진행하지 못하게합니다. 이러한 테스트를 실행하기위한 대부분의 소프트웨어를 사용하면 결과를 실시간으로 볼 수 있기 때문에 관리자는 너무 빨리 결정을 내리기를 원합니다.이 실수는 “조급함에서 발전”하고 있으며 많은 소프트웨어 공급 업체가 알고리즘을 사용하여 결과를 조정할 수있는 “실시간 최적화”라는 유형의 A / B 테스트를 제공함으로써 이러한 과도 함을 겪었습니다. 문제는 무작위 화로 인해 테스트를 자연스럽게 종료하면 다른 결과를 얻을 수 있다는 것입니다.

두 번째 실수는 너무 많은 측정 항목을 보는 것입니다. 그는 “수백 개의 메트릭 패널을 제공하여 모든 사람을 만족시키려는 소프트웨어를 볼 때마다 움찔합니다.”라고 말합니다. 문제는 동시에 이렇게 많은 메트릭을보고있는 경우 통계 학자들이 말하는 “가짜 상관 관계”를 만들 위험이 있습니다. 적절한 테스트 설계에서는 “실험을 실행하고 몇 가지를 선택하기 전에 살펴볼 측정 항목을 결정해야합니다. 측정을 많이할수록 무작위 변동이 나타날 가능성이 더 커집니다.” 너무 많은 측정 항목을 사용하여 “이 변수에 무슨 일이 일어나고 있습니까?”라고 자문하는 대신 “내가보고있는 흥미로운 (그리고 잠재적으로 중요하지 않은) 변화는 무엇인가?”라고 묻는 것입니다.

마지막으로 Fung은 충분한 재 테스트를 수행하는 회사가 거의 없다고 말합니다. “우리는 한 번 테스트 한 후 믿습니다. 그러나 통계적으로 유의미한 결과가 있더라도 오 탐지 오류가 발생할 가능성이 상당히 높습니다. 가끔 다시 테스트하지 않으면 틀릴 가능성을 배제하지 않습니다.” 오탐은 여러 가지 이유로 발생할 수 있습니다. 예를 들어 주어진 A / B 결과가 임의의 우연에 의해 유도 될 가능성은 거의 없지만 A / B 테스트를 많이 수행하면 결과 중 하나 이상이 잘못 될 가능성이 빠르게 증가합니다.

매니저가 모순되는 결과를 얻게 될 가능성이 높고, 특히 관리자가 변경을 원하는 온라인 세계에서 이전 결과를 훼손한 사실을 누구도 발견하고 싶어하지 않기 때문에 이는 특히 어려울 수 있습니다. 신속하게 가치를 포착합니다. 그러나 가치에 대한 이러한 초점은 잘못 인도 될 수 있다고 Fung은 말합니다. “사람들은 발견 된 결과의 실제 가치에 대해 그다지 경계하지 않습니다. 그들은 테스트 결과가 완전히 신뢰할 수없는 경우에도 약간의 개선이 가치 있다고 믿기를 원합니다. 실제로 , 개선이 적을수록 결과의 신뢰성이 떨어집니다.”

A / B 테스트가 만병 통치약이 아니라는 것은 분명합니다. 더 효율적이고 더 신뢰할 수있는 데이터를 제공하는 더 복잡한 종류의 실험이 있습니다. 라고 Fung은 말합니다. 그러나 A / B 테스트는 질문을 빠르게 이해하는 좋은 방법입니다. “A / B 테스트 세계에 대한 좋은 소식은 모든 것이 매우 빠르게 진행되므로 실행하면 작동하지 않으면 다른 것을 시도 할 수 있습니다. 언제든지 이전 전략으로 되돌릴 수 있습니다.”