În zilele noastre este vorba despre date. Liderii nu vor să ia decizii decât dacă au dovezi. Acesta este un lucru bun, desigur, și, din fericire, există o mulțime de modalități de a obține informații fără a fi nevoie să vă bazați pe instinctele cuiva. Una dintre cele mai frecvente metode, în special în setările online, este testarea A / B.
Pentru a înțelege mai bine ce este testarea A / B, de unde a provenit și cum să o folosesc, am vorbit cu Kaiser Fung , care a fondat programul de analiză aplicată la Columbia University și este autorul Junk Charts, un blog dedicat examinării critice a datelor și a graficii în mass-media. Cea mai recentă carte a sa este Number Sense: How to Use Big Data to Your Advantage.
Ce este testarea A / B?
Testarea A / B, cel mai de bază, este o modalitate pentru a compara două versiuni de ceva pentru a afla care este cel mai performant. Deși este cel mai adesea asociat cu site-uri web și aplicații, Fung spune că metoda are aproape 100 de ani.
În anii 1920, statisticianul și biologul Ronald Fisher au descoperit cele mai importante principii din spatele testării A / B și a experimentelor controlate randomizate în general. „Nu a fost primul care a realizat un experiment ca acesta, dar a fost primul care și-a dat seama de principiile de bază și de matematică și le-a făcut o știință”, spune Fung.
Fisher a realizat experimente agricole, întrebând întrebări precum „Ce se întâmplă dacă pun mai mult îngrășământ pe acest teren? Principiile au persistat și la începutul anilor 1950 oamenii de știință au început să desfășoare studii clinice în medicină. În anii 1960 și 1970, conceptul a fost adaptat de marketing pentru a evalua campaniile de răspuns direct (de exemplu, o carte poștală sau o scrisoare pentru a viza clienții ar duce la mai multe vânzări?).
Testarea A / B, în forma sa actuală, a apărut în anii 1990. Fung spune că pe parcursul secolului trecut matematica din spatele testele nu s-au schimbat. „Sunt aceleași concepte de bază, dar acum o faceți online, într-un mediu în timp real și la o scară diferită în ceea ce privește numărul de participanți și numărul de experimente.”
Cum funcționează testarea A / B?
Începeți un test A / B decidând ce doriți a testa. Fung oferă un exemplu simplu: dimensiunea butonului de abonare de pe site-ul dvs. web. Apoi, trebuie să știți cum doriți să evaluați performanța acestuia. În acest caz, să presupunem că valoarea dvs. este numărul de vizitatori care dau clic pe buton. Pentru a rula testul, afișați două seturi de utilizatori (alocați la întâmplare atunci când accesează site-ul) diferitele versiuni (în care singurul lucru diferit este dimensiunea butonului) și determinați care a influențat cel mai mult valoarea dvs. de succes. În acest caz, ce dimensiune a butonului a făcut clic pe mai mulți vizitatori?
În viața reală există o mulțime de lucruri care influențează dacă cineva face clic. De exemplu, este posibil ca cei de pe un dispozitiv mobil să aibă mai multe șanse să facă clic pe un anumit buton de dimensiune, în timp ce cei de pe desktop sunt atrași la o dimensiune diferită. Aici randomizarea poate ajuta – și este esențială. Prin alegerea aleatorie a utilizatorilor din ce grup, reduceți șansele ca alți factori, cum ar fi mobilul față de desktop, să vă conducă în medie la rezultate.
„Testul A / B poate fi considerat cel mai de bază tip de experiment controlat randomizat „, spune Fung.” În forma sa cea mai simplă, există două tratamente și unul acționează ca control pentru celălalt „. Ca și în cazul tuturor experimentelor controlate randomizate, trebuie să estimați dimensiunea eșantionului de care aveți nevoie pentru a obține o semnificație statistică, care vă va ajuta să vă asigurați că rezultatul pe care îl vedeți „nu este doar din cauza zgomotului de fond”, spune Fung. >
Uneori, știți că anumite variabile, de obicei cele care nu sunt ușor de manipulat, au un efect puternic asupra valorii succesului. De exemplu, poate utilizatorii de telefonie mobilă ai site-ului dvs. web tind să facă clic mai puțin pe orice, în comparație cu utilizatorii de desktop. Randomizarea poate avea ca rezultat setul A care conține puțin mai mulți utilizatori de mobil decât setul B, ceea ce poate determina setul A să aibă o rată de clic mai mică, indiferent de dimensiunea butonului pe care îl văd. Pentru a echilibra terenul de joc, analistul de testare ar trebui să împartă mai întâi utilizatorii de pe mobil și desktop și apoi alocați-le în mod aleatoriu fiecărei versiuni. Aceasta se numește blocare.
Dimensiunea butonului de abonare este un exemplu foarte simplu, spune Fung. În realitate, este posibil să nu testați doar dimensiunea dar și culoarea și textul, a și tipul și dimensiunea fontului. O mulțime de manageri efectuează teste secvențiale – de exemplu, testând mai întâi dimensiunea (mare versus mic), apoi testând culoarea (albastru față de roșu), apoi testând tipul de caractere (Times versus Arial) – deoarece consideră că nu ar trebui să varieze doi sau mai mulți factori la nivelul acelasi timp. Dar, potrivit lui Fung, această viziune a fost dezmințită de statisticieni. Și testele secvențiale sunt suboptimale, deoarece nu măsurați ce se întâmplă atunci când factorii interacționează. De exemplu, poate că utilizatorii preferă în medie albastrul, dar preferă roșu atunci când este combinat cu Arial.Acest tip de rezultat este omis în mod regulat în testarea secvențială A / B, deoarece testul tipografiei se execută pe butoane albastre care au „câștigat” testul anterior.
În schimb, spune Fung, ar trebui să rulați teste mai complexe Acest lucru poate fi dificil pentru unii manageri, întrucât atracția testelor A / B este cât de simplă și de simplă este să ruleze (și mulți oameni care proiectează aceste experimente, subliniază Fung, nu au fonduri statistice). „Cu A Testarea / B, tindem să dorim să efectuăm un număr mare de teste simultane, independente „, spune el, în mare parte, deoarece mintea se rotește la numărul de combinații posibile pe care le puteți testa. Dar folosind matematica, puteți „alege inteligent și executa doar anumite subseturi ale acestor tratamente; apoi puteți deduce restul din date”. Aceasta se numește testare „multivariantă” în lumea testelor A / B și înseamnă adesea că ajungeți să faceți un test A / B / C sau chiar un test A / B / C / D. În exemplul de mai sus, cu culori și dimensiuni, ar putea însemna afișarea diferitelor grupuri: un buton roșu mare, un buton roșu mic, un buton albastru mare și un buton albastru mic. Dacă ați dori să testați și fonturile, numărul grupurilor de testare ar crește și mai mult.
Cum faceți Interpretează rezultatele unui test A / B?
Există șanse ca compania ta să utilizeze software care gestionează calculele și poate folosi chiar și un statistician care poate interpreta aceste rezultate pentru tine. Dar este util să aveți o înțelegere de bază despre cum să dați sens rezultatului și să decideți dacă să mergeți mai departe cu varianta de testare (noul buton din exemplul de mai sus).
Fung spune că majoritatea programelor software raportează două rate de conversie pentru testarea A / B: una pentru utilizatorii care au văzut versiunea de control și cealaltă pentru utilizatorii care au văzut versiunea de testare. „Rata de conversie poate măsura clicurile sau alte acțiuni întreprinse de utilizatori”, spune el. Raportul ar putea arăta astfel: „Control: 15% (+/- 2,1%) Variație 18% (+/- 2,3%).” Aceasta înseamnă că 18% dintre utilizatorii dvs. au dat clic pe noua variantă (poate butonul dvs. albastru mai mare) cu o marjă de eroare de 2,3%. S-ar putea să fiți tentați să interpretați acest lucru ca o rată de conversie reală care se încadrează între 15,7% și 20,3%, dar acest lucru nu ar fi corect din punct de vedere tehnic. „Interpretarea reală este că, dacă ați efectuat testul A / B de mai multe ori, 95% din intervale va capta rata reală de conversie – cu alte cuvinte, rata de conversie nu se încadrează în marja de eroare 5% din timp (sau orice altceva) nivelul de semnificație statistică pe care l-ați stabilit) „, explică Fung.
Dacă este greu să vă înfășurați capul, alăturați-vă clubului. Ceea ce este important de știut este că rata de conversie de 18% nu este o garanție. Aici intervine judecata dvs. O rată de conversație de 18% este cu siguranță mai bună decât cea de 15%, permițând chiar marja de eroare (12,9% -17,1% față de 15,7% -20,3%). S-ar putea să auziți oamenii vorbind despre aceasta ca o „creștere de 3%” (creșterea este pur și simplu diferența procentuală a ratei de conversie între versiunea dvs. de control și un tratament de test de succes). În acest caz, este cel mai probabil o decizie bună să treceți la noua dvs. versiune, dar aceasta va depinde de costurile de implementare a noii versiuni. Dacă sunt scăzute, este posibil să încercați comutatorul și să vedeți ce se întâmplă în realitate (spre deosebire de teste). Unul dintre marile avantaje ale testării în lumea online este că, de obicei, puteți reveni la originalul dvs. destul de ușor.
Cum utilizează companiile testarea A / B?
Fung spune că popularitatea metodologiei a crescut pe măsură ce companiile și-au dat seama că mediul online este foarte potrivit pentru a ajuta managerii, în special specialiștii în marketing, să răspundă la întrebări precum „Ce este cel mai probabil să facă oamenii să dea clic? Sau să cumpere produsul nostru? ” Testarea A / B este acum utilizată pentru a evalua totul, de la proiectarea site-ului web la ofertele online, până la titluri până la descrierile de produse. HBR.)
Majoritatea acestor experimente se desfășoară fără ca subiecții să știe. „Ca utilizator, facem parte din aceste teste tot timpul și nu o știm”, spune Fung.
Și nu este vorba doar de site-uri web. Puteți testa și e-mailuri sau reclame de marketing. De exemplu, puteți trimite două versiuni ale unui e-mail în lista dvs. de clienți (aleatorizând mai întâi lista, desigur) și să aflați care dintre acestea generează mai multe vânzări. Apoi, puteți trimite versiunea câștigătoare data viitoare. Sau este posibil să testați două versiuni ale copiei publicitare și să vedeți care dintre acestea convertește mai des vizitatorii. Atunci știi să cheltuiești mai mult obținând cel mai de succes.
Ce greșeli fac oamenii atunci când fac teste A / B?
L-am întrebat pe Fung despre greșelile pe care le vede companiile. când a efectuat teste A / B și a arătat spre trei comune.
În primul rând, spune el, prea mulți manageri nu lasă testele să-și urmeze cursul. Deoarece majoritatea software-ului pentru efectuarea acestor teste vă permite să urmăriți rezultatele în timp real, managerii vor să ia decizii prea repede.Această greșeală, spune el, „evoluează din nerăbdare” și mulți furnizori de software au jucat în această exagerare oferind un tip de testare A / B numit „optimizare în timp real”, în care puteți utiliza algoritmi pentru a face ajustări ca rezultate intră. Problema este că, din cauza randomizării, este posibil ca, dacă lăsați testul să se desfășoare până la capătul natural, s-ar putea să obțineți un rezultat diferit.
A doua greșeală este să vă uitați la prea multe valori. „Mă înfund de fiecare dată când văd un software care încearcă să mulțumească pe toată lumea, oferindu-vă un panou de sute de valori”, spune el. Problema este că, dacă vă uitați la un număr atât de mare de valori în același timp, riscați să faceți ceea ce statisticiștii numesc „corelații false”. Într-un design adecvat al testului, „ar trebui să decideți valorile pe care urmează să le urmăriți înainte de a efectua un experiment și de a selecta câteva. Cu cât măsurați mai mult, cu atât este mai probabil să vedeți fluctuații aleatorii”. Cu atât de multe valori, în loc să vă întrebați „Ce se întâmplă cu această variabilă?” vă întrebați: „Ce schimbări interesante (și potențial nesemnificative) văd?”
În cele din urmă, Fung spune că puține companii fac suficientă reevaluare. „Avem tendința să o testăm o dată și apoi o credem. Dar chiar și cu un rezultat semnificativ statistic, există o probabilitate destul de mare de eroare fals pozitivă. Cu excepția cazului în care reîncercați din când în când, nu excludeți posibilitatea de a greși ”. Pozițiile false pot apărea din mai multe motive. De exemplu, chiar dacă există puține șanse ca un anumit rezultat A / B să fie determinat de o șansă aleatorie, dacă faceți o mulțime de teste A / B, șansele ca cel puțin unul dintre rezultatele dvs. să fie greșit crește rapid.
Acest lucru poate fi deosebit de dificil de realizat, deoarece este probabil ca managerii să ajungă la rezultate contradictorii și nimeni nu vrea să descopere că au subminat constatările anterioare, în special în lumea online, unde managerii doresc să facă schimbări – și captează valoarea – rapid. Dar acest accent pe valoare poate fi greșit, spune Fung: „Oamenii nu sunt foarte vigilenți cu privire la valoarea practică a descoperirilor. Vor să creadă că fiecare cantitate mică de îmbunătățiri este valoroasă chiar și atunci când rezultatele testelor nu sunt pe deplin fiabile. De fapt, , cu cât îmbunătățirea este mai mică, cu atât rezultatele sunt mai puțin fiabile. „
Este clar că testarea A / B nu este un panaceu. Există tipuri mai complexe de experimente care sunt mai eficiente și vă vor oferi date mai fiabile. , Spune Fung. Dar testarea A / B este o modalitate excelentă de a înțelege rapid o întrebare pe care o aveți. Și „vestea bună despre lumea testelor A / B este că totul se întâmplă atât de repede, deci dacă îl rulați și nu funcționează, puteți încerca altceva. Puteți reveni oricând la vechea tactică. ”