V dnešní době jde o data. Vedoucí nechtějí rozhodovat, pokud nemají důkazy. To je samozřejmě dobrá věc a naštěstí existuje spousta způsobů, jak získat informace, aniž byste se museli spoléhat na své instinkty. Jednou z nejběžnějších metod, zejména v online nastavení, je testování A / B.
Abych lépe pochopil, co je testování A / B, kde vzniklo a jak jej používat, mluvil jsem s Kaiser Fung , který založil program aplikované analýzy na Kolumbijské univerzitě a je autorem blogu Junk Charts, blogu věnovaného kritickému zkoumání dat a grafiky v hromadných sdělovacích prostředcích. Jeho nejnovější knihou je Number Sense: How to Use Big Data to Your Advantage.
Co je to A / B Testing?
A / B testování, ve své nejzákladnější podobě, je způsob porovnat dvě verze něčeho a zjistit, která si vede lépe. Ačkoli je Fung nejčastěji spojován s webovými stránkami a aplikacemi, říká, že metoda je stará téměř 100 let.
Ve 20. letech 20. století statistik a biolog Ronald Fisher objevil nejdůležitější principy testování A / B a randomizované kontrolované experimenty Všeobecné. „Nebyl první, kdo provedl takový experiment, ale byl prvním, kdo přijal základní principy a matematiku a učinil z nich vědu,“ říká Fung.
Fisher provedl zemědělské experimenty a zeptal se otázky jako: Co se stane, když na tuto půdu přidám více hnojiva? Principy přetrvávaly a na počátku padesátých let začali vědci provádět klinické testy v medicíně. V šedesátých a sedmdesátých letech byl koncept přizpůsoben marketingovými pracovníky, aby vyhodnotili kampaně přímé reakce (např povede pohlednice nebo dopis zaměřený na zákazníky k vyšším prodejům?).
Testování A / B ve své současné podobě vzniklo v 90. letech. Fung říká, že v minulém století matematika testy se nezměnily. „Jsou to stejné základní koncepty, ale teď to děláte online, v reálném čase a v jiném měřítku, pokud jde o počet účastníků a počet experimentů.“
Jak funguje testování A / B?
Test A / B zahájíte rozhodnutím, co chcete testovat. Fung uvádí jednoduchý příklad: velikost tlačítka pro přihlášení k odběru na vašem webu. Pak musíte vědět, jak chcete vyhodnotit jeho výkon. V tomto případě řekněme, že vaší metrikou je počet návštěvníků, kteří kliknou na tlačítko. Chcete-li spustit test, ukážete dvěma sadám uživatelů (náhodně přidělených při návštěvě webu) různé verze (kde se liší pouze velikost tlačítka) a určíte, která metrika úspěchu nejvíce ovlivnila. V tomto případě, která velikost tlačítka způsobila, že kliklo více návštěvníků?
Ve skutečnosti existuje spousta věcí, které ovlivňují, zda někdo klikne. Může se například stát, že uživatelé mobilního zařízení kliknou na tlačítko určité velikosti s větší pravděpodobností, zatímco uživatelé na mobilním zařízení budou mít jinou velikost. Tady může náhodnost pomoci – a je kritická. Náhodou, kteří uživatelé jsou ve které skupině, minimalizujete pravděpodobnost, že vaše výsledky budou průměrně zvyšovat jiné faktory, například mobilní a stolní počítače.
„Test A / B lze považovat za nejzákladnější druh randomizovaný kontrolovaný experiment, „říká Fung.„ Ve své nejjednodušší formě existují dvě léčby a jedna funguje jako kontrola pro druhou. “ Stejně jako u všech randomizovaných kontrolovaných experimentů musíte odhadnout velikost vzorku, kterou potřebujete, abyste dosáhli statistické významnosti, což vám pomůže zajistit, že výsledek, který vidíte, „není jen kvůli šumu v pozadí,“ říká Fung.
Někdy víte, že určité proměnné, obvykle ty, které nelze snadno manipulovat, mají silný vliv na metriku úspěchu. Například mobilní uživatelé vašeho webu mají tendenci klikat na cokoli méně ve srovnání s uživateli stolních počítačů. Randomizace může mít za následek, že sada A bude obsahovat o něco více mobilních uživatelů než sada B, což může způsobit, že sada A bude mít nižší míru kliknutí bez ohledu na velikost tlačítka, které vidí. Pro vyrovnání hracího pole by analytik testu měl nejprve uživatele rozdělit pomocí mobilních zařízení a počítačů a poté je náhodně přiřadit ke každé verzi. Tomu se říká blokování.
Velikost tlačítka pro přihlášení je velmi základní příklad, říká Fung. Ve skutečnosti možná nebudete testovat pouze velikost, ale také barva a text, a a písmo a velikost písma. Spousta manažerů spouští sekvenční testy – např. Nejprve testují velikost (velká versus malá), poté testují barvu (modrá versus červená) a poté testují písmo (Times versus Arial) – protože věří, že by se neměly lišit dva nebo více faktorů stejný čas. Podle Funga však tento názor statistici vyvrátili. A sekvenční testy jsou neoptimální, protože neměříte, co se stane, když na sebe vzájemně působí faktory. Může se například stát, že uživatelé v průměru upřednostňují modrou, ale v kombinaci s Arial upřednostňují červenou.Tento druh výsledku pravidelně chybí v sekvenčním testování A / B, protože test písma se spouští na modrých tlačítkách, která „zvítězila“ v předchozím testu.
Místo toho, podle Funga, byste měli spustit složitější testy To může být pro některé manažery obtížné, protože přitažlivost A / B testů je tak přímočará a jednoduchá, jak je lze spustit (a mnoho lidí, kteří tyto experimenty navrhují, zdůrazňuje Fung, nemá statistické zázemí). “S / B testování, máme tendenci chtít spustit velké množství simultánních, nezávislých testů, “říká, z velké části proto, že mysl se otáčí počtem možných kombinací, které můžete otestovat. Ale pomocí matematiky můžete „chytře vybrat a spustit pouze určité podmnožiny těchto ošetření; zbytek pak můžete odvodit z údajů.“ Tomu se ve světě testování A / B říká „vícerozměrné“ testování a často to znamená, že nakonec uděláte test A / B / C nebo dokonce test A / B / C / D. Ve výše uvedeném příkladu s barvami a velikostí to může znamenat zobrazení různých skupin: velké červené tlačítko, malé červené tlačítko, velké modré tlačítko a malé modré tlačítko. Pokud byste také chtěli testovat písma, počet testovacích skupin by ještě vzrostl.
Jak se vám daří Interpretovat výsledky testu A / B?
Je pravděpodobné, že vaše společnost použije software, který zpracovává výpočty, a může dokonce použít statistika, který tyto výsledky za vás interpretuje. Je ale užitečné mít základní znalosti o tom, jak pochopit výstup a rozhodnout se, zda pokročit s testovací variantou (nové tlačítko ve výše uvedeném příkladu).
Fung říká, že většina softwarových programů uvádí dva přepočítací koeficienty pro testování A / B: jeden pro uživatele, kteří viděli kontrolní verzi, a druhý pro uživatele, kteří viděli testovací verzi. „Konverzní poměr může měřit kliknutí nebo jiné akce prováděné uživateli,“ říká. Zpráva může vypadat takto: „Kontrola: 15% (+/- 2,1%) Varianta 18% (+/- 2,3%).“ To znamená, že 18% vašich uživatelů kliklo na novou variantu (možná vaše větší modré tlačítko) s mírou chyb 2,3%. Můžete být v pokušení interpretovat to jako skutečnou míru konverze mezi 15,7% a 20,3%, ale to by nebylo technicky správné. „Skutečná interpretace spočívá v tom, že pokud jste test A / B provedli vícekrát, 95% rozsahů zachytí skutečný přepočítací koeficient – jinými slovy, přepočítací koeficient spadá mimo hranici chyby 5% času (nebo cokoli jiného) úroveň statistické významnosti, kterou jste nastavili), “vysvětluje Fung.
Pokud je obtížné sevřít hlavu, připojte se ke klubu. Důležité je vědět, že 18% konverzní poměr není záruka. To je místo, kde přichází váš úsudek. Míra 18% konverzace je určitě lepší než 15%, dokonce s ohledem na míru chyb (12,9% – 17,1% oproti 15,7% – 20,3%). Možná slyšíte lidi mluvit o tom jako o „3% nárůstu“ (nárůst je jednoduše procentní rozdíl v konverzním poměru mezi vaší kontrolní verzí a úspěšnou testovací léčbou). V tomto případě je s největší pravděpodobností dobré rozhodnutí přejít na novou verzi, ale to bude záviset na nákladech na implementaci nové verze. Pokud jsou nízké, můžete vyzkoušet přepínač a zjistit, co se stane ve skutečnosti (na rozdíl od testů). Jednou z velkých výhod testování v online světě je, že se obvykle můžete docela snadno vrátit zpět ke svému originálu.
Jak společnosti používají testování A / B?
Fung říká, že popularita metodiky vzrostla, protože společnosti si uvědomily, že online prostředí je vhodné pro to, aby pomohlo manažerům, zejména marketingovým pracovníkům, odpovídat na otázky typu: „Co s největší pravděpodobností přiměje lidi klikat? Nebo si koupit náš produkt? Nebo se zaregistrovat na našem webu? “ A / B testování se nyní používá k vyhodnocení všeho od designu webových stránek přes online nabídky až po nadpisy až po popisy produktů. (Ve skutečnosti jsem se minulý týden podíval na výsledky A / B testování v jazyce, který používáme k uvedení nového produktu na trh zde HBR.)
Většina z těchto experimentů probíhá, aniž by o tom subjekty vůbec věděly. „Jako uživatel jsme neustále součástí těchto testů a nevíme o tom,“ říká Fung.
A nejde jen o webové stránky. Můžete také otestovat marketingové e-maily nebo reklamy. Například můžete do svého seznamu zákazníků poslat dvě verze e-mailu (samozřejmě nejprve randomizovat seznam) a zjistit, která z nich generuje více prodejů. Potom můžete příště zaslat vítěznou verzi. Nebo můžete otestovat dvě verze reklamního textu a zjistit, která z nich převádí návštěvníky častěji. Pak víte, že můžete utratit více za získání toho nejúspěšnějšího.
Jakých chyb se lidé dopouštějí při provádění testů A / B?
Zeptal jsem se Funga na chyby, které vidí v společnostech při provádění A / B testů a poukázal na tři běžné.
Nejprve říká, že příliš mnoho manažerů nenechá testy běžet. Protože většina softwaru pro provádění těchto testů umožňuje sledovat výsledky v reálném čase, manažeři se chtějí rozhodovat příliš rychle.Tato chyba, jak říká, „se vyvíjí z netrpělivosti“, a mnoho prodejců softwaru se do této nadměrné míry pustilo tím, že nabízí typ A / B testování s názvem „optimalizace v reálném čase“, ve kterém můžete pomocí algoritmů provádět úpravy jako výsledky problém je v tom, že z důvodu randomizace je možné, že pokud necháte test běžet na svůj přirozený konec, můžete získat jiný výsledek.
Druhá chyba spočívá v pohledu na příliš mnoho metrik. „Pokaždé, když vidím software, který se snaží potěšit každého tím, že vám nabídne panel stovek metrik,“ říká. Problém je v tom, že pokud se díváte na takové velké množství metrik současně, existuje riziko, že statistici budou nazývat „falešné korelace“. Při správném návrhu testu „byste měli rozhodnout o metrikách, na které se podíváte, než provedete experiment, a vybrat několik. Čím více měříte, tím je pravděpodobnější, že uvidíte náhodné výkyvy.“ S tolika metrikami místo toho, abyste si kladli otázku: „Co se děje s touto proměnnou?“ ptáte se: „Jaké zajímavé (a potenciálně bezvýznamné) změny vidím?“
Nakonec Fung říká, že jen málo společností provádí dostatečné opakování. “Máme tendenci to jednou otestovat a pak tomu věříme. Ale i se statisticky významným výsledkem existuje poměrně velká pravděpodobnost falešně pozitivní chyby. Pokud jednou za čas nezkoušíte znovu, nevyloučíte možnost, že se budete mýlit. “ K falešným pozitivům může dojít z několika důvodů. Například, i když může existovat malá šance, že jakýkoli daný výsledek A / B je poháněn náhodnou náhodou, pokud provádíte spoustu testů A / B, šance, že alespoň jeden z vašich výsledků je špatný, rychle rostou.
To může být obzvláště obtížné, protože je pravděpodobné, že by manažeři skončili s protichůdnými výsledky a nikdo nechce zjistit, že podkopal předchozí zjištění, zejména v online světě, kde manažeři chtějí provádět změny – a rychle zachytit hodnotu. Toto zaměření na hodnotu však může být zavádějící, říká Fung: „Lidé nejsou příliš ostražití ohledně praktické hodnoty nálezů. Chtějí věřit, že každé malé množství zlepšení je cenné, i když výsledky testů nejsou zcela spolehlivé. Ve skutečnosti čím menší je zlepšení, tím méně spolehlivé výsledky. “
Je jasné, že testování A / B není všelékem. Existují složitější druhy experimentů, které jsou efektivnější a poskytnou vám spolehlivější data , Říká Fung. Ale testování A / B je skvělý způsob, jak rychle porozumět otázce, kterou máte. A „dobrá zpráva o světě testování A / B je, že všechno se děje tak rychle, takže pokud jej spustíte a nefunguje, můžete zkusit něco jiného. Vždy se můžete vrátit ke staré taktice. “