En uppdatering vid A / B-testning

Det handlar om data idag. Ledare vill inte fatta beslut om de inte har bevis. Det är naturligtvis bra, och lyckligtvis finns det många sätt att få information utan att behöva förlita sig på ens instinkter. En av de vanligaste metoderna, särskilt i online-inställningar, är A / B-testning.

För att bättre förstå vad A / B-testning är, var den har sitt ursprung och hur man använder den, talade jag med Kaiser Fung , som grundade det tillämpade analysprogrammet vid Columbia University och är författare till Junk Charts, en blogg som ägnas åt kritisk granskning av data och grafik i massmedia. Hans senaste bok är Number Sense: How to Use Big Data to Your Advant.

Vad är A / B-testning?

A / B-test, som mest grundläggande, är ett sätt att jämföra två versioner av något för att ta reda på vilka som fungerar bättre. Även om det oftast förknippas med webbplatser och appar, säger Fung att metoden är nästan 100 år gammal.

På 1920-talet upptäckte statistiker och biolog Ronald Fisher de viktigaste principerna bakom A / B-testning och randomiserade kontrollerade experiment i allmän. ”Han var inte den första som körde ett experiment som detta, men han var först med att räkna ut de grundläggande principerna och matematiken och göra dem till en vetenskap”, säger Fung.

Fisher körde jordbruksexperiment och frågade. frågor som, Vad händer om jag lägger mer gödselmedel på detta land? Principerna bestod och i början av 1950-talet började forskare genomföra kliniska prövningar inom medicin. På 1960- och 1970-talet anpassades konceptet av marknadsförare för att utvärdera kampanjer för direkt respons (t.ex. skulle ett vykort eller ett brev för att rikta kunder resultera i mer försäljning?).

A / B-testning, i sin nuvarande form, kom till på 1990-talet. Fung säger att matematiken bakom det senaste århundradet testerna har inte förändrats. ”Det är samma kärnkoncept, men nu gör du det online, i en realtidsmiljö och i en annan skala när det gäller antal deltagare och antal experiment.”

Hur fungerar A / B-testning?

Du startar ett A / B-test genom att bestämma vad det är du vill ha att testa. Fung ger ett enkelt exempel: storleken på prenumerationsknappen på din webbplats. Då måste du veta hur du vill utvärdera dess prestanda. Anta i så fall att ditt mått är antalet besökare som klickar på knappen. För att köra testet visar du två uppsättningar användare (tilldelade slumpmässigt när de besöker webbplatsen) de olika versionerna (där det enda som är annorlunda är knappens storlek) och bestämmer vilken som påverkade din framgångsstatistik mest. I det här fallet, vilken knappstorlek fick fler besökare att klicka?

I verkliga livet finns det många saker som påverkar om någon klickar. Det kan till exempel vara så att de på en mobil enhet är mer benägna att klicka på en viss storleksknapp, medan de på skrivbordet dras till en annan storlek. Det är här randomisering kan hjälpa – och är kritisk. Genom att randomisera vilka användare som finns i vilken grupp minimerar du chansen att andra faktorer, som mobil kontra stationär dator, ger dina resultat i genomsnitt.

”A / B-testet kan anses vara den mest grundläggande typen av randomiserat kontrollerat experiment, säger Fung. ”I sin enklaste form finns det två behandlingar och den ena fungerar som kontroll för den andra.” Som med alla randomiserade kontrollerade experiment måste du uppskatta provstorleken du behöver för att uppnå en statistisk signifikans, vilket hjälper dig att se till att resultatet du ser ”inte bara beror på bakgrundsbrus,” säger Fung.

Ibland vet du att vissa variabler, vanligtvis de som inte är lätta att manipulera, har en stark inverkan på framgångsmåttet. Exempelvis kanske mobilanvändare på din webbplats tenderar att klicka mindre på någonting jämfört med stationära användare. Randomisering kan resultera i uppsättning A som innehåller lite fler mobilanvändare än uppsättning B, vilket kan orsaka att uppsättning A har en lägre klickfrekvens oavsett knappstorlek de ser. För att jämna ut spelplanen bör testanalytikern dela upp användarna via mobil och stationär och sedan slumpmässigt tilldela dem till varje version. Detta kallas blockering.

Storleken på prenumerationsknappen är ett mycket grundläggande exempel, säger Fung. I själva verket testar du kanske inte bara storlek men också färgen och texten, a och skriv typsnittet och teckensnittsstorleken. Många chefer kör sekventiella tester – t.ex. teststorlek först (stor kontra liten), testar sedan färg (blå kontra röd) och testar sedan typsnitt (Times versus Arial) – eftersom de tror att de inte borde variera två eller flera faktorer vid samma tid. Men enligt Fung har denna uppfattning avskräckt av statistiker. Och sekventiella tester är suboptimala eftersom du inte mäter vad som händer när faktorer interagerar. Det kan till exempel vara att användare föredrar blått i genomsnitt men föredrar rött när det kombineras med Arial.Denna typ av resultat missas regelbundet vid sekventiell A / B-testning eftersom typsnittstestet körs på blå knappar som har ”vunnit” det tidigare testet.

Istället säger Fung att du bör köra mer komplexa tester . Detta kan vara svårt för vissa chefer, eftersom A / B-testens överklagande är hur enkla och enkla de är att köra (och många människor som utformar dessa experiment, påpekar Fung, har ingen statistisk bakgrund). ”Med A / B-testning, vi tenderar att vilja köra ett stort antal samtidiga, oberoende tester, säger han, till stor del eftersom sinnet rullar på antalet möjliga kombinationer du kan testa. Men med hjälp av matematik kan du ”smart välja och köra endast vissa delmängder av dessa behandlingar; då kan du dra slutsatsen från data.” Detta kallas ”multivariat” -testning i A / B-testvärlden och innebär ofta att du slutar göra ett A / B / C-test eller till och med ett A / B / C / D-test. I exemplet ovan med färger och storlek kan det betyda att olika grupper visas: en stor röd knapp, en liten röd knapp, en stor blå knapp och en liten blå knapp. Om du också vill testa teckensnitt kommer antalet testgrupper att öka ännu mer.

Hur gör du Tolka resultaten av ett A / B-test?

Chansen är stor att ditt företag kommer att använda programvara som hanterar beräkningarna, och det kan till och med anställa en statistiker som kan tolka dessa resultat åt dig. Men det är bra att ha en grundläggande förståelse för hur man kan förstå utdata och bestämma om man ska gå vidare med testvariationen (den nya knappen i exemplet ovan).

Fung säger att de flesta program rapporterar två omvandlingsfrekvenser för A / B-testning: en för användare som såg kontrollversionen och den andra för användare som såg testversionen. ”Omvandlingsfrekvensen kan mäta klick eller andra åtgärder som vidtas av användare”, säger han. Rapporten kan se ut så här: ”Kontroll: 15% (+/- 2,1%) Variation 18% (+/- 2,3%).” Det betyder att 18% av dina användare klickade igenom den nya varianten (kanske din större blå knapp) med en felmarginal på 2,3%. Du kan frestas att tolka detta som den faktiska omvandlingsfrekvensen som faller mellan 15,7% och 20,3%, men det skulle inte vara tekniskt korrekt. ”Den verkliga tolkningen är att om du körde ditt A / B-test flera gånger kommer 95% av intervallen att fånga den sanna omvandlingsfrekvensen – med andra ord faller omvandlingsfrekvensen utanför felmarginalen 5% av tiden (eller vad som helst nivå av statistisk signifikans som du har ställt in), ”förklarar Fung.

Om det är svårt att slå om huvudet, gå med i klubben. Det som är viktigt att veta är att 18% -omvandlingsfrekvensen inte är en Det är här din bedömning kommer in. En 18% konversationsgrad är verkligen bättre än en 15%, till och med möjliggör felmarginalen (12,9% –17,1% mot 15,7% –20,3%). Du kanske hör folk prata om detta som en ”3% lift” (lift är helt enkelt den procentuella skillnaden i omvandlingsfrekvens mellan din kontrollversion och en framgångsrik testbehandling). I det här fallet är det troligtvis ett bra beslut att byta till din nya version, men det beror på kostnaderna för att implementera den nya versionen. Om de är låga kan du prova omkopplaren och se vad som händer i verkligheten (i motsats till i tester). En av de stora fördelarna med att testa i onlinevärlden är att du vanligtvis kan gå tillbaka till ditt original ganska enkelt.

Hur använder företag A / B-testning?

Fung säger att metodens popularitet har ökat när företag har insett att online-miljön är väl lämpad för att hjälpa chefer, särskilt marknadsförare, att svara på frågor som ”Vad är mest troligt att få folk att klicka? Eller köpa vår produkt? Eller registrera sig på vår webbplats? ” A / B-testning används nu för att utvärdera allt från webbdesign till online-erbjudanden till rubriker till produktbeskrivningar. (Förra veckan tittade jag faktiskt på A / B-testresultaten på det språk vi använder för att marknadsföra en ny produkt här på HBR.)

De flesta av dessa experiment körs utan att ämnena ens vet. ”Som användare är vi en del av dessa tester hela tiden och vet inte det”, säger Fung.

Och det är inte bara webbplatser. Du kan också testa e-postmeddelanden eller annonser för marknadsföring. Du kan till exempel skicka två versioner av ett e-postmeddelande till din kundlista (slumpmässigt slumpmässigt först, naturligtvis) och ta reda på vilken som genererar mer försäljning. Då kan du bara skicka ut den vinnande versionen nästa gång. Eller så kan du testa två versioner av annonstexter och se vilken som omvandlar besökare oftare. Då vet du att spendera mer på att få den mest framgångsrika där ute.

Vilka misstag gör människor när man gör A / B-tester?

Jag frågade Fung om de misstag han ser företag gör när han utförde A / B-tester och han pekade på tre vanliga.

För det första säger han att alltför många chefer inte låter testerna gå. Eftersom det mesta av programvaran för att köra dessa tester kan du titta på resultat i realtid, vill chefer fatta beslut för snabbt.Detta misstag, säger han, ”utvecklas av otålighet” och många programvaruleverantörer har spelat in i denna överansträngning genom att erbjuda en typ av A / B-test som kallas ”realtidsoptimering”, där du kan använda algoritmer för att göra justeringar som resultat komma in. Problemet är att på grund av randomisering är det möjligt att om du låter testet gå till sitt naturliga slut kan du få ett annat resultat.

Det andra misstaget är att titta på för många mätvärden. ”Jag kryper varje gång jag ser programvara som försöker behaga alla genom att ge dig en panel med hundratals mätvärden”, säger han. Problemet är att om du tittar på ett så stort antal mätvärden samtidigt, du ” riskerar att göra vad statistiker kallar ”falska korrelationer.” I rätt testdesign ”bör du bestämma vilka mätvärden du ska titta på innan du utför ett experiment och välja några. Ju mer du mäter, desto mer sannolikt kommer du att se slumpmässiga fluktuationer.” Med så många mätvärden istället för att fråga dig själv ”Vad händer med den här variabeln?” du frågar ”Vilka intressanta (och potentiellt obetydliga) förändringar ser jag?”

Slutligen säger Fung att få företag gör noggrann testning. ”Vi tenderar att testa det en gång och sedan tror vi på det. Men även med ett statistiskt signifikant resultat finns det en ganska stor sannolikhet för falskt positivt fel. Om du inte testar en gång i taget utesluter du inte möjligheten att ha fel. ” Falska positiva effekter kan uppstå av flera skäl. Till exempel, även om det kan finnas liten chans att ett visst A / B-resultat drivs av slumpmässig chans, om du gör många A / B-tester, växer chansen att åtminstone ett av dina resultat är fel snabbt.

Detta kan vara särskilt svårt att göra eftersom det är troligt att chefer kommer att få motstridiga resultat, och ingen vill upptäcka att de har undergrävt tidigare resultat, särskilt i onlinevärlden, där chefer vill göra förändringar – och fånga värde – snabbt. Men detta fokus på värde kan missvisas, säger Fung: ”Människor är inte särskilt vaksamma om det praktiska värdet av resultaten. De vill tro att varje liten förbättring är värdefull även när testresultaten inte är helt tillförlitliga. Faktum är att ju mindre förbättringen desto mindre tillförlitliga är resultaten. ”

Det är uppenbart att A / B-testning inte är ett universalmedel. Det finns mer komplexa experiment som är mer effektiva och ger dig mer tillförlitliga data , Säger Fung. Men A / B-testning är ett utmärkt sätt att få en snabb förståelse för en fråga du har. Och ”de goda nyheterna om A / B-testvärlden är att allt händer så snabbt, så om du kör det och det fungerar inte, du kan prova något annat. Du kan alltid vända tillbaka till den gamla taktiken. ”

Lämna ett svar

Din e-postadress kommer inte publiceras. Obligatoriska fält är märkta *