En opdatering af A / B-test

Det handler om data i disse dage. Ledere ønsker ikke at træffe beslutninger, medmindre de har beviser. Det er selvfølgelig en god ting, og heldigvis er der mange måder at få information uden at skulle stole på ens instinkter. En af de mest almindelige metoder, især i onlineindstillinger, er A / B-test.

For bedre at forstå, hvad A / B-test er, hvor den stammer fra, og hvordan man bruger den, talte jeg med Kaiser Fung , der grundlagde det anvendte analyseprogram ved Columbia University og er forfatter til Junk Charts, en blog dedikeret til kritisk undersøgelse af data og grafik i massemedierne. Hans seneste bog er Number Sense: Hvordan bruger du store data til din fordel.

Hvad er A / B-test?

A / B-test, som det er mest grundlæggende, er en måde at sammenligne to versioner af noget for at finde ud af, hvad der fungerer bedre. Selvom det oftest er knyttet til websteder og apps, siger Fung, at metoden er næsten 100 år gammel.

I 1920erne opdagede statistikeren og biologen Ronald Fisher de vigtigste principper bag A / B-test og randomiserede kontrollerede eksperimenter i generel. “Han var ikke den første til at køre et eksperiment som dette, men han var den første til at finde ud af de grundlæggende principper og matematik og gøre dem til en videnskab,” siger Fung.

Fisher kørte landbrugseksperimenter og spurgte spørgsmål som: Hvad sker der, hvis jeg lægger mere gødning på dette land? Principperne fortsatte, og i begyndelsen af 1950erne begyndte forskere at køre kliniske forsøg inden for medicin. I 1960erne og 1970erne blev konceptet tilpasset af marketingfolk til at evaluere direkte responskampagner (f.eks ville et postkort eller et brev til at målrette kunder resultere i mere salg?).

A / B-test i sin nuværende form opstod i 1990erne. Fung siger, at matematikken bag det sidste århundrede testene har ikke ændret sig. “Det er de samme kernekoncepter, men nu gør du det online i et realtidsmiljø og i en anden skala med hensyn til antal deltagere og antal eksperimenter.”

Hvordan fungerer A / B-test?

Du starter en A / B-test ved at beslutte, hvad det er, du vil have at teste. Fung giver et simpelt eksempel: størrelsen på abonnementsknappen på dit websted. Så skal du vide, hvordan du vil evaluere dens præstationer. Lad os sige, at din metric er antallet af besøgende, der klikker på knappen. For at køre testen viser du to sæt brugere (tildelt tilfældigt, når de besøger webstedet), de forskellige versioner (hvor det eneste, der er forskelligt, er størrelsen på knappen) og bestemmer, hvilken indflydelse din succesmåling har mest. I dette tilfælde, hvilken knapstørrelse fik flere besøgende til at klikke?

I det virkelige liv er der mange ting, der påvirker, om nogen klikker. For eksempel kan det være, at dem på en mobilenhed er mere tilbøjelige til at klikke på en bestemt størrelse knap, mens de på skrivebordet trækkes til en anden størrelse. Det er her, randomisering kan hjælpe – og er kritisk. Ved at randomisere, hvilke brugere der er i hvilken gruppe, minimerer du chancerne for, at andre faktorer, som mobil versus desktop, gennemsnitligt vil føre til dine resultater.

“A / B-testen kan betragtes som den mest basale form for randomiseret kontrolleret eksperiment, “siger Fung.” I sin enkleste form er der to behandlinger, og den ene fungerer som kontrol for den anden. ” Som med alle randomiserede kontrollerede eksperimenter, skal du estimere den stikprøvestørrelse, du har brug for for at opnå en statistisk signifikans, hvilket vil hjælpe dig med at sikre, at det resultat, du ser “ikke kun er på grund af baggrundsstøj,” siger Fung.

Nogle gange ved du, at visse variabler, som regel dem, der ikke let kan manipuleres, har en stærk effekt på succes-metricen. F.eks. har mobilbrugere på dit websted måske tendens til at klikke mindre på noget sammenlignet med desktop-brugere. Randomisering kan resultere i sæt A, der indeholder lidt flere mobilbrugere end sæt B, hvilket kan medføre, at sæt A har en lavere klikrate uanset hvilken knapstørrelse de ser. For at udjævne spillereglerne skal testanalytikeren opdele brugerne via mobil og desktop og derefter tilfældigt tildele dem til hver version. Dette kaldes blokering.

Størrelsen på abonnementsknappen er et meget grundlæggende eksempel, siger Fung. I virkeligheden tester du måske ikke kun størrelse, men også farven og teksten, a nd skrifttypen og skriftstørrelsen. Mange ledere kører sekventielle tests – f.eks. Først teststørrelse (stor versus lille), derefter testning af farve (blå versus rød) og derefter testning af skrifttype (Times versus Arial) – fordi de mener, at de ikke skal variere to eller flere faktorer på samme tid. Men ifølge Fung er denne opfattelse blevet afskåret af statistikere. Og sekventielle tests er suboptimale, fordi du ikke måler, hvad der sker, når faktorer interagerer. For eksempel kan det være, at brugerne foretrækker blå i gennemsnit, men foretrækker rødt, når det kombineres med Arial.Denne form for resultat savnes regelmæssigt i sekventiel A / B-test, fordi skrifttypetesten køres på blå knapper, der har “vundet” den tidligere test.

I stedet siger Fung, at du skal køre mere komplekse tests . Dette kan være svært for nogle ledere, da appelleringen af A / B-test er, hvordan de er enkle og enkle at køre (og mange mennesker, der designer disse eksperimenter, påpeger Fung, ikke har en statistisk baggrund). “Med A / B-test, vi har tendens til at ønske at køre et stort antal samtidige, uafhængige tests, ”siger han, for det meste fordi sindet spoler på antallet af mulige kombinationer, du kan teste. Men ved hjælp af matematik kan du “smart vælge og køre kun visse undergrupper af disse behandlinger; så kan du udlede resten af dataene.” Dette kaldes “multivariat” -test i A / B-testverdenen og betyder ofte, at du ender med at lave en A / B / C-test eller endda en A / B / C / D-test. I eksemplet ovenfor med farver og størrelse kan det betyde, at der vises forskellige grupper: en stor rød knap, en lille rød knap, en stor blå knap og en lille blå knap. Hvis du også ville teste skrifttyper, ville antallet af testgrupper vokse endnu mere.

Hvordan gør du Fortolke resultaterne af en A / B-test?

Chancerne er, at din virksomhed vil bruge software, der håndterer beregningerne, og det kan endda ansætte en statistiker, der kan fortolke disse resultater for dig. Men det er nyttigt at have en grundlæggende forståelse af, hvordan man giver mening om output og beslutter, om man skal gå videre med testvariationen (den nye knap i eksemplet ovenfor).

Fung siger, at de fleste softwareprogrammer rapporterer to konverteringsfrekvenser til A / B-test: den ene for brugere, der så kontrolversionen, og den anden for brugere, der så testversionen. “Konverteringsfrekvensen kan måle klik eller andre handlinger, der er udført af brugerne,” siger han. Rapporten kan se sådan ud: “Kontrol: 15% (+/- 2,1%) Variation 18% (+/- 2,3%).” Det betyder, at 18% af dine brugere klikkede igennem på den nye variant (måske din større blå knap) med en fejlmargin på 2,3%. Du kan blive fristet til at fortolke dette som den faktiske konverteringsfrekvens, der falder mellem 15,7% og 20,3%, men det ville ikke være teknisk korrekt. “Den virkelige fortolkning er, at hvis du kørte din A / B-test flere gange, vil 95% af intervallerne fange den sande konverteringsfrekvens – med andre ord falder konverteringsfrekvensen uden for fejlmargenen 5% af tiden (eller hvad som helst niveau af statistisk signifikans, du har indstillet), ”forklarer Fung.

Hvis det er svært at pakke hovedet rundt, skal du tilmelde dig klubben. Hvad der er vigtigt at vide er, at 18% konverteringsfrekvensen ikke garanti. Det er her din dom kommer ind. En 18% samtalsrate er bestemt bedre end en 15%, selv muliggør fejlmargenen (12,9% –17,1% versus 15,7% –20,3%). Du kan muligvis høre folk tale om dette som en “3% lift” (lift er simpelthen den procentvise forskel i konverteringsfrekvens mellem din kontrolversion og en vellykket testbehandling). I dette tilfælde er det højst sandsynligt en god beslutning at skifte til din nye version, men det afhænger af omkostningerne ved at implementere den nye version. Hvis de er lave, kan du prøve kontakten og se, hvad der sker i virkeligheden (i modsætning til i test). En af de store fordele ved testning i onlineverdenen er, at du normalt kan vende tilbage til din original ret let.

Hvordan bruger virksomheder A / B-test?

Fung siger, at metodens popularitet er steget, efterhånden som virksomheder har indset, at onlinemiljøet er velegnet til at hjælpe ledere, især marketingfolk, med at besvare spørgsmål som: “Hvad er mest sandsynligt, at folk klikker? Eller køber vores produkt? Eller registrerer dig på vores side? ” A / B-test bruges nu til at evaluere alt fra webstedsdesign til online-tilbud til overskrifter til produktbeskrivelser. (Faktisk kiggede jeg i sidste uge på resultaterne af A / B-test på det sprog, vi bruger til at markedsføre et nyt produkt her på HBR.)

De fleste af disse eksperimenter kører uden, at forsøgspersonerne selv ved det. “Som bruger er vi en del af disse tests hele tiden og ved det ikke,” siger Fung.

Og det er ikke kun websteder. Du kan også teste marketing e-mails eller annoncer. For eksempel kan du sende to versioner af en e-mail til din kundeliste (randomisere listen først, selvfølgelig) og finde ud af, hvilken der genererer mere salg. Så kan du bare sende den vindende version ud næste gang. Eller du kan teste to versioner af annoncekopi og se, hvilken der konverterer besøgende oftere. Så ved du at bruge mere på at få den mest succesrige derude.

Hvilke fejl laver folk, når de foretager A / B-tests?

Jeg spurgte Fung om de fejl, han ser virksomheder lave. når han udførte A / B-tests, og han pegede på tre almindelige.

For det første siger han, for mange ledere lader ikke testene løbe. Fordi det meste af softwaren til at køre disse test giver dig mulighed for at se resultater i realtid, vil ledere træffe beslutninger for hurtigt.Denne fejl, siger han, “udvikler sig ud af utålmodighed”, og mange softwareleverandører har spillet ind i denne overmodighed ved at tilbyde en type A / B-test kaldet “realtidsoptimering”, hvor du kan bruge algoritmer til at foretage justeringer som resultater kom ind. Problemet er, at på grund af randomisering er det muligt, at hvis du lader testen løbe til sin naturlige ende, kan du få et andet resultat.

Den anden fejl er at se på for mange målinger. “Jeg kryber sammen hver gang jeg ser software, der prøver at behage alle ved at give dig et panel med hundredvis af målinger,” siger han. Problemet er, at hvis du ser på et så stort antal målinger på samme tid, skal du er i fare for at gøre det, som statistikere kalder “falske sammenhænge.” I korrekt testdesign “skal du beslutte, hvilke metrics du skal se på, inden du udfører et eksperiment og vælge et par. Jo mere du måler, jo mere sandsynligt vil du se tilfældige udsving.” Med så mange målinger i stedet for at spørge dig selv: “Hvad sker der med denne variabel?” du spørger, “Hvilke interessante (og potentielt ubetydelige) ændringer ser jeg?”

Endelig siger Fung, at få virksomheder foretager nok gentest. “Vi har tendens til at teste det en gang, og så tror vi på det. Men selv med et statistisk signifikant resultat er der en ganske stor sandsynlighed for falske positive fejl. Medmindre du prøver igen en gang imellem, udelukker du ikke muligheden for at tage fejl. ” Falske positive kan forekomme af flere grunde. For eksempel, selvom der kan være ringe chance for, at et givet A / B-resultat er drevet af tilfældig chance, vokser chancerne for, at mindst et af dine resultater er forkert, hurtigt, hvis du laver mange A / B-tests.

Dette kan være særligt vanskeligt at gøre, fordi det er sandsynligt, at ledere ville ende med modstridende resultater, og ingen vil opdage, at de har undermineret tidligere fund, især i onlineverdenen, hvor ledere ønsker at foretage ændringer – og fang værdien – hurtigt. Men dette fokus på værdi kan vildledes, siger Fung: “Folk er ikke særlig opmærksomme på den praktiske værdi af resultaterne. De vil tro, at enhver lille forbedring er værdifuld, selv når testresultaterne ikke er helt pålidelige. Faktisk jo mindre forbedring, jo mindre pålidelige resultater. ”

Det er klart, at A / B-test ikke er et universalmiddel. Der er mere komplekse eksperimenter, som er mere effektive og giver dig mere pålidelige data , Siger Fung. Men A / B-test er en fantastisk måde at få en hurtig forståelse af et spørgsmål, du har. Og “den gode nyhed om A / B-testverdenen er, at alt sker så hurtigt, så hvis du kører det, og det fungerer ikke, du kan prøve noget andet. Du kan altid vende tilbage til den gamle taktik. ”

Skriv et svar

Din e-mailadresse vil ikke blive publiceret. Krævede felter er markeret med *