A Oppfriskning på A / B-testing

Det handler om data i disse dager. Ledere vil ikke ta avgjørelser med mindre de har bevis. Det er selvfølgelig en god ting, og heldigvis er det mange måter å få informasjon uten å måtte stole på ens instinkter. En av de vanligste metodene, spesielt i elektroniske innstillinger, er A / B-testing.

For å bedre forstå hva A / B-testing er, hvor den har sitt opphav og hvordan den skal brukes, snakket jeg med Kaiser Fung , som grunnla det anvendte analyseprogrammet ved Columbia University og er forfatter av Junk Charts, en blogg viet til kritisk undersøkelse av data og grafikk i massemediene. Hans siste bok er Number Sense: How to Use Big Data to Your Fordel.

Hva er A / B-testing?

A / B-testing, på sitt mest grunnleggende, er en måte å sammenligne to versjoner av noe for å finne ut hva som fungerer bedre. Selv om det oftest er knyttet til nettsteder og apper, sier Fung at metoden er nesten 100 år gammel.

På 1920-tallet oppdaget statistiker og biolog Ronald Fisher de viktigste prinsippene bak A / B-testing og randomiserte kontrollerte eksperimenter i generell. «Han var ikke den første som kjørte et eksperiment som dette, men han var den første som fant ut de grunnleggende prinsippene og matematikken og gjorde dem til en vitenskap,» sier Fung.

Fisher kjørte landbrukseksperimenter og spurte spørsmål som: Hva skjer hvis jeg legger mer gjødsel på dette landet? Prinsippene vedvarte og tidlig på 1950-tallet begynte forskere å kjøre kliniske studier innen medisin. På 1960- og 1970-tallet ble konseptet tilpasset markedsførere for å evaluere direkte responskampanjer (f.eks. ville et postkort eller et brev for å målrette kunder føre til mer salg?).

A / B-testing, i sin nåværende form, ble til på 1990-tallet. Fung sier at matematikken bak det siste århundret testene har ikke endret seg. «Det er de samme kjernekonseptene, men nå gjør du det online, i sanntidsmiljø og i en annen skala når det gjelder antall deltakere og antall eksperimenter.»

Hvordan fungerer A / B-testing?

Du starter en A / B-test ved å bestemme hva du vil ha å teste. Fung gir et enkelt eksempel: størrelsen på abonnementsknappen på nettstedet ditt. Da må du vite hvordan du vil evaluere ytelsen. La oss si at beregningen er antall besøkende som klikker på knappen. For å kjøre testen viser du to sett med brukere (tildelt tilfeldig når de besøker nettstedet) de forskjellige versjonene (hvor det eneste som er forskjellig er størrelsen på knappen) og bestemmer hvilken som påvirket suksessverdien din mest. I dette tilfellet, hvilken knappestørrelse som fikk flere besøkende til å klikke?

I virkeligheten er det mange ting som påvirker om noen klikker. For eksempel kan det være at de på en mobil enhet er mer sannsynlig å klikke på en bestemt størrelse-knapp, mens de på skrivebordet trekkes til en annen størrelse. Dette er hvor randomisering kan hjelpe – og er kritisk. Ved å randomisere hvilke brukere som er i hvilken gruppe, minimerer du sjansene for at andre faktorer, som mobil versus stasjonær, i gjennomsnitt vil føre til resultatene dine.

«A / B-testen kan betraktes som den mest grunnleggende typen randomisert kontrollert eksperiment, «sier Fung.» I sin enkleste form er det to behandlinger, og den ene fungerer som kontroll for den andre. » Som med alle randomiserte kontrollerte eksperimenter, må du estimere prøvestørrelsen du trenger for å oppnå en statistisk signifikans, som vil hjelpe deg med å sikre at resultatet du ser «ikke bare er på grunn av bakgrunnsstøy,» sier Fung.

Noen ganger vet du at visse variabler, vanligvis de som ikke lett kan manipuleres, har en sterk innvirkning på suksessberegningen. For eksempel, kanskje brukere av nettstedet ditt har en tendens til å klikke mindre på noe, sammenlignet med stasjonære brukere. Randomisering kan føre til at sett A inneholder litt flere mobilbrukere enn sett B, noe som kan føre til at sett A får en lavere klikkfrekvens uavhengig av knappestørrelsen de ser. For å utjevne spillefeltet, bør testanalytikeren dele brukerne via mobil og stasjonær datamaskin, og tildel dem deretter tilfeldig til hver versjon. Dette kalles blokkering.

Størrelsen på abonnementsknappen er et veldig grunnleggende eksempel, sier Fung. I virkeligheten tester du kanskje ikke bare størrelse, men også fargen og teksten, a og skriv skrift og skriftstørrelse. Mange ledere kjører sekvensielle tester – for eksempel teststørrelse først (stor versus liten), deretter testing av farge (blå versus rød), og deretter testing av skrift (Times versus Arial) – fordi de mener at de ikke bør variere to eller flere faktorer på samme tid. Men ifølge Fung er dette synet blitt avkreftet av statistikere. Og sekvensielle tester er suboptimale fordi du ikke måler hva som skjer når faktorer samhandler. For eksempel kan det være at brukere foretrekker blått i gjennomsnitt, men foretrekker rødt når det kombineres med Arial.Denne typen resultat blir regelmessig savnet i sekvensiell A / B-testing fordi skrifttypetesten kjøres på blå knapper som har «vunnet» den forrige testen.

I stedet, sier Fung, bør du kjøre mer komplekse tester. . Dette kan være vanskelig for noen ledere, siden appellen til A / B-tester er hvor enkle og enkle de er å kjøre (og mange som designer disse eksperimentene, påpeker Fung, ikke har statistisk bakgrunn). «Med A / B-testing, vi pleier å ønske å kjøre et stort antall samtidige, uavhengige tester, ”sier han, stort sett fordi tankene spoler på antall mulige kombinasjoner du kan teste. Men ved å bruke matematikk kan du «smart velge og kjøre bare visse undergrupper av disse behandlingene; så kan du utlede resten av dataene.» Dette kalles «multivariat» -testing i A / B-testverdenen og betyr ofte at du ender med å gjøre en A / B / C-test eller til og med en A / B / C / D-test. I eksemplet ovenfor med farger og størrelse kan det bety at du viser forskjellige grupper: en stor rød knapp, en liten rød knapp, en stor blå knapp og en liten blå knapp. Hvis du også ville teste skrifttyper, ville antallet testgrupper vokse enda mer.

Hvordan gjør du Tolke resultatene av en A / B-test?

Sjansen er stor for at firmaet ditt vil bruke programvare som håndterer beregningene, og det kan til og med ansette en statistiker som kan tolke resultatene for deg. Men det er nyttig å ha en grunnleggende forståelse av hvordan du kan gi mening om utdataene og bestemme om du vil gå videre med testvariasjonen (den nye knappen i eksemplet ovenfor).

Fung sier at de fleste programmer rapporterer to konverteringsfrekvenser for A / B-testing: en for brukere som så kontrollversjonen, og den andre for brukere som så testversjonen. «Konverteringsfrekvensen kan måle klikk, eller andre handlinger som er utført av brukerne,» sier han. Rapporten kan se slik ut: «Kontroll: 15% (+/- 2,1%) Variasjon 18% (+/- 2,3%).» Dette betyr at 18% av brukerne dine klikket seg gjennom på den nye varianten (kanskje din større blå knapp) med en feilmargin på 2,3%. Du kan bli fristet til å tolke dette som at den faktiske konverteringsfrekvensen faller mellom 15,7% og 20,3%, men det ville ikke være teknisk riktig. «Den virkelige tolkningen er at hvis du kjørte A / B-testen flere ganger, vil 95% av områdene fange den sanne konverteringsfrekvensen – med andre ord, konverteringsfrekvensen faller utenfor feilmarginen 5% av tiden (eller hva som helst nivå av statistisk signifikans du har angitt), «forklarer Fung.

Hvis dette er vanskelig å pakke hodet rundt, kan du bli med i klubben. Det som er viktig å vite er at 18% konverteringsfrekvensen ikke er en Det er her din vurdering kommer inn. En 18% samtalefrekvens er absolutt bedre enn en 15%, selv om du tillater feilmarginen (12,9% –17,1% mot 15,7% –20,3%). Du kan høre folk snakke om dette som en «3% lift» (lift er ganske enkelt den prosentvise forskjellen i konverteringsfrekvens mellom kontrollversjonen din og en vellykket testbehandling). I dette tilfellet er det sannsynligvis en god beslutning å bytte til den nye versjonen, men det vil avhenge av kostnadene ved å implementere den nye versjonen. Hvis de er lave, kan du prøve bryteren og se hva som skjer i virkeligheten (i motsetning til i tester). En av de store fordelene med å teste i den elektroniske verdenen er at du vanligvis kan gå tilbake til originalen ganske enkelt.

Hvordan bruker bedrifter A / B-testing?

Fung sier at populariteten til metodikken har økt etter hvert som selskaper har innsett at nettmiljøet er godt egnet for å hjelpe ledere, spesielt markedsførere, med å svare på spørsmål som: «Hva er mest sannsynlig å få folk til å klikke? Eller kjøpe produktet vårt? Eller registrere deg på nettstedet vårt? ” A / B-testing brukes nå til å evaluere alt fra nettstedsdesign til online tilbud til overskrifter til produktbeskrivelser. (Faktisk så jeg i forrige uke på resultatene av A / B-testing på språket vi bruker for å markedsføre et nytt produkt her på HBR.)

De fleste av disse eksperimentene kjører uten at fagene vet det. «Som bruker er vi en del av disse testene hele tiden og vet ikke det,» sier Fung.

Og det er ikke bare nettsteder. Du kan også teste e-post eller annonser for markedsføring. For eksempel kan du sende to versjoner av en e-post til kundelisten din (randomisere listen først, selvfølgelig) og finne ut hvilken som genererer mer salg. Da kan du bare sende ut den vinnende versjonen neste gang. Eller du kan teste to versjoner av annonsekopien og se hvilken som konverterer besøkende oftere. Da vet du å bruke mer på å få den mest vellykkede der ute.

Hvilke feil gjør folk når de gjør A / B-tester?

Jeg spurte Fung om feilene han ser bedrifter gjør. når han utførte A / B-tester, og han pekte på tre vanlige.

For det første sier han at for mange ledere ikke lar testene løpe. Fordi det meste av programvaren for å kjøre disse testene lar deg se resultatene i sanntid, vil ledere ta beslutninger for raskt.Denne feilen, sier han, «utvikler seg ut av utålmodighet,» og mange programvareleverandører har spilt inn i denne overmodigheten ved å tilby en type A / B-testing kalt «sanntidsoptimalisering», der du kan bruke algoritmer til å gjøre justeringer som resultater kom inn. Problemet er at på grunn av randomisering er det mulig at hvis du lar testen kjøre til sin naturlige slutt, kan du få et annet resultat.

Den andre feilen er å se på for mange beregninger. «Jeg kryper hver gang jeg ser programvare som prøver å behage alle ved å gi deg et panel med hundrevis av beregninger,» sier han. Problemet er at hvis du ser på et så stort antall beregninger samtidig, er i fare for å lage det statistikerne kaller «falske sammenhenger.» I riktig testdesign «bør du bestemme beregningene du skal se på før du utfører et eksperiment og velge noen. Jo mer du måler, desto mer sannsynlig vil du se tilfeldige svingninger.» Med så mange beregninger, i stedet for å spørre deg selv: «Hva skjer med denne variabelen?» du spør: «Hvilke interessante (og potensielt ubetydelige) endringer ser jeg?»

Til slutt sier Fung at få selskaper gjør nok omprøving. «Vi har en tendens til å teste det en gang og så tror vi det. Men selv med et statistisk signifikant resultat, er det en ganske stor sannsynlighet for falske positive feil. Med mindre du prøver på nytt en gang i blant, utelukker du ikke muligheten for å ta feil. » Falske positive kan oppstå av flere grunner. For eksempel, selv om det er liten sjanse for at et gitt A / B-resultat er drevet av tilfeldig sjanse, hvis du gjør mange A / B-tester, vokser sjansene for at minst ett av resultatene dine er feil.

Dette kan være spesielt vanskelig å gjøre fordi det er sannsynlig at ledere vil ende med motstridende resultater, og ingen vil oppdage at de har undergravd tidligere funn, spesielt i den elektroniske verdenen, der ledere ønsker å gjøre endringer – og fange verdi – raskt. Men dette fokuset på verdi kan misforstås, sier Fung: «Folk er ikke veldig årvåkne om den praktiske verdien av funnene. De vil tro at hver eneste liten forbedring er verdifull, selv når testresultatene ikke er helt pålitelige. Faktisk jo mindre forbedring, desto mindre pålitelige blir resultatene. «

Det er klart at A / B-testing ikke er et universalmiddel. Det er mer komplekse typer eksperimenter som er mer effektive og vil gi deg mer pålitelige data , Sier Fung. Men A / B-testing er en fin måte å få en rask forståelse av et spørsmål du har. Og «den gode nyheten om A / B-testverdenen er at alt skjer så raskt, så hvis du kjører det og det fungerer ikke, du kan prøve noe annet. Du kan alltid vende tilbake til den gamle taktikken. ”

Legg igjen en kommentar

Din e-postadresse vil ikke bli publisert. Obligatoriske felt er merket med *