Een herhaling van A / B-tests

Het draait tegenwoordig allemaal om data. Leiders willen geen beslissingen nemen, tenzij ze bewijs hebben. Dat is natuurlijk een goede zaak, en gelukkig zijn er veel manieren om aan informatie te komen zonder op iemands instinct te hoeven vertrouwen. Een van de meest gebruikelijke methoden, vooral in online instellingen, is A / B-testen.

Om beter te begrijpen wat A / B-testen is, waar het vandaan kwam en hoe het te gebruiken, sprak ik met Kaiser Fung , die het toegepaste analyseprogramma aan Columbia University heeft opgericht en auteur is van Junk Charts, een blog gewijd aan het kritisch onderzoek van gegevens en afbeeldingen in de massamedia. Zijn nieuwste boek is Number Sense: How to Use Big Data to Your Advantage.

Wat is A / B-testen?

A / B-testen is in zijn meest elementaire vorm een manier om twee versies van iets te vergelijken om erachter te komen welke beter presteert. Hoewel het meestal wordt geassocieerd met websites en apps, zegt Fung dat de methode bijna 100 jaar oud is.

In de jaren 1920 ontdekte statisticus en bioloog Ronald Fisher de belangrijkste principes achter A / B-testen en gerandomiseerde gecontroleerde experimenten in algemeen. “Hij was niet de eerste die een experiment als dit uitvoerde, maar hij was de eerste die de basisprincipes en wiskunde ontdekte en er een wetenschap van maakte”, zegt Fung.

Fisher voerde landbouwexperimenten uit met de vraag vragen als: wat gebeurt er als ik meer kunstmest op dit land aanbreng? De principes bleven bestaan en in de vroege jaren 1950 begonnen wetenschappers klinische proeven in de geneeskunde uit te voeren. In de jaren zestig en zeventig werd het concept door marketeers aangepast om direct response-campagnes te evalueren (bijv. zou een ansichtkaart of een brief om klanten te targeten leiden tot meer verkopen?).

A / B-testen, in de huidige vorm, ontstonden in de jaren negentig. Fung zegt dat de wiskunde achter de tests zijn niet veranderd. “Het zijn dezelfde kernconcepten, maar nu doe je het online, in een realtime omgeving en op een andere schaal wat betreft het aantal deelnemers en het aantal experimenten.”

Hoe werkt A / B-testen?

Je start een A / B-test door te beslissen wat je wilt testen. Fung geeft een eenvoudig voorbeeld: de grootte van de abonneerknop op uw website. Dan moet u weten hoe u de prestaties ervan wilt evalueren. Stel in dit geval dat uw statistiek het aantal bezoekers is dat op de knop klikt. Om de test uit te voeren, toont u twee sets gebruikers (willekeurig toegewezen wanneer ze de site bezoeken) de verschillende versies (waarbij het enige verschil de grootte van de knop is) en bepaalt u welke het meest invloed heeft gehad op uw successtatistiek. Welke knopgrootte zorgde er in dit geval voor dat meer bezoekers klikten?

In het echte leven zijn er veel dingen die bepalen of iemand klikt. Het kan bijvoorbeeld zijn dat degenen op een mobiel apparaat eerder geneigd zijn om op een knop met een bepaalde grootte te klikken, terwijl degenen op een desktop naar een andere grootte worden getrokken. Dit is waar randomisatie kan helpen – en is van cruciaal belang. Door te randomiseren welke gebruikers in welke groep zitten, verklein je de kans dat andere factoren, zoals mobiel versus desktop, je gemiddelde resultaten behalen.

“De A / B-test kan worden beschouwd als de meest basale soort gerandomiseerd gecontroleerd experiment, “zegt Fung.” In zijn eenvoudigste vorm zijn er twee behandelingen en de ene fungeert als controle voor de andere. ” Zoals bij alle gerandomiseerde gecontroleerde experimenten, moet je de steekproefomvang schatten die je nodig hebt om een statistische significantie te bereiken, zodat je zeker weet dat het resultaat dat je ziet niet alleen door achtergrondgeluiden is, zegt Fung.

Soms weet u dat bepaalde variabelen, meestal variabelen die niet gemakkelijk kunnen worden gemanipuleerd, een sterk effect hebben op de successtatistiek. Misschien klikken mobiele gebruikers van uw website bijvoorbeeld vaak minder op iets dan desktopgebruikers. Randomisatie kan ertoe leiden dat set A iets meer mobiele gebruikers bevat dan set B, waardoor set A mogelijk een lagere klikfrequentie heeft, ongeacht de grootte van de knop die ze zien. Om het speelveld gelijk te maken, moet de testanalist eerst de gebruikers verdelen via mobiel en desktop en wijs ze vervolgens willekeurig toe aan elke versie. Dit wordt blokkering genoemd.

De grootte van de abonneerknop is een heel eenvoudig voorbeeld, zegt Fung. In werkelijkheid test je misschien niet alleen de grootte maar ook de kleur en de tekst, a en het lettertype en de tekengrootte. Veel managers voeren opeenvolgende tests uit – bijv. Eerst de grootte testen (groot versus klein), dan de kleur testen (blauw versus rood) en vervolgens het lettertype testen (Times versus Arial) – omdat ze vinden dat ze niet twee of meer factoren bij de dezelfde tijd. Maar volgens Fung is dat standpunt door statistici ontkracht. En opeenvolgende tests zijn niet optimaal omdat u niet meet wat er gebeurt als factoren op elkaar inwerken. Het kan bijvoorbeeld zijn dat gebruikers gemiddeld de voorkeur geven aan blauw, maar de voorkeur geven aan rood in combinatie met Arial.Dit soort resultaat wordt regelmatig gemist bij opeenvolgende A / B-tests omdat de lettertypetest wordt uitgevoerd op blauwe knoppen die de vorige test hebben “gewonnen”.

In plaats daarvan, zegt Fung, zou je complexere tests moeten uitvoeren . Dit kan voor sommige managers moeilijk zijn, aangezien de aantrekkingskracht van A / B-tests is hoe eenvoudig en eenvoudig ze zijn om uit te voeren (en veel mensen die deze experimenten ontwerpen, zo merkt Fung op, hebben geen statistische achtergrond). ” / B-tests, we hebben de neiging om een groot aantal gelijktijdige, onafhankelijke tests te willen uitvoeren ”, zegt hij, grotendeels omdat de geest duizelt bij het aantal mogelijke combinaties dat u kunt testen. Maar met behulp van wiskunde kun je slim alleen bepaalde subsets van die behandelingen uitkiezen en uitvoeren; dan kun je de rest afleiden uit de gegevens. Dit wordt “multivariate” testen genoemd in de A / B-testwereld en betekent vaak dat je uiteindelijk een A / B / C-test of zelfs een A / B / C / D-test doet. In het bovenstaande voorbeeld met kleuren en grootte kan dit betekenen dat er verschillende groepen worden weergegeven: een grote rode knop, een kleine rode knop, een grote blauwe knop en een kleine blauwe knop. Als u ook lettertypen zou willen testen, zou het aantal testgroepen nog groter worden.

Hoe gaat het met u De resultaten van een A / B-test interpreteren?

De kans is groot dat uw bedrijf software gebruikt die de berekeningen afhandelt, en het kan zelfs een statisticus in dienst hebben die deze resultaten voor u kan interpreteren. Maar het is handig om een basiskennis te hebben van hoe je de output kunt begrijpen en te beslissen of je verder wilt gaan met de testvariatie (de nieuwe knop in het bovenstaande voorbeeld).

Fung zegt dat de meeste softwareprogrammas rapporteren twee conversiepercentages voor A / B-testen: één voor gebruikers die de controleversie hebben gezien en de andere voor gebruikers die de testversie hebben gezien. “De conversieratio kan klikken meten of andere acties die door gebruikers worden ondernomen”, zegt hij. Het rapport kan er als volgt uitzien: “Controle: 15% (+/- 2,1%) Variatie 18% (+/- 2,3%).” Dit betekent dat 18% van uw gebruikers heeft doorgeklikt op de nieuwe variant (misschien uw grotere blauwe knop) met een foutmarge van 2,3%. U zou in de verleiding kunnen komen om dit te interpreteren als een feitelijke conversieratio die tussen 15,7% en 20,3% ligt, maar dat zou technisch niet correct zijn. “De echte interpretatie is dat als je je A / B-test meerdere keren hebt uitgevoerd, 95% van de bereiken de werkelijke conversieratio vastlegt, met andere woorden, de conversieratio valt 5% van de tijd (of wat dan ook) buiten de foutmarge. niveau van de statistische significantie die u heeft ingesteld), “legt Fung uit.

Als dit moeilijk te begrijpen is, word dan lid van de club. Wat belangrijk is om te weten, is dat het conversiepercentage van 18% geen garantie. Dit is waar uw oordeel om de hoek komt kijken. Een conversatiepercentage van 18% is zeker beter dan een 15%, zelfs rekening houdend met de foutmarge (12,9% –17,1% versus 15,7% –20,3%). U hoort misschien mensen praten over dit als een “stijging van 3%” (stijging is gewoon het procentuele verschil in conversieratio tussen uw controleversie en een succesvolle testbehandeling). In dit geval is het waarschijnlijk een goede beslissing om over te schakelen naar uw nieuwe versie, maar dat hangt af van de kosten voor het implementeren van de nieuwe versie. Als ze laag zijn, kunt u de schakelaar uitproberen en kijken wat er in werkelijkheid gebeurt (in tegenstelling tot tests). Een van de grote voordelen van testen in de online wereld is dat je meestal vrij gemakkelijk kunt terugkeren naar je oorspronkelijke versie.

Hoe gebruiken bedrijven A / B-testen?

Fung zegt dat de populariteit van de methodologie is gestegen omdat bedrijven zich realiseerden dat de online-omgeving zeer geschikt is om managers, vooral marketeers, te helpen bij het beantwoorden van vragen als: “Waar zullen mensen waarschijnlijk op klikken? Of ons product kopen? Of registreren op onze site? ” A / B-testen worden nu gebruikt om alles te evalueren, van website-ontwerp tot online aanbiedingen en koppen tot productbeschrijvingen. (Vorige week keek ik zelfs naar de resultaten van A / B-testen op de taal die we gebruiken om een nieuw product hier op de markt te brengen. HBR.)

De meeste van deze experimenten worden uitgevoerd zonder dat de proefpersonen het zelfs maar weten. “Als gebruiker maken we altijd deel uit van deze tests en we weten het niet”, zegt Fung.

En het zijn niet alleen websites. U kunt ook marketing-e-mails of advertenties testen. U kunt bijvoorbeeld twee versies van een e-mail naar uw klantenlijst sturen (uiteraard eerst de lijst willekeurig maken) en uitzoeken welke meer verkopen genereert. Dan kun je de volgende keer gewoon de winnende versie versturen. Of u kunt twee versies van de advertentietekst testen en zien welke bezoekers vaker worden geconverteerd. Dan weet je dat je meer moet uitgeven om de meest succesvolle te krijgen.

Welke fouten maken mensen bij het doen van A / B-tests?

Ik vroeg Fung naar de fouten die hij bedrijven ziet maken bij het uitvoeren van A / B-tests, en hij wees op drie veelvoorkomende tests.

Ten eerste, zegt hij, laten te veel managers de tests niet op hun beloop. Omdat u met de meeste software voor het uitvoeren van deze tests de resultaten in realtime kunt bekijken, willen managers te snel beslissingen nemen.Deze fout, zegt hij, komt voort uit ongeduld, en veel softwareleveranciers hebben op deze overdrevenheid ingespeeld door een soort A / B-tests aan te bieden die realtime optimalisatie wordt genoemd, waarin u algoritmen kunt gebruiken om aanpassingen te maken als resultaat kom binnen. Het probleem is dat het, vanwege randomisatie, mogelijk is dat als je de test tot zijn natuurlijke einde laat lopen, je een ander resultaat krijgt.

De tweede fout is kijken naar te veel metrieken. “Ik krimp ineen elke keer dat ik software zie die iedereen probeert te plezieren door je een panel van honderden metrics te geven”, zegt hij. Het probleem is dat als je zo veel metrics tegelijk bekijkt, je lopen het risico om te maken wat statistici onechte correlaties noemen. Bij het juiste testontwerp “moet u beslissen welke statistieken u gaat bekijken voordat u een experiment uitvoert en er een paar selecteert. Hoe meer u meet, hoe groter de kans dat u willekeurige fluctuaties zult zien.” Met zoveel statistieken, in plaats van uzelf af te vragen: “Wat gebeurt er met deze variabele?” je vraagt: “Welke interessante (en mogelijk onbeduidende) veranderingen zie ik?”

Ten slotte zegt Fung dat maar weinig bedrijven genoeg opnieuw testen. “We hebben de neiging om het een keer te testen en dan geloven we het. Maar zelfs met een statistisch significant resultaat, is er een vrij grote kans op een fout-positieve fout. Tenzij u af en toe een nieuwe test uitvoert, sluit u niet uit dat u ongelijk hebt. ” Valse positieven kunnen om verschillende redenen voorkomen. Hoewel er bijvoorbeeld weinig kans is dat een bepaald A / B-resultaat wordt bepaald door een willekeurige kans, neemt de kans dat ten minste één van uw resultaten onjuist is, snel toe als u veel A / B-tests doet.

Dit kan bijzonder moeilijk zijn omdat het waarschijnlijk is dat managers tegenstrijdige resultaten zullen opleveren en niemand wil ontdekken dat ze eerdere bevindingen hebben ondermijnd, vooral in de online wereld, waar managers wijzigingen willen aanbrengen – en waarde vastleggen – snel. Maar deze focus op waarde kan misplaatst zijn, zegt Fung: “Mensen zijn niet erg waakzaam over de praktische waarde van de bevindingen. Ze willen geloven dat elke kleine hoeveelheid verbetering waardevol is, zelfs als de testresultaten niet volledig betrouwbaar zijn. , hoe kleiner de verbetering, hoe minder betrouwbaar de resultaten. “

Het is duidelijk dat A / B-testen geen wondermiddel is. Er zijn complexere soorten experimenten die efficiënter zijn en u betrouwbaardere gegevens opleveren , Zegt Fung. Maar A / B-testen is een geweldige manier om snel inzicht te krijgen in een vraag die je hebt. En “het goede nieuws over de wereld van A / B-testen is dat alles zo snel gebeurt, dus als je het uitvoert en het werkt niet, u kunt iets anders proberen. Je kunt altijd teruggaan naar de oude tactiek. ”

Een herhaling van A / B-tests

Wat is A / B-testen?

Hoe werkt A / B-testen?

Hoe gaat het met u De resultaten van een A / B-test interpreteren?

Hoe gebruiken bedrijven A / B-testen?

Welke fouten maken mensen bij het doen van A / B-tests?

Geef een reactie Antwoord annuleren

Meest recente berichten

Archief

Meta