Heutzutage dreht sich alles um Daten. Führungskräfte möchten keine Entscheidungen treffen, es sei denn, sie haben Beweise. Das ist natürlich eine gute Sache, und zum Glück gibt es viele Möglichkeiten, Informationen zu erhalten, ohne sich auf die eigenen Instinkte verlassen zu müssen. Eine der häufigsten Methoden, insbesondere in Online-Einstellungen, sind A / B-Tests.
Um besser zu verstehen, was A / B-Tests sind, woher sie stammen und wie sie verwendet werden, habe ich mit Kaiser Fung gesprochen , der das Programm für angewandte Analyse an der Columbia University gründete und Autor von Junk Charts ist, einem Blog, der sich der kritischen Auseinandersetzung mit Daten und Grafiken in den Massenmedien widmet. Sein neuestes Buch ist Number Sense: Wie Sie Big Data zu Ihrem Vorteil nutzen können.
Was ist A / B-Test?
A / B-Test ist im Grunde ein Weg um zwei Versionen von etwas zu vergleichen, um herauszufinden, welche Leistung besser ist. Während es am häufigsten mit Websites und Apps in Verbindung gebracht wird, sagt Fung, dass die Methode fast 100 Jahre alt ist.
In den 1920er Jahren entdeckte der Statistiker und Biologe Ronald Fisher die wichtigsten Prinzipien hinter A / B-Tests und randomisierten kontrollierten Experimenten in Allgemeines. „Er war nicht der erste, der ein solches Experiment durchführte, aber er war der erste, der die Grundprinzipien und die Mathematik herausfand und sie zu einer Wissenschaft machte“, sagt Fung.
Fisher führte landwirtschaftliche Experimente durch und fragte Fragen wie: Was passiert, wenn ich mehr Dünger auf dieses Land bringe? Die Prinzipien blieben bestehen und in den frühen 1950er Jahren begannen Wissenschaftler, klinische Studien in der Medizin durchzuführen. In den 1960er und 1970er Jahren wurde das Konzept von Vermarktern angepasst, um Direktreaktionskampagnen zu bewerten (z. Würde eine Postkarte oder ein Brief an die Zielkunden zu mehr Umsatz führen?).
A / B-Tests in ihrer jetzigen Form wurden in den 1990er Jahren eingeführt. Fung sagt, dass im Laufe des letzten Jahrhunderts die Mathematik dahinter steckt Die Tests haben sich nicht geändert. „Es sind die gleichen Kernkonzepte, aber jetzt machen Sie es online, in einer Echtzeitumgebung und in einem anderen Maßstab in Bezug auf die Anzahl der Teilnehmer und die Anzahl der Experimente.“
Wie funktioniert der A / B-Test?
Sie starten einen A / B-Test, indem Sie entscheiden, was Sie möchten zu testen. Fung gibt ein einfaches Beispiel: Die Größe der Schaltfläche „Abonnieren“ auf Ihrer Website. Dann müssen Sie wissen, wie Sie die Leistung bewerten möchten. Angenommen, Ihre Metrik ist die Anzahl der Besucher, die auf die Schaltfläche klicken. Um den Test auszuführen, zeigen Sie zwei Benutzergruppen (die beim Besuch der Website zufällig zugewiesen werden) die verschiedenen Versionen (wobei sich nur die Größe der Schaltfläche unterscheidet) und bestimmen, welche Ihre Erfolgsmetrik am meisten beeinflusst hat. In diesem Fall hat welche Schaltflächengröße dazu geführt, dass mehr Besucher geklickt haben?
Im wirklichen Leben gibt es viele Dinge, die beeinflussen, ob jemand klickt. Beispielsweise kann es sein, dass diejenigen auf einem mobilen Gerät eher auf eine bestimmte Größenschaltfläche klicken, während diejenigen auf dem Desktop auf eine andere Größe gezeichnet werden. Hier kann Randomisierung helfen – und ist entscheidend. Indem Sie zufällig auswählen, welche Benutzer zu welcher Gruppe gehören, minimieren Sie die Wahrscheinlichkeit, dass andere Faktoren wie Mobilgeräte oder Desktops Ihre Ergebnisse im Durchschnitt beeinflussen.
„Der A / B-Test kann als die grundlegendste Art von angesehen werden randomisiertes kontrolliertes Experiment „, sagt Fung.“ In seiner einfachsten Form gibt es zwei Behandlungen und eine fungiert als Kontrolle für die andere. “ Wie bei allen randomisierten kontrollierten Experimenten müssen Sie die Stichprobengröße schätzen, die Sie benötigen, um eine statistische Signifikanz zu erreichen. Auf diese Weise können Sie sicherstellen, dass das angezeigte Ergebnis „nicht nur auf Hintergrundgeräusche zurückzuführen ist“, sagt Fung. P. >
Manchmal wissen Sie, dass bestimmte Variablen, normalerweise solche, die nicht leicht zu manipulieren sind, einen starken Einfluss auf die Erfolgsmetrik haben. Beispielsweise klicken mobile Benutzer Ihrer Website im Vergleich zu Desktop-Benutzern möglicherweise weniger auf etwas. Die Randomisierung kann dazu führen, dass Satz A etwas mehr mobile Benutzer als Satz B enthält, was dazu führen kann, dass Satz A unabhängig von der Größe der angezeigten Schaltflächen eine niedrigere Klickrate aufweist. Um die Wettbewerbsbedingungen zu verbessern, sollte der Testanalyst zuerst die Benutzer aufteilen Dies wird als Blockieren bezeichnet.
Die Größe der Schaltfläche zum Abonnieren ist ein sehr einfaches Beispiel, sagt Fung. In Wirklichkeit testen Sie möglicherweise nicht nur die Größe, aber auch die Farbe und der Text, a nd die Schriftart und die Schriftgröße. Viele Manager führen sequentielle Tests durch – z. B. testen Sie zuerst die Größe (groß gegen klein), dann die Farbe (blau gegen rot) und dann die Schrift (Times versus Arial) -, weil sie der Meinung sind, dass sie zwei oder mehr Faktoren am nicht variieren sollten gleiche Zeit. Laut Fung wurde diese Ansicht jedoch von Statistikern entkräftet. Und sequentielle Tests sind nicht optimal, da Sie nicht messen, was passiert, wenn Faktoren interagieren. Beispielsweise können Benutzer im Durchschnitt Blau bevorzugen, in Kombination mit Arial jedoch Rot.Diese Art von Ergebnis wird bei sequentiellen A / B-Tests regelmäßig übersehen, da der Schrifttest auf blauen Schaltflächen ausgeführt wird, die den vorherigen Test „gewonnen“ haben.
Stattdessen sollten Sie laut Fung komplexere Tests durchführen Dies kann für einige Manager schwierig sein, da die Attraktivität von A / B-Tests darin besteht, wie einfach und unkompliziert sie durchzuführen sind (und viele Leute, die diese Experimente entwerfen, haben laut Fung keinen statistischen Hintergrund). „Mit A. / B-Tests, wir möchten in der Regel eine große Anzahl gleichzeitiger, unabhängiger Tests durchführen “, sagt er, zum großen Teil, weil der Verstand von der Anzahl der möglichen Kombinationen abhängt, die Sie testen können. Mit der Mathematik können Sie jedoch „nur bestimmte Teilmengen dieser Behandlungen intelligent auswählen und ausführen; dann können Sie den Rest aus den Daten ableiten“. Dies wird in der A / B-Testwelt als „multivariates“ Testen bezeichnet und bedeutet häufig, dass Sie am Ende einen A / B / C-Test oder sogar einen A / B / C / D-Test durchführen. Im obigen Beispiel mit Farben und Größe kann dies bedeuten, dass verschiedene Gruppen angezeigt werden: ein großer roter Knopf, ein kleiner roter Knopf, ein großer blauer Knopf und ein kleiner blauer Knopf. Wenn Sie auch Schriftarten testen möchten, wächst die Anzahl der Testgruppen noch weiter.
Wie geht es Ihnen? Interpretieren Sie die Ergebnisse eines A / B-Tests?
Möglicherweise verwendet Ihr Unternehmen Software, die die Berechnungen verarbeitet, und es kann sogar einen Statistiker beschäftigen, der diese Ergebnisse für Sie interpretieren kann. Es ist jedoch hilfreich, ein grundlegendes Verständnis dafür zu haben, wie die Ausgabe sinnvoll ist, und zu entscheiden, ob die Testvariante fortgesetzt werden soll (die neue Schaltfläche im obigen Beispiel).
Laut Fung berichten die meisten Softwareprogramme Zwei Conversion-Raten für A / B-Tests: eine für Benutzer, die die Kontrollversion gesehen haben, und die andere für Benutzer, die die Testversion gesehen haben. „Die Conversion-Rate kann Klicks oder andere von Benutzern ergriffene Maßnahmen messen“, sagt er. Der Bericht könnte folgendermaßen aussehen: „Kontrolle: 15% (+/- 2,1%) Abweichung 18% (+/- 2,3%).“ Dies bedeutet, dass 18% Ihrer Benutzer mit einer Fehlerquote von 2,3% auf die neue Variante (möglicherweise Ihre größere blaue Schaltfläche) geklickt haben. Sie könnten versucht sein, dies als die tatsächliche Conversion-Rate zu interpretieren, die zwischen 15,7% und 20,3% liegt, aber das wäre technisch nicht korrekt. „Die eigentliche Interpretation ist, dass 95% der Bereiche die wahre Conversion-Rate erfassen, wenn Sie Ihren A / B-Test mehrmals durchgeführt haben. Mit anderen Worten, die Conversion-Rate liegt 5% der Zeit (oder was auch immer) außerhalb der Fehlergrenze Grad der statistischen Signifikanz, die Sie festgelegt haben) “, erklärt Fung.
Wenn es schwierig ist, den Kopf herumzureißen, treten Sie dem Club bei. Es ist wichtig zu wissen, dass die Conversion-Rate von 18% keine ist Hier kommt Ihr Urteilsvermögen ins Spiel. Eine Konversationsrate von 18% ist sicherlich besser als eine von 15%, selbst wenn die Fehlerquote berücksichtigt wird (12,9% –17,1% gegenüber 15,7% –20,3%). Sie könnten Leute sprechen hören Dies gilt als „3% Lift“ (Lift ist einfach der prozentuale Unterschied in der Conversion-Rate zwischen Ihrer Kontrollversion und einer erfolgreichen Testbehandlung). In diesem Fall ist es höchstwahrscheinlich eine gute Entscheidung, auf Ihre neue Version zu wechseln. Dies hängt jedoch von den Kosten für die Implementierung der neuen Version ab. Wenn sie niedrig sind, können Sie den Schalter ausprobieren und sehen, was tatsächlich passiert (im Gegensatz zu Tests). Einer der großen Vorteile des Testens in der Online-Welt besteht darin, dass Sie normalerweise ganz einfach zu Ihrem Original zurückkehren können.
Wie verwenden Unternehmen A / B-Tests?
Fung sagt das Die Popularität der Methodik hat zugenommen, da Unternehmen erkannt haben, dass die Online-Umgebung gut geeignet ist, Managern, insbesondere Marketingfachleuten, bei der Beantwortung von Fragen wie „Was bringt Menschen am wahrscheinlichsten zum Klicken? Oder zum Kaufen unseres Produkts? Oder zur Registrierung auf unserer Website?“ ” A / B-Tests werden jetzt verwendet, um alles zu bewerten, vom Website-Design über Online-Angebote bis hin zu Überschriften und Produktbeschreibungen. (Letzte Woche habe ich mir die Ergebnisse von A / B-Tests in der Sprache angesehen, in der wir hier unter ein neues Produkt vermarkten HBR.)
Die meisten dieser Experimente werden ohne Wissen der Probanden durchgeführt. „Als Benutzer sind wir die ganze Zeit Teil dieser Tests und wissen es nicht“, sagt Fung. P. >
Und es sind nicht nur Websites. Sie können auch Marketing-E-Mails oder Anzeigen testen. Sie können beispielsweise zwei Versionen einer E-Mail an Ihre Kundenliste senden (wobei die Liste natürlich zuerst randomisiert wird) und herausfinden, welche Version mehr Umsatz generiert. Dann können Sie beim nächsten Mal einfach die Gewinnerversion versenden. Oder Sie testen zwei Versionen der Anzeigenkopie und sehen, welche Besucher häufiger konvertiert. Dann wissen Sie, dass Sie mehr Geld ausgeben müssen, um den erfolgreichsten zu finden.
Welche Fehler machen die Leute bei A / B-Tests?
Ich habe Fung nach den Fehlern gefragt, die Unternehmen machen Bei der Durchführung von A / B-Tests wies er auf drei häufig vorkommende Tests hin.
Erstens, sagt er, lassen zu viele Manager die Tests nicht laufen. Da Sie mit der meisten Software zum Ausführen dieser Tests die Ergebnisse in Echtzeit anzeigen können, möchten Manager Entscheidungen zu schnell treffen.Dieser Fehler, sagt er, „entsteht aus Ungeduld“, und viele Softwareanbieter haben dieser Überanstrengung Rechnung getragen, indem sie eine Art A / B-Test namens „Echtzeitoptimierung“ anboten, bei dem Sie mithilfe von Algorithmen Anpassungen als Ergebnisse vornehmen können Das Problem ist, dass es aufgrund der Randomisierung möglich ist, dass Sie ein anderes Ergebnis erhalten, wenn Sie den Test zu seinem natürlichen Ende laufen lassen.
Der zweite Fehler besteht darin, zu viele Metriken zu betrachten. „Ich erschrecke jedes Mal, wenn ich Software sehe, die versucht, alle zufrieden zu stellen, indem sie Ihnen ein Panel mit Hunderten von Metriken zur Verfügung stellt“, sagt er. Das Problem ist, dass Sie, wenn Sie eine so große Anzahl von Metriken gleichzeitig betrachten, Es besteht die Gefahr, dass Statistiker „falsche Korrelationen“ nennen. Bei ordnungsgemäßem Testdesign sollten Sie „entscheiden, welche Metriken Sie betrachten möchten, bevor Sie ein Experiment ausführen, und einige auswählen. Je mehr Sie messen, desto wahrscheinlicher ist es, dass Sie zufällige Schwankungen feststellen.“ Bei so vielen Metriken, anstatt sich zu fragen: „Was passiert mit dieser Variablen?“ Sie fragen: „Welche interessanten (und möglicherweise unbedeutenden) Änderungen sehe ich?“
Schließlich sagt Fung, dass nur wenige Unternehmen genug Wiederholungsprüfungen durchführen. „Wir neigen dazu, sie einmal zu testen, und dann glauben wir es. Aber selbst bei einem statistisch signifikanten Ergebnis besteht eine recht große Wahrscheinlichkeit für falsch positive Fehler. Wenn Sie nicht ab und zu einen erneuten Test durchführen, schließen Sie die Möglichkeit eines Unrechts nicht aus. “ False Positives können aus mehreren Gründen auftreten. Auch wenn die Wahrscheinlichkeit gering ist, dass ein bestimmtes A / B-Ergebnis zufällig bestimmt wird, steigt die Wahrscheinlichkeit, dass mindestens eines Ihrer Ergebnisse falsch ist, schnell, wenn Sie viele A / B-Tests durchführen. P. >
Dies kann besonders schwierig sein, da Manager wahrscheinlich widersprüchliche Ergebnisse erzielen und niemand feststellen möchte, dass sie frühere Erkenntnisse untergraben haben, insbesondere in der Online-Welt, in der Manager Änderungen vornehmen möchten – und Wert erfassen – schnell. Dieser Fokus auf Wert kann jedoch falsch sein, sagt Fung: „Die Menschen sind nicht sehr wachsam in Bezug auf den praktischen Wert der Ergebnisse. Sie möchten glauben, dass jede kleine Verbesserung wertvoll ist, auch wenn die Testergebnisse nicht vollständig zuverlässig sind Je kleiner die Verbesserung, desto weniger zuverlässig sind die Ergebnisse. “
Es ist klar, dass A / B-Tests kein Allheilmittel sind. Es gibt komplexere Arten von Experimenten, die effizienter sind und zuverlässigere Daten liefern , Sagt Fung. Aber A / B-Tests sind eine großartige Möglichkeit, um ein schnelles Verständnis für Ihre Frage zu erlangen. Und „die gute Nachricht über die A / B-Testwelt ist, dass alles so schnell geht, wenn Sie es also ausführen funktioniert nicht, du kannst etwas anderes ausprobieren. Sie können jederzeit zur alten Taktik zurückkehren. “