Un rappel sur les tests A / B

Aujourdhui, tout tourne autour des données. Les dirigeants ne veulent pas prendre de décisions à moins d’avoir des preuves. C’est une bonne chose, bien sûr, et heureusement, il existe de nombreuses façons d’obtenir des informations sans avoir à se fier à son instinct. Lune des méthodes les plus courantes, en particulier dans les paramètres en ligne, est le test A / B.

Pour mieux comprendre ce quest le test A / B, doù il provient et comment lutiliser, jai parlé avec Kaiser Fung , qui a fondé le programme danalyse appliquée à lUniversité de Columbia et est lauteur de Junk Charts, un blog consacré à lexamen critique des données et des graphiques dans les médias de masse. Son dernier livre est Number Sense: Comment utiliser le Big Data à votre avantage.

Quest-ce que le test A / B?

Le test A / B, dans sa forme la plus élémentaire, est un moyen pour comparer deux versions de quelque chose pour déterminer laquelle fonctionne mieux. Bien quelle soit le plus souvent associée à des sites Web et des applications, Fung dit que la méthode a presque 100 ans.

Dans les années 1920, le statisticien et biologiste Ronald Fisher a découvert les principes les plus importants derrière les tests A / B et les expériences contrôlées randomisées dans général. « Il na pas été le premier à mener une expérience comme celle-ci, mais il a été le premier à comprendre les principes de base et les mathématiques et à en faire une science », explique Fung.

Fisher a mené des expériences agricoles, demandant des questions telles que: Que se passe-t-il si je mets plus dengrais sur cette terre? Les principes ont persisté et au début des années 1950, les scientifiques ont commencé à mener des essais cliniques en médecine. Dans les années 1960 et 1970, le concept a été adapté par les spécialistes du marketing pour évaluer les campagnes de réponse directe (par exemple, Une carte postale ou une lettre adressée à des clients ciblés entraînerait-elle plus de ventes?).

Le test A / B, dans sa forme actuelle, a vu le jour dans les années 1990. Fung dit que tout au long du siècle dernier, les calculs derrière les tests nont pas changé. « Ce sont les mêmes concepts de base, mais maintenant vous le faites en ligne, dans un environnement en temps réel et à une échelle différente en termes de nombre de participants et de nombre dexpériences. »

Comment fonctionne le test A / B?

Vous démarrez un test A / B en décidant de ce que vous voulez tester. Fung donne un exemple simple: la taille du bouton dinscription sur votre site Web. Ensuite, vous devez savoir comment vous souhaitez évaluer ses performances. Dans ce cas, imaginons que votre statistique correspond au nombre de visiteurs qui cliquent sur le bouton. Pour exécuter le test, vous montrez à deux groupes dutilisateurs (assignés au hasard lorsquils visitent le site) les différentes versions (où la seule différence est la taille du bouton) et déterminez celle qui a le plus influencé votre métrique de réussite. Dans ce cas, quelle taille de bouton a incité le plus de visiteurs à cliquer?

Dans la vraie vie, il y a beaucoup de choses qui influencent si quelquun clique. Par exemple, il se peut que ceux sur un appareil mobile soient plus susceptibles de cliquer sur un bouton dune certaine taille, tandis que ceux sur le bureau sont dessinés à une taille différente. Cest là que la randomisation peut aider – et est essentielle. En sélectionnant au hasard les utilisateurs dans quel groupe, vous minimisez les chances que dautres facteurs, comme le mobile par rapport au bureau, conduisent vos résultats en moyenne.

« Le test A / B peut être considéré comme le type le plus élémentaire de expérience contrôlée randomisée », explique Fung.« Dans sa forme la plus simple, il existe deux traitements et lun agit comme le contrôle de lautre. Comme pour toutes les expériences contrôlées randomisées, vous devez estimer la taille de léchantillon dont vous avez besoin pour obtenir une signification statistique, ce qui vous aidera à vous assurer que le résultat que vous voyez « nest pas uniquement dû au bruit de fond », explique Fung.

Parfois, vous savez que certaines variables, généralement celles qui ne sont pas facilement manipulables, ont un effet important sur la métrique de succès. Par exemple, les utilisateurs mobiles de votre site Web ont peut-être tendance à moins cliquer sur nimporte quoi que les utilisateurs de bureau. La randomisation peut aboutir à ce que lensemble A contienne légèrement plus dutilisateurs mobiles que lensemble B, ce qui peut entraîner un taux de clics inférieur à lensemble A, quelle que soit la taille du bouton affiché. Pour uniformiser les règles du jeu, lanalyste de test doit dabord diviser les utilisateurs. par mobile et ordinateur, puis attribuez-les au hasard à chaque version. Cest ce quon appelle le blocage.

La taille du bouton dinscription est un exemple très basique, dit Fung. En réalité, vous ne testez peut-être pas uniquement le taille mais aussi la couleur, et le texte, un Trouvez la police et la taille de la police. De nombreux gestionnaires exécutent des tests séquentiels – par exemple, tester dabord la taille (grande contre petite), puis tester la couleur (bleu contre rouge), puis tester la police (Times contre Arial) – parce quils estiment quils ne devraient pas varier deux ou plusieurs facteurs à la en même temps. Mais selon Fung, ce point de vue a été démystifié par les statisticiens. Et les tests séquentiels ne sont pas optimaux car vous ne mesurez pas ce qui se passe lorsque des facteurs interagissent. Par exemple, il se peut que les utilisateurs préfèrent le bleu en moyenne, mais préfèrent le rouge lorsquil est combiné avec Arial.Ce type de résultat est régulièrement manqué dans les tests A / B séquentiels car le test de police est exécuté sur des boutons bleus qui ont « gagné » le test précédent.

Au lieu de cela, dit Fung, vous devriez exécuter des tests plus complexes . Cela peut être difficile pour certains managers, car l’intérêt des tests A / B réside dans la simplicité et la simplicité d’exécution de ces tests (et de nombreuses personnes qui conçoivent ces expériences, souligne Fung, n’ont pas de connaissances en statistiques). « Avec A / B testing, nous avons tendance à vouloir exécuter un grand nombre de tests simultanés et indépendants », dit-il, en grande partie parce que lesprit tourne au nombre de combinaisons possibles que vous pouvez tester. Mais en utilisant les mathématiques, vous pouvez « sélectionner et exécuter intelligemment uniquement certains sous-ensembles de ces traitements, puis vous pouvez déduire le reste à partir des données. » Cest ce quon appelle le test «multivarié» dans le monde des tests A / B et signifie souvent que vous finissez par faire un test A / B / C ou même un test A / B / C / D. Dans lexemple ci-dessus avec les couleurs et la taille, cela peut signifier afficher différents groupes: un gros bouton rouge, un petit bouton rouge, un grand bouton bleu et un petit bouton bleu. Si vous vouliez également tester des polices, le nombre de groupes de test augmenterait encore plus.

Comment allez-vous Interpréter les résultats dun test A / B?

Il y a de fortes chances que votre entreprise utilise un logiciel qui gère les calculs, et elle peut même employer un statisticien qui peut interpréter ces résultats pour vous. Mais il est utile davoir une compréhension de base de la façon de donner un sens à la sortie et de décider sil faut aller de lavant avec la variante de test (le nouveau bouton dans lexemple ci-dessus).

Fung dit que la plupart des logiciels rapportent deux taux de conversion pour les tests A / B: un pour les utilisateurs qui ont vu la version de contrôle et lautre pour les utilisateurs qui ont vu la version de test. « Le taux de conversion peut mesurer les clics ou dautres actions entreprises par les utilisateurs », dit-il. Le rapport pourrait ressembler à ceci: « Contrôle: 15% (+/- 2,1%) Variation 18% (+/- 2,3%). » Cela signifie que 18% de vos utilisateurs ont cliqué sur la nouvelle variante (peut-être votre plus grand bouton bleu) avec une marge derreur de 2,3%. Vous pourriez être tenté d’interpréter cela comme un taux de conversion réel compris entre 15,7% et 20,3%, mais ce ne serait pas techniquement correct. « La vraie interprétation est que si vous exécutez votre test A / B plusieurs fois, 95% des plages captureront le taux de conversion réel – en dautres termes, le taux de conversion tombe en dehors de la marge derreur 5% du temps (ou autre niveau de signification statistique que vous avez défini) », explique Fung.

Si vous avez du mal à comprendre, rejoignez le club. Ce quil est important de savoir, cest que le taux de conversion de 18% nest pas Cest là que votre jugement entre en jeu. Un taux de conversation de 18% est certainement meilleur quun taux de 15%, même en tenant compte de la marge derreur (12,9% –17,1% contre 15,7% –20,3%). Vous pourriez entendre les gens parler à propos de cela comme un « élévation de 3% » (laugmentation est simplement la différence en pourcentage du taux de conversion entre votre version de contrôle et un traitement de test réussi). Dans ce cas, cest probablement une bonne décision de passer à votre nouvelle version, mais cela dépendra des coûts de mise en œuvre de la nouvelle version. Sils sont bas, vous pouvez essayer le commutateur et voir ce qui se passe dans la réalité (par opposition aux tests). Lun des grands avantages des tests dans le monde en ligne est que vous pouvez généralement revenir à votre version dorigine assez facilement.

Comment les entreprises utilisent-elles les tests A / B?

Fung dit que la popularité de la méthodologie a augmenté au fur et à mesure que les entreprises se sont rendu compte que lenvironnement en ligne était bien adapté pour aider les gestionnaires, en particulier les spécialistes du marketing, à répondre à des questions telles que «Quest-ce qui est le plus susceptible de faire cliquer les gens? Ou acheter notre produit? Ou sinscrire sur notre site? » Les tests A / B sont désormais utilisés pour tout évaluer, de la conception de sites Web aux offres en ligne, en passant par les titres et les descriptions de produits (en fait, la semaine dernière, jai examiné les résultats des tests A / B sur le langage que nous utilisons pour commercialiser un nouveau produit ici à HBR.)

La plupart de ces expériences se déroulent à linsu des sujets. « En tant quutilisateur, nous participons constamment à ces tests et nous ne le savons pas », déclare Fung.

Et ce ne sont pas que des sites Web. Vous pouvez également tester des e-mails ou des publicités marketing. Par exemple, vous pouvez envoyer deux versions dun e-mail à votre liste de clients (en commençant par randomiser la liste, bien sûr) et déterminer laquelle génère le plus de ventes. Ensuite, vous pouvez simplement envoyer la version gagnante la prochaine fois. Vous pouvez également tester deux versions du texte publicitaire et voir laquelle convertit le plus souvent les visiteurs. Alors vous savez quil faut dépenser plus pour obtenir celui qui réussit le mieux.

Quelles erreurs les gens font-ils lorsquils font des tests A / B?

Jai demandé à Fung quelles erreurs il voyait dans les entreprises faire lors de lexécution de tests A / B, et il a indiqué trois tests courants.

Premièrement, dit-il, trop de gestionnaires ne laissent pas les tests suivre leur cours. Étant donné que la plupart des logiciels permettant dexécuter ces tests vous permettent de visualiser les résultats en temps réel, les responsables veulent prendre des décisions trop rapidement.Cette erreur, dit-il, « découle de limpatience », et de nombreux éditeurs de logiciels ont joué sur cette surdose en proposant un type de test A / B appelé « optimisation en temps réel », dans lequel vous pouvez utiliser des algorithmes pour effectuer des ajustements en tant que résultats Le problème est que, à cause de la randomisation, il est possible que si vous laissez le test fonctionner à sa fin naturelle, vous obteniez un résultat différent.

La deuxième erreur est de regarder trop de métriques. « Je grince des dents à chaque fois que je vois un logiciel qui essaie de plaire à tout le monde en vous donnant un panel de centaines de mesures », dit-il. Le problème est que si vous regardez un si grand nombre de mesures en même temps, vous » sont à risque de faire ce que les statisticiens appellent des «corrélations fausses». Dans une conception de test appropriée, « vous devez décider des statistiques que vous allez examiner avant dexécuter un test et en sélectionner quelques-unes. Plus vous mesurez, plus vous risquez dobserver des fluctuations aléatoires. » Avec autant de statistiques, au lieu de vous demander « Que se passe-t-il avec cette variable? » vous demandez: « Quels changements intéressants (et potentiellement insignifiants) vois-je? »

Enfin, Fung dit que peu dentreprises font suffisamment de tests. « Nous avons tendance à le tester une fois, puis nous le croyons. Mais même avec un résultat statistiquement significatif, il y a une assez grande probabilité derreur de faux positif. À moins que vous ne répétiez le test de temps en temps, vous nexcluez pas la possibilité de vous tromper. Des faux positifs peuvent se produire pour plusieurs raisons. Par exemple, même sil y a peu de chances quun résultat A / B donné soit déterminé par le hasard, si vous effectuez beaucoup de tests A / B, les chances quau moins un de vos résultats soit erroné augmentent rapidement.

Cela peut être particulièrement difficile à faire car il est probable que les managers aboutissent à des résultats contradictoires, et personne ne veut découvrir quils ont sapé les résultats précédents, en particulier dans le monde en ligne, où les managers veulent apporter des changements – et capturer la valeur – rapidement. Mais cette focalisation sur la valeur peut être malavisée, dit Fung: «Les gens ne sont pas très vigilants quant à la valeur pratique des résultats. Ils veulent croire que chaque petite amélioration est utile même lorsque les résultats des tests ne sont pas entièrement fiables. En fait , plus l’amélioration est faible, moins les résultats sont fiables. »

Il est clair que les tests A / B ne sont pas une panacée. Il existe des types dexpériences plus complexes qui sont plus efficaces et vous donneront des données plus fiables », Dit Fung. Mais les tests A / B sont un excellent moyen de comprendre rapidement une question que vous vous posez. Et« la bonne nouvelle à propos du monde des tests A / B est que tout se passe si vite, donc si vous lexécutez et ne fonctionne pas, vous pouvez essayer autre chose. Vous pouvez toujours revenir à lancienne tactique. «

Un rappel sur les tests A / B

Quest-ce que le test A / B?

Comment fonctionne le test A / B?

Comment allez-vous Interpréter les résultats dun test A / B?

Comment les entreprises utilisent-elles les tests A / B?

Quelles erreurs les gens font-ils lorsquils font des tests A / B?

Laisser un commentaire Annuler la réponse

Articles récents

Archives

Méta