Un aggiornamento sui test A / B

Oggigiorno si tratta solo di dati. I leader non vogliono prendere decisioni se non hanno prove. Questa è una buona cosa, ovviamente, e fortunatamente ci sono molti modi per ottenere informazioni senza dover fare affidamento sul proprio istinto. Uno dei metodi più comuni, in particolare nelle impostazioni online, è il test A / B.

Per capire meglio cosè il test A / B, da dove ha avuto origine e come usarlo, ho parlato con Kaiser Fung , che ha fondato il programma di analisi applicata alla Columbia University ed è autore di Junk Charts, un blog dedicato allesame critico dei dati e della grafica nei mass media. Il suo ultimo libro è Number Sense: How to Use Big Data to Your Advantage.

What Is A / B Testing?

A / B testing, at its most basic, is a way per confrontare due versioni di qualcosa per capire quale funziona meglio. Sebbene sia più spesso associato a siti Web e app, Fung afferma che il metodo ha quasi 100 anni.

Negli anni 20 lo statistico e biologo Ronald Fisher scoprì i principi più importanti alla base dei test A / B e degli esperimenti controllati randomizzati in generale. “Non è stato il primo a condurre un esperimento come questo, ma è stato il primo a capire i principi di base e la matematica e renderli una scienza”, dice Fung.

Fisher ha condotto esperimenti agricoli, chiedendo domande come, cosa succede se metto più fertilizzante su questa terra? I principi persistevano e allinizio degli anni 50 gli scienziati iniziarono a condurre sperimentazioni cliniche in medicina. Negli anni 60 e 70 il concetto fu adattato dai professionisti del marketing per valutare le campagne di risposta diretta (ad es. una cartolina o una lettera indirizzata ai clienti porterebbe a un aumento delle vendite?).

I test A / B, nella sua forma attuale, sono nati negli anni 90. Fung afferma che nel secolo scorso la matematica alla base i test non sono cambiati. “Sono gli stessi concetti fondamentali, ma ora lo stai facendo online, in un ambiente in tempo reale e su una scala diversa in termini di numero di partecipanti e numero di esperimenti.”

Come funzionano i test A / B?

Inizi un test A / B decidendo cosa vuoi testare. Fung fornisce un semplice esempio: la dimensione del pulsante di iscrizione sul tuo sito web. Quindi devi sapere come vuoi valutare le sue prestazioni. In questo caso, supponiamo che la tua metrica sia il numero di visitatori che fanno clic sul pulsante. Per eseguire il test, mostri due gruppi di utenti (assegnati a caso quando visitano il sito) le diverse versioni (dove lunica cosa diversa è la dimensione del pulsante) e determini quale ha influenzato maggiormente la tua metrica di successo. In questo caso, quale dimensione del pulsante ha indotto più visitatori a fare clic?

Nella vita reale ci sono molte cose che influenzano il clic di un utente. Ad esempio, è possibile che quelli su un dispositivo mobile abbiano maggiori probabilità di fare clic su un determinato pulsante di dimensione, mentre quelli sul desktop siano disegnati su una dimensione diversa. È qui che la randomizzazione può aiutare, ed è fondamentale. Randomizzando quali utenti appartengono a quale gruppo, riduci al minimo le possibilità che altri fattori, come dispositivi mobili rispetto a desktop, determinino i risultati in media.

“Il test A / B può essere considerato il tipo più semplice di esperimento controllato randomizzato “, dice Fung.” Nella sua forma più semplice, ci sono due trattamenti e uno funge da controllo per laltro “. Come con tutti gli esperimenti controllati randomizzati, devi stimare la dimensione del campione necessaria per ottenere una significatività statistica, che ti aiuterà ad assicurarti che il risultato che stai vedendo “non sia solo a causa del rumore di fondo”, dice Fung. >

A volte sai che alcune variabili, di solito quelle che non sono facilmente manipolabili, hanno un forte effetto sulla metrica di successo. Ad esempio, forse gli utenti mobili del tuo sito web tendono a fare meno clic su qualsiasi cosa, rispetto agli utenti desktop. La randomizzazione può comportare che il set A contenga un numero leggermente maggiore di utenti mobili rispetto al set B, il che potrebbe far sì che il set A abbia una percentuale di clic inferiore indipendentemente dalle dimensioni del pulsante che stanno vedendo. Per livellare il campo di gioco, lanalista del test dovrebbe prima dividere gli utenti da dispositivo mobile e desktop e quindi assegnarli casualmente a ciascuna versione. Questo si chiama blocco.

La dimensione del pulsante di iscrizione è un esempio molto semplice, dice Fung. In realtà, potresti non testare solo il dimensione ma anche il colore e il testo, a trovare il carattere tipografico e la dimensione del carattere. Molti manager eseguono test sequenziali – ad esempio, testare prima le dimensioni (grande contro piccolo), poi testare il colore (blu contro rosso), quindi testare il carattere tipografico (Times contro Arial) – perché credono che non dovrebbero variare due o più fattori al contemporaneamente. Ma secondo Fung, questa visione è stata smentita dagli statistici. E i test sequenziali non sono ottimali perché non stai misurando ciò che accade quando i fattori interagiscono. Ad esempio, è possibile che gli utenti preferiscano in media il blu, ma preferiscono il rosso quando è combinato con Arial.Questo tipo di risultato viene regolarmente perso nei test A / B sequenziali perché il test del carattere tipografico viene eseguito sui pulsanti blu che hanno “vinto” il test precedente.

Invece, dice Fung, dovresti eseguire test più complessi . Questo può essere difficile per alcuni manager, dal momento che il fascino dei test A / B è quanto siano diretti e semplici da eseguire (e molte persone che progettano questi esperimenti, sottolinea Fung, non hanno un background statistico). “Con A / B test, tendiamo a voler eseguire un gran numero di test simultanei e indipendenti “, dice, in gran parte perché la mente vacilla davanti al numero di possibili combinazioni che puoi testare. Ma usando la matematica puoi “scegliere ed eseguire in modo intelligente solo alcuni sottoinsiemi di quei trattamenti; poi puoi dedurre il resto dai dati”. Questo è chiamato test “multivariato” nel mondo dei test A / B e spesso significa che finisci per fare un test A / B / C o anche un test A / B / C / D. Nellesempio sopra con colori e dimensioni, potrebbe significare mostrare diversi gruppi: un grande pulsante rosso, un piccolo pulsante rosso, un grande pulsante blu e un piccolo pulsante blu. Se volessi testare anche i caratteri, il numero di gruppi di test aumenterebbe ulteriormente.

Come fai Interpretare i risultati di un test A / B?

È probabile che la tua azienda utilizzi un software che gestisce i calcoli e potrebbe persino impiegare uno statistico in grado di interpretare quei risultati per te. Ma è utile avere una conoscenza di base di come dare un senso alloutput e decidere se andare avanti con la variazione del test (il nuovo pulsante nellesempio sopra).

Fung afferma che la maggior parte dei programmi software riporta due tassi di conversione per il test A / B: uno per gli utenti che hanno visto la versione di controllo e laltro per gli utenti che hanno visto la versione di prova. “Il tasso di conversione può misurare i clic o altre azioni intraprese dagli utenti”, afferma. Il rapporto potrebbe avere il seguente aspetto: “Controllo: 15% (+/- 2,1%) Variazione 18% (+/- 2,3%)”. Ciò significa che il 18% dei tuoi utenti ha fatto clic sulla nuova variante (forse il tuo pulsante blu più grande) con un margine di errore del 2,3%. Potresti essere tentato di interpretarlo come un tasso di conversione effettivo compreso tra il 15,7% e il 20,3%, ma non sarebbe tecnicamente corretto. “La vera interpretazione è che se hai eseguito il test A / B più volte, il 95% degli intervalli catturerà il vero tasso di conversione, in altre parole, il tasso di conversione non rientra nel margine di errore il 5% delle volte (o qualsiasi altra cosa livello di significatività statistica che hai impostato) “, spiega Fung.

Se è difficile capirlo, iscriviti al club. Ciò che è importante sapere è che il tasso di conversione del 18% non è un garanzia. È qui che entra in gioco il tuo giudizio. Un tasso di conversazione del 18% è sicuramente migliore di uno del 15%, anche tenendo conto del margine di errore (12,9% –17,1% contro 15,7% –20,3%). Potresti sentire le persone parlare su questo come un “aumento del 3%” (laumento è semplicemente la differenza percentuale nel tasso di conversione tra la versione di controllo e un trattamento di prova riuscito). In questo caso, è molto probabile che sia una buona decisione passare alla nuova versione, ma ciò dipenderà dai costi di implementazione della nuova versione. Se sono bassi, potresti provare linterruttore e vedere cosa succede nella realtà (al contrario dei test). Uno dei grandi vantaggi dei test nel mondo online è che di solito puoi tornare al tuo originale abbastanza facilmente.

In che modo le aziende utilizzano i test A / B?

Fung dice che la popolarità della metodologia è aumentata man mano che le aziende si sono rese conto che lambiente online è adatto per aiutare i manager, in particolare i professionisti del marketing, a rispondere a domande come “Cosa è più probabile che induca le persone a fare clic? O acquistare il nostro prodotto? O registrarsi al nostro sito? ” Il test A / B viene ora utilizzato per valutare qualsiasi cosa, dal design del sito Web alle offerte online, dai titoli alle descrizioni dei prodotti. (In effetti, la scorsa settimana ho esaminato i risultati dei test A / B sul linguaggio che utilizziamo per commercializzare un nuovo prodotto qui su HBR.)

La maggior parte di questi esperimenti viene eseguita senza che i soggetti lo sappiano. “Come utente, facciamo parte di questi test tutto il tempo e non lo sappiamo”, dice Fung.

E non sono solo siti web. Puoi anche testare email o annunci di marketing. Ad esempio, potresti inviare due versioni di une-mail al tuo elenco clienti (casualmente prima lelenco, ovviamente) e capire quale genera più vendite. Quindi puoi semplicemente inviare la versione vincente la prossima volta. Oppure potresti provare due versioni del testo pubblicitario e vedere quale converte i visitatori più spesso. Allora sai che devi spendere di più per ottenere quello di maggior successo là fuori.

Quali errori commettono le persone quando fanno i test A / B?

Ho chiesto a Fung quali errori vede commettere le aziende durante lesecuzione di test A / B e ha indicato tre comuni.

Primo, dice, troppi manager non lasciano che i test facciano il loro corso. Poiché la maggior parte del software per lesecuzione di questi test consente di visualizzare i risultati in tempo reale, i manager vogliono prendere decisioni troppo rapidamente.Questo errore, dice, “si evolve per impazienza” e molti fornitori di software hanno giocato con questa eccessiva ansia offrendo un tipo di test A / B chiamato “ottimizzazione in tempo reale”, in cui è possibile utilizzare algoritmi per apportare modifiche come risultati entra. Il problema è che, a causa della randomizzazione, è possibile che se lasci che il test finisca naturalmente, potresti ottenere un risultato diverso.

Il secondo errore è guardare troppe metriche. “Mi rabbrividisco ogni volta che vedo un software che cerca di accontentare tutti dandoti un pannello di centinaia di metriche”, dice. Il problema è che se stai esaminando un numero così elevato di metriche contemporaneamente, ” sei a rischio di fare ciò che gli statistici chiamano “correlazioni spurie”. In una corretta progettazione del test, “dovresti decidere le metriche che intendi esaminare prima di eseguire un esperimento e selezionarne alcune. Più misuri, più è probabile che vedrai fluttuazioni casuali”. Con così tante metriche, invece di chiederti: “Cosa sta succedendo con questa variabile?” ti stai chiedendo: “Quali cambiamenti interessanti (e potenzialmente insignificanti) sto vedendo?”

Infine, Fung dice che poche aziende fanno abbastanza nuovi test. “Tendiamo a testarlo una volta e poi ci crediamo. Ma anche con un risultato statisticamente significativo, esiste una probabilità piuttosto elevata di errore falso positivo. A meno che non ripeti il test una volta ogni tanto, non escludi la possibilità di sbagliare “. I falsi positivi possono verificarsi per diversi motivi. Ad esempio, anche se ci possono essere poche possibilità che un dato risultato A / B sia determinato dal caso casuale, se esegui molti test A / B, le probabilità che almeno uno dei tuoi risultati sia sbagliato crescono rapidamente.

Questo può essere particolarmente difficile da fare perché è probabile che i manager finiscano con risultati contraddittori e nessuno vuole scoprire che hanno minato i risultati precedenti, specialmente nel mondo online, dove i manager vogliono apportare modifiche – e acquisire valore – rapidamente. Ma questa focalizzazione sul valore può essere fuorviante, afferma Fung: “Le persone non sono molto vigili sul valore pratico dei risultati. Vogliono credere che ogni piccola quantità di miglioramento sia preziosa anche quando i risultati dei test non sono completamente affidabili. Infatti , minore è il miglioramento, meno affidabili saranno i risultati. “

È chiaro che i test A / B non sono una panacea. Esistono tipi più complessi di esperimenti che sono più efficienti e ti forniranno dati più affidabili , Dice Fung. Ma il test A / B è un ottimo modo per ottenere una rapida comprensione di una domanda che hai. E “la buona notizia sul mondo dei test A / B è che tutto accade così rapidamente, quindi se lo esegui e non funziona, puoi provare qualcosaltro. Puoi sempre tornare alla vecchia tattica. “

Un aggiornamento sui test A / B

What Is A / B Testing?

Come funzionano i test A / B?

Come fai Interpretare i risultati di un test A / B?

In che modo le aziende utilizzano i test A / B?

Quali errori commettono le persone quando fanno i test A / B?

Lascia un commento Annulla risposta

Articoli recenti

Archivi

Meta