Päivitys A / B-testaukseen

Kyse on nykyään tiedoista. Johtajat eivät halua tehdä päätöksiä, elleivät heillä ole todisteita. Se on tietysti hyvä asia, ja onneksi on monia tapoja saada tietoa ilman, että tarvitsee luottaa vaistoihisi. Yksi yleisimmistä menetelmistä, erityisesti online-asetuksissa, on A / B-testaus.

Ymmärsin paremmin Kaiser Fungin ymmärtääkseni, mikä A / B-testaus on, mistä se on peräisin ja miten sitä käytetään. , joka perusti sovelletun analyysiohjelman Columbian yliopistoon ja on Junk Charts -blogin kirjoittaja, joka on omistettu joukkotiedotusvälineiden tietojen ja grafiikan kriittiselle tutkimukselle. Hänen viimeisin kirja on Number Sense: Kuinka käyttää suuria tietoja hyödyksi.

Mikä on A / B-testaus?

A / B-testaus on alkeellisinta tapaa vertailla kahden version jotain selvittämään, mikä toimii paremmin. Vaikka se liittyy useimmiten verkkosivustoihin ja sovelluksiin, Fung sanoo, että menetelmä on lähes 100 vuotta vanha.

1920-luvulla tilastotieteilijä ja biologi Ronald Fisher löysi tärkeimmät periaatteet A / B-testauksen ja satunnaistettujen kontrolloitujen kokeiden takana. yleinen. ”Hän ei ollut ensimmäinen, joka suoritti tällaisen kokeen, mutta hän selvitti ensin perusperiaatteet ja matematiikan ja teki niistä tieteen”, Fung sanoo.

Fisher suoritti maatalouden kokeita ja kysyi kysymykset, kuten mitä tapahtuu, jos laitan enemmän lannoitteita tälle maalle? Periaatteet säilyivät ja 1950-luvun alussa tutkijat alkoivat suorittaa kliinisiä lääketutkimuksia. 1960- ja 1970-luvuilla markkinoijat sovittivat konseptia arvioimaan suoran toiminnan kampanjoita (esim. johtaako postikortti tai kirje asiakkaille kohdennettua myyntiä enemmän?).

A / B-testaus tuli nykyisessä muodossaan käyttöön 1990-luvulla. Fung sanoo, että koko viime vuosisadan takana oleva matematiikka testit eivät ole muuttuneet. ”Se on sama peruskäsite, mutta nyt teet sen verkossa, reaaliaikaisessa ympäristössä ja eri mittakaavassa osallistujien ja kokeiden lukumäärän suhteen.”

Kuinka A / B-testaus toimii?

Aloitat A / B-testin päättämällä mitä haluat Testata. Fung antaa yksinkertaisen esimerkin: verkkosivustosi tilauspainikkeen koko. Sitten sinun on tiedettävä, miten haluat arvioida sen suorituskykyä. Oletetaan tässä tapauksessa, että tieto on painiketta napsauttaneiden kävijöiden määrä. Testin suorittamiseksi näytät kahdelle käyttäjäryhmälle (jotka on määritetty sattumanvaraisesti, kun he vierailevat sivustolla) eri versiot (joissa ainoa asia on painikkeen koko) ja määrität, mitkä vaikuttivat eniten menestystiedoihisi. Tässä tapauksessa mikä painikkeen koko sai enemmän kävijöitä napsauttamaan?

Tosielämässä on paljon asioita, jotka vaikuttavat siihen, napsautaako joku. Esimerkiksi voi olla, että mobiililaitteen käyttäjät napsauttavat todennäköisemmin tiettyä kokopainiketta, kun taas työpöydällä olevat ihmiset vetävät eri kokoa. Tässä satunnaistaminen voi auttaa – ja on kriittistä. Satunnaistamalla, mitkä käyttäjät kuuluvat johonkin ryhmään, minimoi mahdollisuudet, että muut tekijät, kuten mobiili tai työpöytä, ohjaavat tuloksia keskimäärin.

”A / B-testiä voidaan pitää perustavanlaatuisimpana satunnaistettu kontrolloitu koe ”, Fung sanoo.” Yksinkertaisimmassa muodossaan on kaksi hoitoa ja yksi toimii toisen kontrollina. ” Kuten kaikkien satunnaistettujen kontrolloitujen kokeiden kohdalla, sinun on arvioitava tilastollisen merkitsevyyden saavuttamiseksi tarvitsemasi otoskoko, mikä auttaa sinua varmistamaan, että näkemäsi tulos ”ei johdu vain taustamelun takia”, Fung sanoo.

Joskus tiedät, että tietyillä muuttujilla, yleensä sellaisilla, joita ei ole helppo manipuloida, on voimakas vaikutus menestystietoihin. Ehkä esimerkiksi verkkosivustosi mobiilikäyttäjät yleensä napsauttavat mitään vähemmän kuin työpöydän käyttäjät. Satunnaistaminen voi johtaa siihen, että joukko A sisältää hieman enemmän mobiilikäyttäjiä kuin joukko B, mikä voi aiheuttaa joukon A pienemmän napsautussuhteen riippumatta heidän näkemistään painikkeiden koosta. Tasapuolisten toimintaedellytysten saavuttamiseksi testianalyytikon tulisi ensin jakaa käyttäjät mobiililaitteella ja työpöydällä ja määritä ne sitten satunnaisesti kullekin versiolle. Tätä kutsutaan estoksi.

Tilaa-painikkeen koko on hyvin yksinkertainen esimerkki, Fung sanoo. Todellisuudessa et ehkä testaa vain koko, mutta myös väri ja teksti, a kirjasinlaji ja kirjasinkoko. Monet johtajat suorittavat peräkkäisiä testejä – esimerkiksi testaamalla ensin koon (suuri verrattuna pieneen), sitten värin (sininen vs. punainen) ja sitten kirjasintyypin (Times vs. Arial) – koska heidän mielestään heidän ei pitäisi muuttaa kahta tai useampaa tekijää samaan aikaan. Mutta Fungin mukaan tilastotieteilijät ovat kumoaneet tämän näkemyksen. Ja peräkkäiset testit eivät ole optimaalisia, koska et mittaa, mitä tapahtuu, kun tekijät ovat vuorovaikutuksessa. Esimerkiksi voi olla, että käyttäjät suosivat keskimäärin sinistä, mutta mieluummin punaista, kun se yhdistetään Arialiin.Tällainen tulos puuttuu säännöllisesti peräkkäisistä A / B-testeistä, koska kirjasintesti suoritetaan sinisillä painikkeilla, jotka ovat ”voittaneet” edellisen testin.

Sen sijaan sinun tulisi suorittaa monimutkaisempia testejä Tämä voi olla vaikeaa joillekin esimiehille, koska A / B-testien vetovoima on kuinka suoraviivaista ja yksinkertaista on suorittaa (ja monilla kokeita suunnittelevilla ihmisillä ei ole tilastotausta). / B-testeillä haluamme yleensä suorittaa suuren määrän samanaikaisia, riippumattomia testejä ”, hän sanoo, suurelta osin, koska mieli rullaa niin monta mahdollista yhdistelmää kuin voit testata. Mutta matematiikkaa käyttämällä voit ”valita ja suorittaa älykkäästi vain tietyt näiden hoitojen osajoukot; sitten voit päätellä loput tiedoista”. Tätä kutsutaan ”monimuuttuja” -testiksi A / B-testausmaailmassa ja se tarkoittaa usein, että päätät tehdä A / B / C-testin tai jopa A / B / C / D-testin. Yllä olevassa esimerkissä, jossa on värejä ja kokoa, se voi tarkoittaa eri ryhmien näyttämistä: iso punainen painike, pieni punainen painike, iso sininen painike ja pieni sininen painike. Jos haluat testata myös kirjasimia, testiryhmien määrä kasvaa entisestään.

Miten Tulkitse A / B-testin tuloksia?

Mahdollisuudet ovat, että yrityksesi käyttää ohjelmistoja, jotka käsittelevät laskutoimituksia, ja se voi jopa palkata tilastotieteilijän, joka voi tulkita nämä tulokset sinulle. Mutta on hyödyllistä, että sinulla on perustiedot siitä, miten tuotos on järkevää ja päättää, jatketaanko testimuunnelmaa (uusi painike yllä olevassa esimerkissä).

Fung sanoo, että useimmat ohjelmistot raportoivat kaksi muunnosprosenttia A / B-testaukseen: yksi käyttäjille, jotka näkivät kontrolliversion, ja toinen käyttäjille, jotka näkivät testiversion. ”Tulosprosentti voi mitata napsautuksia tai muita käyttäjien tekemiä toimintoja”, hän sanoo. Raportti saattaa näyttää tältä: ”Ohjaus: 15% (+/- 2,1%) Vaihtelu 18% (+/- 2,3%).” Tämä tarkoittaa, että 18% käyttäjistäsi napsautti uutta muunnelmaa (ehkä suurempaa sinistä painiketta) virhemarginaalilla 2,3%. Saatat olla kiusaus tulkita tämä tosiasialliseksi muuntokurssiksi, joka laskee välillä 15,7% – 20,3%, mutta se ei ole teknisesti oikein. ”Todellinen tulkinta on, että jos suoritit A / B-testisi useita kertoja, 95% alueista saa todellisen muuntokurssin – toisin sanoen muuntokurssi jää virhemarginaalin ulkopuolelle 5% ajasta (tai mitä tahansa muuta) asettamasi tilastollisen merkitsevyyden taso) ”, Fung selittää.

Jos päätäsi on vaikea kietoa, liity klubiin. Tärkeää on tietää, että 18 prosentin tulosprosentti ei ole Tällöin mielipiteesi tulee. 18%: n keskusteluprosentti on varmasti parempi kuin 15%, jopa virhemarginaalin sallimalla (12,9% –17,1% vs. 15,7% –20,3%). Saatat kuulla ihmisten puhuvan tästä ”3%: n nostona” (nousu on yksinkertaisesti prosentuaalinen ero muuntokurssissa versioversiosi ja onnistuneen testihoidon välillä). Tässä tapauksessa on todennäköisesti hyvä päätös siirtyä uuteen versioon, mutta se riippuu uuden version käyttöönoton kustannuksista. Jos ne ovat alhaiset, voit kokeilla kytkintä ja nähdä, mitä tapahtuu todellisuudessa (toisin kuin testeissä). Yksi testauksen suurista eduista verkkomaailmassa on, että voit palata alkuperäiseen helposti melko helposti.

Kuinka yritykset käyttävät A / B-testausta?

Fung sanoo, että Menetelmien suosio on noussut, kun yritykset ovat huomanneet, että verkkoympäristö soveltuu hyvin auttamaan johtajia, erityisesti markkinoijia, vastaamaan kysymyksiin, kuten ”Mikä todennäköisesti saa ihmiset napsauttamaan? Tai ostamaan tuotteemme? Tai rekisteröitymään sivustollemme? ” A / B-testausta käytetään nyt arvioimaan kaikkea verkkosivujen suunnittelusta verkkotarjouksiin otsikoihin tuotekuvauksiin. (Itse asiassa viime viikolla tarkastelin A / B-testauksen tuloksia kielellä, jota käytämme uuden tuotteen markkinointiin täällä: HBR.)

Suurin osa näistä kokeista suoritetaan ilman, että tutkittavat edes tietävät. ”Käyttäjänä olemme jatkuvasti osa näitä testejä emmekä tiedä sitä”, Fung sanoo.

Eikä kyse ole vain verkkosivustoista. Voit testata myös markkinointiviestejä tai mainoksia. Voit esimerkiksi lähettää sähköpostiversiot kaksi versiota asiakasluetteloon (tietysti ensin satunnaistamalla luettelo ensin) ja selvittää, mikä niistä lisää myyntiä. Sitten voit lähettää voittavan version seuraavalla kerralla. Tai voit testata mainoskopion kahta versiota ja nähdä, mikä niistä muuttaa kävijöitä useammin. Sitten tiedät käyttää enemmän, jotta saat menestyneimmän.

Mitä virheitä ihmiset tekevät tehdessään A / B-testejä?

Kysyin Fungilta virheistä, joita hän näkee yritysten tekevän suorittaessaan A / B-testejä, ja hän viittasi kolmeen yleiseen.

Ensinnäkin hän sanoo, että liian monet johtajat eivät anna testien suorittaa kurssiaan. Koska näiden testien suorittamiseen tarkoitetun ohjelmiston avulla voit katsella tuloksia reaaliajassa, johtajat haluavat tehdä päätöksiä liian nopeasti.Hänen mukaansa tämä virhe ”kehittyy kärsimättömyydestä”, ja monet ohjelmistotoimittajat ovat pelanneet tähän ylenmääräisyyteen tarjoamalla eräänlaista A / B-testausta, jota kutsutaan ”reaaliaikaiseksi optimoinniksi”, jossa voit käyttää algoritmeja säätöjen tekemiseen tuloksena. tule sisään. Ongelmana on, että satunnaistamisen vuoksi on mahdollista, että jos annat testin suorittaa sen luonnolliseen päähän, saatat saada toisenlaisen tuloksen.

Toinen virhe on liian monien mittareiden tarkastelu. ”Rypistelen joka kerta, kun näen ohjelmiston, joka yrittää miellyttää kaikkia antamalla sinulle paneelin, jossa on satoja mittareita”, hän sanoo. Ongelmana on, että jos tarkastelet yhtä paljon mittareita samanaikaisesti, sinä on vaarassa saada aikaan tilastotieteilijöiden kutsuma ”väärät korrelaatiot”. Oikeessa testisuunnittelussa ”sinun on päätettävä mittareista, joita aiot tarkastella, ennen kuin suoritat kokeilun ja valitset muutaman. Mitä enemmän mitat, sitä todennäköisemmin näet satunnaisia vaihteluja.” Niin monilla mittareilla kuin kysyt itseltäsi: ”Mitä tapahtuu tällä muuttujalla?” sinä kysyt: ”Mitä mielenkiintoisia (ja mahdollisesti merkityksettömiä) muutoksia näen?”

Lopuksi Fung sanoo, että harvat yritykset tekevät tarpeeksi uudelleentestauksia. ”Meillä on tapana testata sitä kerran ja sitten uskomme siihen. Mutta vaikka tilastollisesti merkitsevä tulos onkin, väärän positiivisen virheen todennäköisyys on melko suuri. Ellet kokeile toisinaan, et sulje pois mahdollisuutta olla väärässä. ” Vääriä positiivisia voi esiintyä useista syistä. Esimerkiksi, vaikka voi olla vähän todennäköisyyttä, että mikä tahansa annettu A / B-tulos johtuu satunnaisesta sattumasta, jos teet paljon A / B-testejä, todennäköisyys, että ainakin yksi tuloksestasi on väärä, kasvaa nopeasti.

Tätä voi olla erityisen vaikea tehdä, koska on todennäköistä, että johtajat pääsevät ristiriitaisiin tuloksiin, eikä kukaan halua huomata, että he ovat heikentäneet aikaisempia havaintoja etenkin verkkomaailmassa, jossa johtajat haluavat tehdä muutoksia – ja kaapata arvo – nopeasti. Mutta keskittyminen arvoon voi olla harhaanjohtavaa, Fung sanoo: ”Ihmiset eivät ole kovin valppaita havaintojen käytännön arvosta. He haluavat uskoa, että jokainen pieni määrä parannuksia on arvokasta, vaikka testitulokset eivät olekaan täysin luotettavia. Itse asiassa , mitä pienempi parannus, sitä vähemmän luotettavat tulokset. ”

On selvää, että A / B-testaus ei ole ihmelääke. On olemassa monimutkaisempia kokeita, jotka ovat tehokkaampia ja antavat sinulle luotettavampia tietoja. , Fung sanoo. Mutta A / B-testaus on hieno tapa saada nopeasti käsitys kysymyksestäsi. Ja ”hyvä uutinen A / B-testausmaailmasta on, että kaikki tapahtuu niin nopeasti, joten jos suoritat sen ja se ei toimi, voit kokeilla jotain muuta. Voit aina palata takaisin vanhaan taktiikkaan. ”

Vastaa

Sähköpostiosoitettasi ei julkaista. Pakolliset kentät on merkitty *