Frissítés az A / B tesztelésről

Manapság az adatokról van szó. A vezetők nem akarnak döntéseket hozni, hacsak nincs bizonyítékuk. Ez természetesen jó dolog, és szerencsére sokféle módon szerezhetünk információt anélkül, hogy az ösztönökre kellene hagyatkoznunk. Az egyik legelterjedtebb módszer, főleg online beállításokban, az A / B tesztelés.

Ahhoz, hogy jobban megértsem, mi az A / B tesztelés, hol keletkezett és hogyan kell használni, beszéltem Kaiser Fung-nal. , aki megalapította az alkalmazott elemzési programot a Columbia Egyetemen, és a Junk Charts blog, a tömegmédia adatainak és grafikájának kritikai vizsgálatának szentelt blog szerzője. Legújabb könyve a Számérzék: Hogyan használhatjuk a nagy adatot előnyére.

Mi az A / B tesztelés?

Az A / B tesztelés a legalapvetőbb módja összehasonlítani valaminek két változatát, hogy kiderüljön, melyik teljesít jobban. Bár leggyakrabban weboldalakhoz és alkalmazásokhoz társul, Fung szerint a módszer majdnem 100 éves.

Az 1920-as években statisztikus és biológus Ronald Fisher felfedezte az A / B tesztelés és a randomizált, kontrollált kísérletek mögött álló legfontosabb elveket. Tábornok. “Nem ő volt az első, aki ilyen kísérletet hajtott végre, de ő volt az első, aki kitalálta az alapelveket és a matematikát, és tudománygá tette őket” – mondja Fung.

Fisher mezőgazdasági kísérleteket hajtott végre, megkérve olyan kérdések, mint: Mi történik, ha több műtrágyát teszek erre a földre? Az elvek fennmaradtak, és az ötvenes évek elején a tudósok elkezdtek klinikai vizsgálatokat folytatni az orvostudományban. Az 1960-as és 1970-es években a marketingszakemberek a koncepciót adaptálták a közvetlen válaszkampányok értékelésére (pl. vajon egy képeslap vagy egy levél, amely az ügyfeleket célozza meg, több eladást eredményezne?).

Az A / B tesztelés jelenlegi formájában az 1990-es években jött létre. Fung szerint az elmúlt évszázadban a matematika mögött a tesztek nem változtak. “Ugyanazok az alapfogalmak, de most online, valós idejű környezetben, a résztvevők számát és a kísérletek számát tekintve más léptékben csinálod.”

Hogyan működik az A / B tesztelés?

Az A / B tesztet úgy indítja el, hogy eldönti, mit szeretne tesztelni. Fung egy egyszerű példát hoz: a webhelyén lévő feliratkozás gomb nagysága. Akkor tudnia kell, hogyan szeretné értékelni a teljesítményét. Tegyük fel, hogy ebben az esetben a mutatója a gombra kattintó látogatók száma. A teszt futtatásához megmutatja a felhasználók két csoportját (véletlenszerűen hozzárendelve, amikor meglátogatják a webhelyet) a különböző verziókat (ahol csak a gomb mérete különbözik), és meghatározza, hogy melyik befolyásolta a legjobban a siker mutatóját. Ebben az esetben melyik gombméret miatt több látogató kattintott?

A való életben sok minden befolyásolja, hogy valaki kattint-e. Például előfordulhat, hogy a mobileszközön lévők nagyobb valószínűséggel kattintanak egy bizonyos méretű gombra, míg az asztalon lévők más méretűre vannak húzva. Ez az, ahol a randomizálás segíthet – és kritikus fontosságú. Ha véletlenszerűen kiválasztja, hogy melyik felhasználó melyik csoportba tartozik, akkor minimálisra csökkenti annak esélyét, hogy más tényezők, például a mobil vagy az asztali számítógép átlagosan növeljék eredményeit.

“Az A / B teszt a legalapvetőbbnek tekinthető. randomizált kontrollált kísérlet “- mondja Fung.” A legegyszerűbb formájában két kezelés van, és az egyik a másik kontrolljaként működik. ” Mint minden randomizált, kontrollált kísérletnél, meg kell becsülnie a statisztikai szignifikancia eléréséhez szükséges minta nagyságát, ami segít megbizonyosodni arról, hogy a látott eredmény “nem csak a háttérzaj miatt van” – mondja Fung.

Néha tudja, hogy bizonyos változók, általában azok, amelyeket nem lehet könnyen manipulálni, erősen befolyásolják a siker mutatóját. Például lehet, hogy webhelye mobilfelhasználói általában kevésbé kattintanak bármire, mint az asztali felhasználók. A véletlenszerűsítés azt eredményezheti, hogy az A készlet valamivel több mobil felhasználót tartalmaz, mint a B készlet, ami az A halmaznak alacsonyabb kattintási arányt okozhat, függetlenül a látott gomb méretétől. A versenyfeltételek kiegyenlítéséhez a tesztelemzőnek először fel kell osztania a felhasználókat mobilon és asztali számítógépen, majd véletlenszerűen rendelje hozzá őket az egyes verziókhoz. Ezt blokkolásnak nevezzük.

Az előfizetés gomb mérete nagyon alapvető példa, mondja Fung. Valójában előfordulhat, hogy nem csak a méret, de a szín és a szöveg is, a a betűtípust és a betűméretet. Sok vezető futtat szekvenciális teszteket – például először a méretet teszteli (nagy vagy kicsi), majd a színt (kék és piros), majd a betűtípust (Times versus Arial) teszteli, mert úgy gondolják, hogy nem szabad két vagy több tényezőt változtatniuk Ugyanakkor. De Fung szerint ezt a nézetet a statisztikusok elvetették. A szekvenciális tesztek pedig nem optimálisak, mert nem azt mérik, hogy mi történik, ha a tényezők kölcsönhatásba lépnek. Például előfordulhat, hogy a felhasználók átlagosan a kéket részesítik előnyben, a Arial-val kombinálva viszont a pirosat.Ez a fajta eredmény rendszeresen elmarad a szekvenciális A / B tesztelésnél, mert a betűkészlet tesztet kék gombokkal futtatják, amelyek “megnyerték” az előző tesztet.

Ehelyett Fung szerint összetettebb teszteket kell futtatnia Ez nehéz lehet egyes menedzserek számára, mivel az A / B tesztek vonzóak arra, hogy mennyire egyszerűek és egyszerűek a futtatásuk (és ezeket a kísérleteket sokan tervezik, Fung rámutat, nincs statisztikai hátterük). / B tesztelés során hajlamosak vagyunk nagyszámú egyidejű, független tesztet lefuttatni. ”- mondja, nagyrészt azért, mert az elme a lehetséges kombinációk számát tekeri, amelyet tesztelhet. De a matematika segítségével “okosan kiválaszthatja és futtathatja e kezeléseknek csak bizonyos részhalmazait; akkor a többire következtethet az adatokból”. Ezt “többváltozós” tesztnek hívják az A / B tesztvilágban, és gyakran azt jelenti, hogy végül A / B / C tesztet vagy akár A / B / C / D tesztet hajt végre. A fenti, színekkel és méretekkel ellátott példában ez különböző csoportok megjelenítését jelentheti: egy nagy piros gombot, egy kis piros gombot, egy nagy kék gombot és egy kis kék gombot. Ha a betűkészleteket is tesztelni szeretné, akkor a tesztcsoportok száma még tovább nő.

Hogyan csinálod Értelmezze az A / B teszt eredményeit?

Esélye van, hogy cége olyan szoftvert fog használni, amely kezeli a számításokat, és még olyan statisztát is alkalmazhat, aki értelmezni tudja ezeket az eredményeket az Ön számára. De hasznos, ha alaposan megérted, hogyan kell értelmezni a kimenetet, és eldönthetjük, hogy továbblépünk-e a tesztváltozattal (az új gomb a fenti példában).

Fung szerint a legtöbb szoftver jelentést tesz két konverziós arány az A / B teszteléshez: az egyik a kontroll verziót látó felhasználók számára, a másik pedig a teszt verziót látók számára. “A konverziós arány mérheti a kattintásokat vagy a felhasználók által végrehajtott egyéb műveleteket” – mondja. A jelentés így nézhet ki: “Vezérlés: 15% (+/- 2,1%) Változat 18% (+/- 2,3%).” Ez azt jelenti, hogy a felhasználók 18% -a 2,3% -os hibahatárral kattintott az új változatra (esetleg a nagyobb kék gombjára). Kísértés lehet, hogy ezt úgy értelmezi, hogy a tényleges konverziós ráta 15,7% és 20,3% között esik, de ez technikailag nem lenne helyes. “Az igazi értelmezés az, hogy ha többször futtatta az A / B tesztet, akkor a tartományok 95% -a rögzíti a valódi konverziós arányt – más szavakkal, az átváltási arány az idő 5% -án (vagy bármi máson) kívül esik a statisztikai szignifikancia szintje, amelyet Ön beállított) “- magyarázza Fung.

Ha ezt nehéz körülölelni, csatlakozzon a klubhoz. Fontos tudni, hogy a 18% -os konverziós arány nem garancia. Itt jön az Ön megítélése. A 18% -os beszélgetési arány minden bizonnyal jobb, mint a 15% -os, még a hibahatárt is lehetővé téve (12,9% –17,1%, szemben 15,7% –20,3%). Lehet, hogy hallja az embereket erről “3% -os emelésként” (az emelkedés egyszerűen a konverziós arány százalékos különbsége a kontroll verziója és a sikeres tesztkezelés között). Ebben az esetben nagy valószínűséggel jó döntés az új verzióra váltani, de ez az új verzió bevezetésének költségeitől függ. Ha alacsonyak, akkor kipróbálhatja a kapcsolót, és megnézheti, hogy mi történik valójában (szemben a tesztekkel). Az online világban történő tesztelés egyik nagy előnye, hogy általában könnyen visszaáll az eredeti dokumentumra.

Hogyan használják a vállalatok az A / B tesztelést?

Fung szerint a módszertan népszerűsége nőtt, mivel a vállalatok rájöttek, hogy az online környezet alkalmas arra, hogy segítsen a menedzsereknek, különösen a marketingszakembereknek, olyan kérdések megválaszolásában, mint például: “Mi az, ami valószínűleg arra készteti az embereket, hogy kattintanak? Vagy megvásárolják a termékünket? ” Az A / B teszteléssel mostantól mindent értékelnek, a weboldal tervezésétől kezdve az online ajánlatokon át a címsorokon át a termékleírásokig. (Valójában a múlt héten megnéztem az A / B tesztelés eredményeit azon a nyelven, amelyet új termék forgalmazására használunk itt: HBR.)

A kísérletek többsége anélkül zajlik, hogy az alanyok is tudnák. “Felhasználóként állandóan részesei vagyunk ezeknek a teszteknek, és nem ismerjük” – mondja Fung.

És nemcsak weboldalakról van szó. Kipróbálhatja a marketing e-maileket vagy hirdetéseket is. Például elküldhet egy e-mail két verzióját az ügyféllistájára (természetesen először véletlenszerűsítve a listát), és kitalálhatja, melyik generál több eladást. Akkor legközelebb csak elküldheti a nyertes verziót. Vagy tesztelheti a hirdetés másolatának két változatát, és megnézheti, melyik fordítja meg a látogatókat gyakrabban. Akkor tud többet költeni, hogy a legsikeresebbet találja ki.

Milyen hibákat követnek el az emberek A / B tesztek során?

Fungot kérdeztem azokról a hibákról, amelyeket a vállalatok látnak amikor A / B teszteket hajtott végre, és három közös tesztre mutatott rá.

Először azt mondja, hogy túl sok vezető nem engedi a teszteket lefutni. Mivel a tesztek futtatásához szükséges szoftverek nagy része lehetővé teszi az eredmények valós időben történő megtekintését, a vezetők túl gyorsan akarnak döntéseket hozni.Ez a hiba szerinte “türelmetlenségből fejlődik ki”, és sok szoftvergyártó belejátszott ebbe a túlterheltségbe azáltal, hogy “valós idejű optimalizálásnak” nevezett A / B tesztelést kínált, amelyben algoritmusok segítségével eredményként végezhet korrekciókat. jöjjön be. A probléma az, hogy a randomizálás miatt lehetséges, hogy ha hagyja a tesztet a természetes végére futni, akkor más eredményt kaphat.

A második hiba a túl sok mérőszám vizsgálata. “Minden alkalommal elborzadok, amikor olyan szoftvert látok, amely megpróbál mindenkinek tetszeni, több száz mutatóból álló panelt adva neked.” – mondja. A probléma az, hogy ha egyszerre ilyen sok mutatót nézel, akkor ” Fennáll annak a kockázata, hogy statisztikusok “hamis összefüggéseket” neveznek. Megfelelő teszttervezésnél “el kell döntenie a mérőszámokról, amelyeket meg kell vizsgálnia, mielőtt végrehajtana egy kísérletet, és kiválasztana néhányat. Minél többet mér, annál valószínűbb, hogy véletlenszerű ingadozásokat fog látni.” Ennyi mutatóval, ahelyett, hogy feltennéd magadnak a kérdést: “Mi történik ezzel a változóval?” azt kérdezi: “Milyen érdekes (és esetleg jelentéktelen) változásokat látok?”

Végül Fung azt mondja, hogy kevés vállalat végez elegendő újratesztelést. “Hajlamosak vagyunk egyszer tesztelni, és akkor elhiszjük. De még statisztikailag szignifikáns eredménnyel is meglehetősen nagy a hamis pozitív hiba valószínűsége. Hacsak egyszer nem teszel újra tesztet, nem zárod ki a tévedés lehetőségét. ” Hamis pozitív lehet több okból is. Például annak ellenére, hogy kevés az esély arra, hogy bármely adott A / B eredményt véletlenszerűség vezéreljen, ha sok A / B tesztet végez, akkor gyorsan nő az esélye, hogy legalább az egyik eredménye hibás.

Ezt különösen nehéz megtenni, mert valószínű, hogy a vezetők ellentmondásos eredménnyel járnának, és senki sem akarja felfedezni, hogy aláásta a korábbi megállapításokat, különösen az online világban, ahol a vezetők változtatni akarnak – és gyorsan megragadja az értéket. De az értékre való összpontosítás félrevezethető, mondja Fung: “Az emberek nincsenek nagyon éberek az eredmények gyakorlati értékével kapcsolatban. Azt akarják hinni, hogy a fejlesztések minden apró összege akkor is értékes, ha a teszt eredményei nem teljesen megbízhatóak. Valójában , annál kisebb a javulás, annál kevésbé megbízhatóak az eredmények. ”

Világos, hogy az A / B tesztelés nem csodaszer. Vannak bonyolultabb típusú kísérletek, amelyek hatékonyabbak és megbízhatóbb adatokkal szolgálnak – mondja Fung. De az A / B tesztelés nagyszerű módja annak, hogy gyorsan megértsük egy kérdését. És “a jó hír az A / B tesztvilággal kapcsolatban az, hogy minden olyan gyorsan történik, tehát ha futtatja és nem működik, próbálhat ki mást. Mindig vissza lehet térni a régi taktikára. ”

Vélemény, hozzászólás?

Az email címet nem tesszük közzé. A kötelező mezőket * karakterrel jelöltük