Przypomnienie o testach A / B

W dzisiejszych czasach wszystko zależy od danych. Liderzy nie chcą podejmować decyzji, jeśli nie mają dowodów. To oczywiście dobra rzecz i na szczęście istnieje wiele sposobów uzyskiwania informacji bez polegania na własnych instynktach. Jedną z najpopularniejszych metod, szczególnie w ustawieniach online, są testy A / B.

Aby lepiej zrozumieć, czym jest testowanie A / B, skąd się wzięło i jak go używać, rozmawiałem z Kaiser Fung , który założył program analityki stosowanej na Columbia University i jest autorem Junk Charts, bloga poświęconego krytycznej analizie danych i grafik w środkach masowego przekazu. Jego najnowsza książka to Number Sense: How To Use Big Data to Your Advantage.

Co to są testy A / B?

Testy A / B to najprostszy sposób porównać dwie wersje czegoś, aby dowiedzieć się, która działa lepiej. Chociaż jest to najczęściej kojarzone ze stronami internetowymi i aplikacjami, Fung twierdzi, że metoda ma prawie 100 lat.

W latach dwudziestych statystyk i biolog Ronald Fisher odkrył najważniejsze zasady stojące za testami A / B i randomizowanymi kontrolowanymi eksperymentami w generał. „Nie był pierwszym, który przeprowadził taki eksperyment, ale był pierwszym, który odkrył podstawowe zasady i matematykę i uczynił z nich naukę” – mówi Fung.

Fisher przeprowadził eksperymenty rolnicze, pytając pytania takie jak: Co się stanie, jeśli na tej ziemi położę więcej nawozów? Zasady przetrwały i na początku lat pięćdziesiątych XX wieku naukowcy zaczęli prowadzić badania kliniczne w medycynie. czy pocztówka lub list skierowany do klientów zaowocowałyby większą sprzedażą?).

Testy A / B w obecnej formie powstały w latach 90. Fung mówi, że w ciągu ostatniego stulecia matematyka stała się podstawą testy się nie zmieniły. „To te same podstawowe koncepcje, ale teraz robisz to online, w środowisku czasu rzeczywistego i na inną skalę pod względem liczby uczestników i liczby eksperymentów”.

Jak działają testy A / B?

Rozpoczynasz test A / B, decydując, czego chcesz testować. Fung podaje prosty przykład: rozmiar przycisku subskrypcji w Twojej witrynie. Następnie musisz wiedzieć, jak chcesz ocenić jego wydajność. W tym przypadku załóżmy, że Twoje dane to liczba użytkowników, którzy kliknęli przycisk. Aby uruchomić test, pokazujesz dwa zestawy użytkowników (przydzielanych losowo podczas odwiedzania witryny) różne wersje (gdzie jedyną różnicą jest rozmiar przycisku) i określasz, który z nich najbardziej wpłynął na wskaźnik sukcesu. W tym przypadku, który rozmiar przycisku spowodował więcej kliknięć?

W prawdziwym życiu jest wiele rzeczy, które mają wpływ na kliknięcie. Na przykład może się zdarzyć, że użytkownicy urządzeń mobilnych częściej klikają przycisk określonego rozmiaru, podczas gdy te na komputerach są rysowane w innym rozmiarze. W tym przypadku randomizacja może pomóc – i ma kluczowe znaczenie. Losowo określając, którzy użytkownicy należą do której grupy, minimalizujesz szanse, że inne czynniki, takie jak urządzenia mobilne i komputery, wpłyną na Twoje wyniki średnio.

„Test A / B można uznać za najbardziej podstawowy rodzaj randomizowany kontrolowany eksperyment ”- mówi Fung.„ W swojej najprostszej formie istnieją dwa rodzaje terapii, z których jedna pełni rolę kontroli drugiej ”. Podobnie jak w przypadku wszystkich losowych eksperymentów kontrolowanych, musisz oszacować wielkość próbki potrzebną do osiągnięcia istotności statystycznej, która pomoże Ci upewnić się, że wynik, który widzisz, „nie jest spowodowany wyłącznie szumem tła” – mówi Fung.

Czasami zdajesz sobie sprawę, że pewne zmienne, zazwyczaj te, którymi nie można łatwo manipulować, mają duży wpływ na wskaźnik sukcesu. Na przykład użytkownicy mobilni Twojej witryny internetowej mają tendencję do mniejszego klikania czegokolwiek w porównaniu z użytkownikami komputerów. Losowanie może spowodować, że zestaw A będzie zawierał nieco więcej użytkowników mobilnych niż zestaw B, co może spowodować, że zestaw A będzie miał niższy współczynnik klikalności niezależnie od rozmiaru przycisku, który widzi. Aby wyrównać szanse, analityk testowy powinien najpierw podzielić użytkowników przez telefon komórkowy i komputer, a następnie losowo przypisz je do każdej wersji. Nazywa się to blokowaniem.

Rozmiar przycisku subskrypcji to bardzo podstawowy przykład, mówi Fung. W rzeczywistości możesz nie testować tylko rozmiar, ale także kolor i tekst, a znajdź krój i rozmiar czcionki. Wielu menedżerów przeprowadza testy sekwencyjne – np. Najpierw testuje rozmiar (duży kontra mały), potem kolor (niebieski kontra czerwony), a potem krój pisma (Times versus Arial) – ponieważ uważają, że nie powinni zmieniać dwóch lub więcej czynników w tym samym czasie. Jednak według Funga pogląd ten został obalony przez statystyków. A testy sekwencyjne są nieoptymalne, ponieważ nie mierzy się tego, co się dzieje, gdy czynniki oddziałują na siebie. Na przykład może się zdarzyć, że użytkownicy preferują średnio kolor niebieski, ale preferują kolor czerwony w połączeniu z Arial.Ten rodzaj wyniku jest często pomijany w sekwencyjnych testach A / B, ponieważ test kroju pisma jest przeprowadzany na niebieskich przyciskach, które „wygrały” w poprzednim teście.

Zamiast tego, mówi Fung, powinieneś przeprowadzić bardziej złożone testy . Może to być trudne dla niektórych menedżerów, ponieważ atrakcyjność testów A / B polega na tym, jak proste i proste są do przeprowadzenia (a wiele osób projektujących te eksperymenty, zauważa Fung, nie ma tła statystycznego). / B, zwykle chcemy przeprowadzić dużą liczbę jednoczesnych, niezależnych testów ”, mówi, w dużej mierze dlatego, że umysł obraca się przy liczbie możliwych kombinacji, które możesz przetestować. Jednak korzystając z matematyki, można „inteligentnie wybrać i uruchomić tylko niektóre podzbiory tych terapii, a resztę można wywnioskować z danych”. Nazywa się to testowaniem „wielowymiarowym” w świecie testów A / B i często oznacza, że kończy się testem A / B / C lub nawet testem A / B / C / D. W powyższym przykładzie z kolorami i rozmiarem może to oznaczać wyświetlanie różnych grup: dużego czerwonego przycisku, małego czerwonego przycisku, dużego niebieskiego przycisku i małego niebieskiego przycisku. Gdybyś chciał również przetestować czcionki, liczba grup testowych wzrosłaby jeszcze bardziej.

Jak się masz Zinterpretować wyniki testu A / B?

Istnieje duże prawdopodobieństwo, że Twoja firma będzie używać oprogramowania obsługującego obliczenia, a nawet zatrudnić statystykę, który zinterpretuje te wyniki za Ciebie. Ale dobrze jest mieć podstawową wiedzę na temat tego, jak nadać sens wynikowi i zdecydować, czy przejść do przodu z wariantem testowym (nowy przycisk w powyższym przykładzie).

Fung mówi, że większość programów zgłasza dwa współczynniki konwersji dla testów A / B: jeden dla użytkowników, którzy widzieli wersję kontrolną, a drugi dla użytkowników, którzy widzieli wersję testową. „Współczynnik konwersji może mierzyć kliknięcia lub inne działania podejmowane przez użytkowników” – mówi. Raport może wyglądać następująco: „Kontrola: 15% (+/- 2,1%) Odchylenie 18% (+/- 2,3%)”. Oznacza to, że 18% użytkowników kliknęło nową odmianę (prawdopodobnie większy niebieski przycisk) z marginesem błędu 2,3%. Możesz ulec pokusie, aby zinterpretować to jako rzeczywisty współczynnik konwersji spadający między 15,7% a 20,3%, ale nie byłoby to technicznie poprawne. „Prawdziwą interpretacją jest to, że jeśli przeprowadziłeś swój test A / B wiele razy, 95% zakresów uchwyci rzeczywisty współczynnik konwersji – innymi słowy, współczynnik konwersji wykracza poza margines błędu w 5% przypadków (lub cokolwiek poziom istotności statystycznej, który ustawiłeś) ”, wyjaśnia Fung.

Jeśli trudno ci to ogarnąć, dołącz do klubu. Ważne jest, aby wiedzieć, że współczynnik konwersji 18% nie jest Gwarancja. Tutaj pojawia się Twój osąd. 18% konwersacji jest z pewnością lepsze niż 15%, nawet uwzględniając margines błędu (12,9–17,1% w porównaniu z 15,7–20,3%). Możesz usłyszeć, jak ludzie mówią o tym jako o „3% wzroście” (wzrost to po prostu procentowa różnica we współczynniku konwersji między wersją kontrolną a pomyślnym leczeniem testowym). W takim przypadku przejście na nową wersję jest najprawdopodobniej dobrą decyzją, ale będzie to zależeć od kosztów wdrożenia nowej wersji. Jeśli są niskie, możesz wypróbować przełącznik i zobaczyć, co dzieje się w rzeczywistości (a nie w testach). Jedną z największych zalet testowania w świecie online jest to, że zwykle można dość łatwo wrócić do oryginału.

W jaki sposób firmy wykorzystują testy A / B?

Fung mówi, że popularność tej metodologii wzrosła, gdy firmy zdały sobie sprawę, że środowisko internetowe dobrze nadaje się do pomagania menedżerom, zwłaszcza marketerom, w odpowiadaniu na pytania typu: „Co najprawdopodobniej sprawi, że ludzie klikną? Lub kupią nasz produkt? ” Testy A / B są teraz wykorzystywane do oceny wszystkiego, od projektu strony internetowej po oferty online, nagłówki i opisy produktów (w zeszłym tygodniu przyjrzałem się wynikom testów A / B języka, którego używamy do sprzedaży nowego produktu tutaj HBR.)

Większość tych eksperymentów przebiega bez wiedzy badanych. „Jako użytkownik jesteśmy częścią tych testów przez cały czas i nie wiemy o tym” – mówi Fung.

I to nie tylko strony internetowe. Możesz również przetestować e-maile marketingowe lub reklamy. Na przykład możesz wysłać dwie wersje wiadomości e-mail na listę klientów (oczywiście najpierw losując listę) i dowiedzieć się, która z nich generuje większą sprzedaż. Następnie następnym razem możesz po prostu wysłać zwycięską wersję. Możesz też przetestować dwie wersje tekstu reklamy i sprawdzić, która z nich częściej konwertuje użytkowników. W takim razie wiesz, że musisz wydać więcej, aby osiągnąć najlepszy wynik.

Jakie błędy popełniają ludzie podczas testów A / B?

Zapytałem Funga o błędy, które, jak widzi, popełniają firmy podczas przeprowadzania testów A / B i wskazał na trzy typowe.

Po pierwsze, mówi, że zbyt wielu menedżerów nie pozwala, aby testy przebiegły zgodnie z ich przebiegiem. Ponieważ większość oprogramowania do przeprowadzania tych testów umożliwia oglądanie wyników w czasie rzeczywistym, menedżerowie chcą podejmować decyzje zbyt szybko.Ten błąd, jak mówi, „ewoluuje z niecierpliwości” i wielu dostawców oprogramowania wykorzystało tę nadmierną ciekawość, oferując rodzaj testów A / B zwanych „optymalizacją w czasie rzeczywistym”, w których można używać algorytmów do wprowadzania poprawek jako wyników wejdź. Problem polega na tym, że z powodu randomizacji możliwe jest, że jeśli pozwolisz, aby test przebiegał do jego naturalnego końca, możesz otrzymać inny wynik.

Drugim błędem jest patrzenie na zbyt wiele wskaźników. „Wzdrygam się za każdym razem, gdy widzę oprogramowanie, które stara się zadowolić wszystkich, udostępniając panel z setkami wskaźników” – mówi. Problem polega na tym, że jeśli patrzysz na tak dużą liczbę wskaźników w tym samym czasie, są narażeni na ryzyko tworzenia czegoś, co statystycy nazywają „fałszywymi korelacjami”. W prawidłowym projekcie testu „przed wykonaniem eksperymentu należy zdecydować, jakie dane mają być brane pod uwagę, i wybrać kilka. Im więcej mierzysz, tym większe jest prawdopodobieństwo, że zobaczysz przypadkowe fluktuacje”. Przy tak wielu danych, zamiast zadawać sobie pytanie „Co się dzieje z tą zmienną?” pytasz: „Jakie ciekawe (i potencjalnie nieistotne) zmiany widzę?”

Na koniec Fung mówi, że niewiele firm przeprowadza wystarczającą liczbę ponownych testów. „Zwykle testujemy to raz, a potem w to wierzymy. Ale nawet przy wyniku istotnym statystycznie istnieje dość duże prawdopodobieństwo fałszywie dodatniego błędu. Jeśli nie wykonasz testu raz na jakiś czas, nie wykluczasz możliwości pomyłki ”. Fałszywe pozytywy mogą wystąpić z kilku powodów. Na przykład, nawet jeśli istnieje niewielka szansa, że jakikolwiek wynik A / B jest przypadkowy, jeśli wykonujesz wiele testów A / B, prawdopodobieństwo, że przynajmniej jeden z wyników jest błędny, szybko rośnie.

Może to być szczególnie trudne, ponieważ jest prawdopodobne, że menedżerowie uzyskają sprzeczne wyniki i nikt nie chce odkryć, że podważyli poprzednie ustalenia, szczególnie w świecie online, gdzie menedżerowie chcą wprowadzać zmiany – i szybko zdobądź wartość. Ale to skupienie się na wartości może być mylące, mówi Fung: „Ludzie nie zwracają zbytniej uwagi na praktyczną wartość ustaleń. Chcą wierzyć, że każda niewielka poprawa jest cenna, nawet jeśli wyniki testów nie są w pełni wiarygodne. W rzeczywistości , im mniejsza poprawa, tym mniej wiarygodne wyniki ”.

Oczywiste jest, że testy A / B nie są panaceum. Istnieją bardziej złożone rodzaje eksperymentów, które są bardziej wydajne i dadzą bardziej wiarygodne dane – mówi Fung. Ale testy A / B to świetny sposób na szybkie zrozumienie zadanego pytania. „Dobra wiadomość ze świata testów A / B jest taka, że wszystko dzieje się tak szybko, więc jeśli je uruchomisz i to nie działa, możesz spróbować czegoś innego. Zawsze możesz wrócić do starej taktyki ”.

Dodaj komentarz

Twój adres email nie zostanie opublikowany. Pola, których wypełnienie jest wymagane, są oznaczone symbolem *