A Atualização no teste A / B

Hoje em dia, tudo gira em torno dos dados. Os líderes não querem tomar decisões a menos que tenham evidências. Isso é uma coisa boa, é claro, e felizmente existem muitas maneiras de obter informações sem ter que confiar nos próprios instintos. Um dos métodos mais comuns, especialmente em configurações online, é o teste A / B.

Para entender melhor o que é o teste A / B, sua origem e como usá-lo, conversei com Kaiser Fung , que fundou o programa de análise aplicada na Universidade de Columbia e é autor de Junk Charts, um blog dedicado ao exame crítico de dados e gráficos na mídia de massa. Seu livro mais recente é Number Sense: How to Use Big Data to Your Advantage.

O que é teste A / B?

O teste A / B, em sua forma mais básica, é uma maneira para comparar duas versões de algo para descobrir qual tem melhor desempenho. Embora seja mais frequentemente associado a sites e aplicativos, Fung diz que o método tem quase 100 anos.

Na década de 1920, o estatístico e biólogo Ronald Fisher descobriu os princípios mais importantes por trás dos testes A / B e experimentos controlados randomizados em em geral. “Ele não foi o primeiro a realizar um experimento como este, mas foi o primeiro a descobrir os princípios básicos e a matemática e torná-los uma ciência”, diz Fung.

Fisher fez experimentos agrícolas, perguntando perguntas como, o que acontece se eu colocar mais fertilizante nesta terra? Os princípios persistiram e no início da década de 1950 os cientistas começaram a fazer testes clínicos em medicina. Nas décadas de 1960 e 1970, o conceito foi adaptado por profissionais de marketing para avaliar campanhas de resposta direta (por exemplo, um cartão postal ou uma carta para clientes-alvo resultariam em mais vendas?).

Os testes A / B, em sua forma atual, surgiram na década de 1990. Fung diz que, ao longo do século passado, a matemática por trás os testes não mudaram. “São os mesmos conceitos básicos, mas agora você está fazendo isso online, em um ambiente em tempo real e em uma escala diferente em termos de número de participantes e número de experimentos.”

Como funciona o teste A / B?

Você começa um teste A / B decidindo o que deseja testar. Fung dá um exemplo simples: o tamanho do botão de inscrição em seu site. Então você precisa saber como deseja avaliar seu desempenho. Nesse caso, digamos que sua métrica seja o número de visitantes que clicam no botão. Para executar o teste, você mostra a dois conjuntos de usuários (atribuídos aleatoriamente quando eles visitam o site) as diferentes versões (onde a única coisa diferente é o tamanho do botão) e determina qual influenciou mais sua métrica de sucesso. Nesse caso, qual tamanho de botão fez com que mais visitantes clicassem?

Na vida real, há muitas coisas que influenciam se alguém clica. Por exemplo, pode ser que aqueles em um dispositivo móvel sejam mais propensos a clicar em um botão de determinado tamanho, enquanto aqueles em um desktop são desenhados para um tamanho diferente. É aqui que a randomização pode ajudar – e é crítica. Ao randomizar quais usuários estão em qual grupo, você minimiza as chances de que outros fatores, como celular versus desktop, gerem seus resultados em média.

“O teste A / B pode ser considerado o tipo mais básico de experimento controlado randomizado ”, diz Fung.“ Em sua forma mais simples, existem dois tratamentos e um atua como o controle do outro ”. Como acontece com todos os experimentos controlados aleatórios, você deve estimar o tamanho da amostra de que precisa para atingir uma significância estatística, o que o ajudará a garantir que o resultado que está vendo “não seja apenas por causa do ruído de fundo”, diz Fung.

Às vezes, você sabe que certas variáveis, geralmente aquelas que não são facilmente manipuladas, têm um forte efeito na métrica de sucesso. Por exemplo, talvez os usuários de celular de seu website tendam a clicar menos em qualquer coisa, em comparação com usuários de desktop. A randomização pode resultar no conjunto A contendo um pouco mais de usuários móveis do que o conjunto B, o que pode fazer com que o conjunto A tenha uma taxa de cliques menor, independentemente do tamanho do botão que eles estão vendo. Para nivelar o campo de jogo, o analista de teste deve primeiro dividir os usuários por dispositivo móvel e desktop e, em seguida, atribuí-los aleatoriamente a cada versão. Isso é chamado de bloqueio.

O tamanho do botão de inscrição é um exemplo muito básico, diz Fung. Na verdade, você pode não estar testando apenas o tamanho, mas também a cor e o texto, um encontre a fonte e o tamanho da fonte. Muitos gerentes executam testes sequenciais – por exemplo, testando primeiro o tamanho (grande versus pequeno), depois testando a cor (azul versus vermelho) e depois testando a fonte (Times versus Arial) – porque acreditam que não devem variar dois ou mais fatores no mesmo tempo. Mas, de acordo com Fung, essa visão foi desmascarada por estatísticos. E os testes sequenciais são abaixo do ideal porque você não está medindo o que acontece quando os fatores interagem. Por exemplo, pode ser que os usuários prefiram azul em média, mas preferem vermelho quando combinado com Arial.Esse tipo de resultado é regularmente perdido no teste A / B sequencial porque o teste de tipo de letra é executado em botões azuis que “ganharam” o teste anterior.

Em vez disso, diz Fung, você deve executar testes mais complexos . Isso pode ser difícil para alguns gerentes, uma vez que o apelo dos testes A / B é o fato de eles serem diretos e simples de serem executados (e muitas pessoas que planejam esses experimentos, ressalta Fung, não têm experiência em estatísticas). “Com A No teste / B, tendemos a querer executar um grande número de testes simultâneos e independentes ”, diz ele, em grande parte porque a mente vacila com o número de combinações possíveis que você pode testar. Mas, usando a matemática, você pode “escolher e executar de maneira inteligente apenas alguns subconjuntos desses tratamentos; então, você pode inferir o resto dos dados” Isso é chamado de teste “multivariado” no mundo dos testes A / B e geralmente significa que você acaba fazendo um teste A / B / C ou mesmo um teste A / B / C / D. No exemplo acima, com cores e tamanho, pode significar mostrar grupos diferentes: um grande botão vermelho, um pequeno botão vermelho, um grande botão azul e um pequeno botão azul. Se você também quisesse testar fontes, o número de grupos de teste aumentaria ainda mais.

Como você Interpretar os resultados de um teste A / B?

É provável que sua empresa use um software que lida com os cálculos e pode até empregar um estatístico que possa interpretar esses resultados para você. Mas é útil ter um entendimento básico de como entender a saída e decidir se deve prosseguir com a variação de teste (o novo botão no exemplo acima).

Fung diz que a maioria dos programas de software relata duas taxas de conversão para teste A / B: uma para usuários que viram a versão de controle e outra para usuários que viram a versão de teste. “A taxa de conversão pode medir cliques ou outras ações realizadas por usuários”, diz ele. O relatório pode ter a seguinte aparência: “Controle: 15% (+/- 2,1%) Variação 18% (+/- 2,3%).” Isso significa que 18% dos seus usuários clicaram na nova variação (talvez o seu botão azul maior) com uma margem de erro de 2,3%. Você pode ficar tentado a interpretar isso como a taxa de conversão real caindo entre 15,7% e 20,3%, mas isso não seria tecnicamente correto. “A verdadeira interpretação é que se você executou seu teste A / B várias vezes, 95% dos intervalos capturarão a taxa de conversão real – em outras palavras, a taxa de conversão fica fora da margem de erro 5% do tempo (ou o que for nível de significância estatística que você definiu) ”, explica Fung.

Se for difícil entender, junte-se ao clube. O que é importante saber é que a taxa de conversão de 18% não é uma garantia. É aqui que entra o seu julgamento. Uma taxa de conversação de 18% é certamente melhor do que 15%, mesmo levando em conta a margem de erro (12,9% –17,1% versus 15,7% –20,3%). Você pode ouvir as pessoas falando sobre isso como um “aumento de 3%” (aumento é simplesmente a diferença percentual na taxa de conversão entre sua versão de controle e um tratamento de teste bem-sucedido). Nesse caso, provavelmente é uma boa decisão mudar para sua nova versão, mas isso dependerá dos custos de implementação da nova versão. Se eles estiverem baixos, você pode experimentar a chave e ver o que acontece na realidade (ao contrário dos testes). Uma das grandes vantagens dos testes no mundo on-line é que geralmente você pode reverter para o original com bastante facilidade.

Como as empresas usam o teste A / B?

Fung diz que a popularidade da metodologia aumentou à medida que as empresas perceberam que o ambiente online é adequado para ajudar os gerentes, especialmente os profissionais de marketing, a responder a perguntas como: “O que mais provavelmente faz as pessoas clicarem? Ou comprar nosso produto? Ou registrar-se em nosso site? ” Os testes A / B agora são usados para avaliar tudo, desde o design do site a ofertas online, títulos e descrições de produtos. (Na verdade, na semana passada eu olhei os resultados dos testes A / B na linguagem que usamos para comercializar um novo produto aqui em HBR.)

A maioria desses experimentos é executada sem que os participantes saibam. “Como usuários, fazemos parte desses testes o tempo todo e não sabemos disso”, diz Fung.

E não são apenas sites. Você também pode testar e-mails de marketing ou anúncios. Por exemplo, você pode enviar duas versões de um e-mail para sua lista de clientes (randomizando a lista primeiro, é claro) e descobrir qual delas gera mais vendas. Então você pode simplesmente enviar a versão vencedora da próxima vez. Ou você pode testar duas versões do texto do anúncio e ver qual converte os visitantes com mais frequência. Então, você sabe como gastar mais para conseguir o mais bem-sucedido.

Quais erros as pessoas cometem ao fazer testes A / B?

Perguntei a Fung sobre os erros que ele vê as empresas cometem ao realizar testes A / B, e ele apontou três comuns.

Primeiro, ele diz, muitos gerentes não permitem que os testes realizem seu curso. Como a maior parte do software para executar esses testes permite que você observe os resultados em tempo real, os gerentes desejam tomar decisões muito rapidamente.Esse erro, diz ele, “evolui da impaciência”, e muitos fornecedores de software se aproveitaram desse exagero oferecendo um tipo de teste A / B chamado “otimização em tempo real”, no qual você pode usar algoritmos para fazer ajustes como resultados entre. O problema é que, por causa da randomização, é possível que, se você deixar o teste rodar até o fim natural, obtiver um resultado diferente.

O segundo erro é observar muitas métricas. “Eu me encolho toda vez que vejo um software que tenta agradar a todos, dando a você um painel de centenas de métricas”, diz ele. O problema é que se você está olhando para um número tão grande de métricas ao mesmo tempo, você há o risco de fazer o que os estatísticos chamam de “correlações espúrias”. No design de teste adequado, “você deve decidir sobre as métricas que vai analisar antes de executar um experimento e selecionar algumas. Quanto mais você está medindo, maior a probabilidade de ver flutuações aleatórias”. Com tantas métricas, em vez de se perguntar: “O que está acontecendo com essa variável?” você está perguntando: “Que mudanças interessantes (e potencialmente insignificantes) estou vendo?”

Por último, Fung diz que poucas empresas fazem retestes suficientes. “Temos a tendência de testar uma vez e então acreditar. Mas mesmo com um resultado estatisticamente significativo, há uma probabilidade bastante grande de erro falso positivo. A menos que você teste novamente de vez em quando, você não descarta a possibilidade de estar errado. ” Os falsos positivos podem ocorrer por vários motivos. Por exemplo, mesmo que haja pouca chance de que qualquer resultado A / B seja determinado por acaso, se você fizer muitos testes A / B, as chances de que pelo menos um de seus resultados esteja errado aumentam rapidamente.

Isso pode ser particularmente difícil de fazer porque é provável que os gerentes acabem com resultados contraditórios e ninguém quer descobrir que eles prejudicaram descobertas anteriores, especialmente no mundo online, onde os gerentes querem fazer mudanças – e capturar valor – rapidamente. Mas esse foco no valor pode ser equivocado, diz Fung: “As pessoas não estão muito vigilantes quanto ao valor prático das descobertas. Elas querem acreditar que cada pequena quantidade de melhoria é valiosa, mesmo quando os resultados do teste não são totalmente confiáveis. Na verdade , quanto menor a melhoria, menos confiáveis os resultados. ”

É claro que o teste A / B não é uma panacéia. Existem tipos mais complexos de experimentos que são mais eficientes e fornecerão dados mais confiáveis , Diz Fung. Mas o teste A / B é uma ótima maneira de entender rapidamente uma pergunta que você tem. E “a boa notícia sobre o mundo dos testes A / B é que tudo acontece muito rapidamente, então se você executá-lo e ele não funcionar, você pode tentar outra coisa. Você sempre pode voltar à velha tática. ”

Deixe uma resposta

O seu endereço de email não será publicado. Campos obrigatórios marcados com *