En estos días, todo se trata de datos. Los líderes no quieren tomar decisiones a menos que tengan pruebas. Eso es algo bueno, por supuesto, y afortunadamente hay muchas formas de obtener información sin tener que depender de los instintos. Uno de los métodos más comunes, particularmente en entornos en línea, es la prueba A / B.
Para comprender mejor qué es la prueba A / B, dónde se originó y cómo usarla, hablé con Kaiser Fung , quien fundó el programa de análisis aplicado en la Universidad de Columbia y es autor de Junk Charts, un blog dedicado al examen crítico de datos y gráficos en los medios de comunicación. Su último libro es Number Sense: How to Use Big Data to Your Advantage.
¿Qué son las pruebas A / B?
Las pruebas A / B, en su forma más básica, son una forma para comparar dos versiones de algo para averiguar cuál funciona mejor. Si bien se asocia con mayor frecuencia con sitios web y aplicaciones, Fung dice que el método tiene casi 100 años.
En la década de 1920, el estadístico y biólogo Ronald Fisher descubrió los principios más importantes detrás de las pruebas A / B y los experimentos controlados aleatorios en general. «No fue el primero en realizar un experimento como este, pero fue el primero en descubrir los principios básicos y las matemáticas y convertirlos en ciencia», dice Fung.
Fisher realizó experimentos agrícolas y preguntó preguntas como: ¿Qué sucede si pongo más fertilizante en esta tierra? Los principios persistieron y, a principios de la década de 1950, los científicos comenzaron a realizar ensayos clínicos en medicina. En las décadas de 1960 y 1970, los especialistas en marketing adaptaron el concepto para evaluar campañas de respuesta directa (p. ej., ¿una postal o una carta a los clientes objetivo generaría más ventas?).
Las pruebas A / B, en su forma actual, comenzaron a existir en la década de 1990. Fung dice que a lo largo del siglo pasado, las matemáticas detrás las pruebas no han cambiado. «Son los mismos conceptos básicos, pero ahora lo está haciendo en línea, en un entorno en tiempo real y en una escala diferente en términos de número de participantes y número de experimentos».
¿Cómo funcionan las pruebas A / B?
Empiezas una prueba A / B al decidir qué es lo que quieres Probar. Fung da un ejemplo simple: el tamaño del botón de suscripción en su sitio web. Entonces necesita saber cómo quiere evaluar su desempeño. En este caso, digamos que su métrica es la cantidad de visitantes que hacen clic en el botón. Para ejecutar la prueba, muestra dos conjuntos de usuarios (asignados al azar cuando visitan el sitio) las diferentes versiones (donde lo único diferente es el tamaño del botón) y determina cuál influyó más en su métrica de éxito. En este caso, ¿qué tamaño de botón hizo que más visitantes hicieran clic?
En la vida real, hay muchas cosas que influyen en si alguien hace clic. Por ejemplo, puede ser que aquellos en un dispositivo móvil tengan más probabilidades de hacer clic en un botón de cierto tamaño, mientras que los que están en el escritorio se dibujan en un tamaño diferente. Aquí es donde la aleatorización puede ayudar, y es fundamental. Al seleccionar al azar qué usuarios están en cada grupo, minimiza las posibilidades de que otros factores, como dispositivos móviles o computadoras de escritorio, impulsen sus resultados en promedio.
«La prueba A / B puede considerarse el tipo más básico de experimento controlado aleatorio ”, dice Fung.“ En su forma más simple, hay dos tratamientos y uno actúa como control del otro ”. Al igual que con todos los experimentos controlados aleatorios, debe estimar el tamaño de muestra que necesita para lograr una significación estadística, lo que lo ayudará a asegurarse de que el resultado que está viendo «no se deba solo al ruido de fondo», dice Fung.
A veces, sabe que ciertas variables, generalmente aquellas que no se manipulan fácilmente, tienen un fuerte efecto en la métrica de éxito. Por ejemplo, tal vez los usuarios móviles de su sitio web tienden a hacer menos clic en cualquier cosa, en comparación con los usuarios de escritorio. La aleatorización puede dar como resultado que el conjunto A contenga un poco más de usuarios móviles que el conjunto B, lo que puede hacer que el conjunto A tenga una tasa de clics más baja independientemente del tamaño del botón que estén viendo. Para nivelar el campo de juego, el analista de pruebas primero debe dividir a los usuarios para dispositivos móviles y computadoras de escritorio y luego asignarlos aleatoriamente a cada versión. Esto se llama bloqueo.
El tamaño del botón de suscripción es un ejemplo muy básico, dice Fung. En realidad, es posible que no esté probando solo el tamaño, sino también el color y el texto, un Encuentra el tipo de letra y el tamaño de la fuente. Muchos gerentes ejecutan pruebas secuenciales, por ejemplo, probando primero el tamaño (grande versus pequeño), luego probando el color (azul versus rojo), luego probando la tipografía (Times versus Arial), porque creen que no deberían variar dos o más factores en el Mismo tiempo. Pero según Fung, esa opinión ha sido desacreditada por los estadísticos. Y las pruebas secuenciales no son óptimas porque no está midiendo lo que sucede cuando los factores interactúan. Por ejemplo, puede ser que los usuarios prefieran el azul en promedio, pero prefieran el rojo cuando se combina con Arial.Este tipo de resultado se pasa por alto regularmente en las pruebas secuenciales A / B porque la prueba de tipo de letra se ejecuta en botones azules que «ganaron» la prueba anterior.
En cambio, dice Fung, debería ejecutar pruebas más complejas . Esto puede ser difícil para algunos gerentes, ya que el atractivo de las pruebas A / B radica en su sencillez y sencillez de ejecución (y muchas personas que diseñan estos experimentos, señala Fung, no tienen experiencia en estadísticas) «. / Prueba B, tendemos a querer ejecutar una gran cantidad de pruebas independientes simultáneas ”, dice, en gran parte porque la mente se tambalea ante la cantidad de combinaciones posibles que puede probar. Pero al usar las matemáticas, puede «seleccionar y ejecutar inteligentemente solo ciertos subconjuntos de esos tratamientos; luego puede inferir el resto a partir de los datos». Esto se llama prueba «multivariante» en el mundo de las pruebas A / B y, a menudo, significa que terminas haciendo una prueba A / B / C o incluso una prueba A / B / C / D. En el ejemplo anterior con colores y tamaño, podría significar mostrar diferentes grupos: un botón rojo grande, un botón rojo pequeño, un botón azul grande y un botón azul pequeño. Si también quisiera probar las fuentes, la cantidad de grupos de prueba aumentaría aún más.
¿Cómo está ¿Interpretar los resultados de una prueba A / B?
Lo más probable es que su empresa utilice software que maneje los cálculos, e incluso puede emplear a un estadístico que pueda interpretar esos resultados por usted. Pero es útil tener una comprensión básica de cómo darle sentido a la salida y decidir si seguir adelante con la variación de prueba (el nuevo botón en el ejemplo anterior).
Fung dice que la mayoría de los programas de software informan dos tasas de conversión para las pruebas A / B: una para los usuarios que vieron la versión de control y la otra para los usuarios que vieron la versión de prueba. «La tasa de conversión puede medir los clics u otras acciones realizadas por los usuarios», dice. El informe podría tener este aspecto: «Control: 15% (+/- 2,1%) Variación 18% (+/- 2,3%)». Esto significa que el 18% de sus usuarios hizo clic en la nueva variación (quizás su botón azul más grande) con un margen de error del 2,3%. Es posible que tenga la tentación de interpretar esto como una tasa de conversión real que se encuentra entre el 15,7% y el 20,3%, pero eso no sería técnicamente correcto. «La interpretación real es que si ejecutó su prueba A / B varias veces, el 95% de los rangos capturará la tasa de conversión real; en otras palabras, la tasa de conversión queda fuera del margen de error el 5% del tiempo (o lo que sea nivel de significación estadística que ha establecido) ”, explica Fung.
Si es difícil de entender, únase al club. Lo que es importante saber es que la tasa de conversión del 18% no es una garantía. Aquí es donde entra su juicio. Una tasa de conversación del 18% es ciertamente mejor que una del 15%, incluso teniendo en cuenta el margen de error (12,9% –17,1% frente al 15,7% –20,3%). Es posible que escuche a la gente hablar sobre esto como un «aumento del 3%» (el aumento es simplemente la diferencia porcentual en la tasa de conversión entre su versión de control y un tratamiento de prueba exitoso). En este caso, lo más probable es que sea una buena decisión cambiar a su nueva versión, pero eso dependerá de los costos de implementación de la nueva versión. Si son bajos, puede probar el interruptor y ver qué sucede en realidad (a diferencia de en las pruebas). Una de las grandes ventajas de las pruebas en el mundo en línea es que normalmente puede volver a su versión original con bastante facilidad.
¿Cómo utilizan las empresas las pruebas A / B?
Fung dice que la popularidad de la metodología ha aumentado a medida que las empresas se han dado cuenta de que el entorno en línea es adecuado para ayudar a los gerentes, especialmente a los especialistas en marketing, a responder preguntas como: «¿Qué es más probable que haga que la gente haga clic? ¿O comprar nuestro producto? ¿O registrarse en nuestro sitio? » Las pruebas A / B ahora se utilizan para evaluar todo, desde el diseño de sitios web hasta las ofertas en línea, los titulares y las descripciones de productos. (De hecho, la semana pasada miré los resultados de las pruebas A / B en el idioma que usamos para comercializar un nuevo producto aquí en HBR.)
La mayoría de estos experimentos se ejecutan sin que los sujetos lo sepan. «Como usuario, somos parte de estas pruebas todo el tiempo y no lo sabemos», dice Fung.
Y no se trata solo de sitios web. También puede probar correos electrónicos o anuncios de marketing. Por ejemplo, puede enviar dos versiones de un correo electrónico a su lista de clientes (primero aleatorizando la lista, por supuesto) y averiguar cuál genera más ventas. Entonces puede enviar la versión ganadora la próxima vez. O puede probar dos versiones del texto del anuncio y ver cuál convierte a los visitantes con más frecuencia. Entonces sabrá gastar más para conseguir el más exitoso.
¿Qué errores cometen las personas al hacer pruebas A / B?
Le pregunté a Fung sobre los errores que ve que cometen las empresas al realizar pruebas A / B, y señaló tres comunes.
Primero, dice, muchos gerentes no dejan que las pruebas sigan su curso. Debido a que la mayor parte del software para ejecutar estas pruebas le permite ver los resultados en tiempo real, los gerentes quieren tomar decisiones con demasiada rapidez.Este error, dice, «surge de la impaciencia», y muchos proveedores de software han aprovechado este exceso de entusiasmo al ofrecer un tipo de prueba A / B llamada «optimización en tiempo real», en la que se pueden utilizar algoritmos para realizar ajustes como resultados. entra. El problema es que, debido a la aleatorización, es posible que si dejas que la prueba se ejecute hasta su final natural, obtengas un resultado diferente.
El segundo error es mirar demasiadas métricas. «Me estremezco cada vez que veo un software que intenta complacer a todo el mundo dándote un panel de cientos de métricas», dice. El problema es que si estás mirando una gran cantidad de métricas al mismo tiempo, corren el riesgo de hacer lo que los estadísticos llaman «correlaciones falsas». En un diseño de prueba adecuado, «debe decidir las métricas que va a observar antes de ejecutar un experimento y seleccionar algunas. Cuanto más mida, más probabilidades tendrá de ver fluctuaciones aleatorias». Con tantas métricas, en lugar de preguntarse: «¿Qué está pasando con esta variable?» se está preguntando: «¿Qué cambios interesantes (y potencialmente insignificantes) estoy viendo?»
Por último, Fung dice que pocas empresas hacen suficientes pruebas repetidas «. Tendemos a probarlo una vez y luego lo creemos. Pero incluso con un resultado estadísticamente significativo, existe una gran probabilidad de error falso positivo. A menos que vuelva a realizar la prueba de vez en cuando, no descarta la posibilidad de estar equivocado «. Los falsos positivos pueden ocurrir por varias razones. Por ejemplo, aunque puede haber pocas posibilidades de que un resultado A / B dado sea impulsado por una probabilidad aleatoria, si realiza muchas pruebas A / B, las posibilidades de que al menos uno de sus resultados sea incorrecto aumentan rápidamente.
Esto puede ser particularmente difícil de hacer porque es probable que los gerentes terminen con resultados contradictorios y nadie quiera descubrir que han socavado hallazgos anteriores, especialmente en el mundo en línea, donde los gerentes quieren hacer cambios – y capturar valor – rápidamente. Pero este enfoque en el valor puede ser erróneo, dice Fung: «La gente no está muy atenta al valor práctico de los hallazgos. Quieren creer que cada pequeña mejora es valiosa incluso cuando los resultados de las pruebas no son completamente confiables. De hecho , cuanto menor sea la mejora, menos confiables serán los resultados «.
Está claro que las pruebas A / B no son una panacea. Hay tipos de experimentos más complejos que son más eficientes y le brindarán datos más confiables , Dice Fung. Pero las pruebas A / B son una excelente manera de obtener una comprensión rápida de una pregunta que tienes. Y «la buena noticia sobre el mundo de las pruebas A / B es que todo sucede muy rápido, así que si lo ejecutas y no funciona, puedes probar otra cosa. Siempre puedes volver a la vieja táctica «.