Teorema de Bayes

¡Bayes puede hacer magia!

¿Alguna vez te has preguntado cómo aprenden las computadoras sobre las personas?

Ejemplo:

Una búsqueda en Internet de «cordones de zapatos automáticos de películas» muestra «Regreso al futuro»

¿El motor de búsqueda ha visto la película? No, pero sabe a partir de muchas otras búsquedas lo que la gente probablemente está buscando.

Y calcula esa probabilidad usando el «Teorema de Bayes».

El teorema de Bayes «es una forma de encontrar una probabilidad cuando conocemos ciertas otras probabilidades.

La fórmula es:

P (A | B) = P (A) P (B | A) P (B)

Lo que nos dice: con qué frecuencia ocurre A dado que ocurre B, escrito P (A | B),
Cuando sabemos: con qué frecuencia ocurre B dado que ocurre A, escrito P (B | A)
y qué tan probable es A por sí solo, escrito P (A)
y qué tan probable es B por sí solo, escrito P (B)

Digamos que P (Fuego) significa la frecuencia con la que hay fuego y P (Humo) la frecuencia con la que ver humo, luego:

P (Fuego | Humo) significa la frecuencia con la que hay fuego cuando podemos ver humo
P (Humo | Fuego) significa la frecuencia con la que podemos ver humo cuando hay fuego

Entonces, la fórmula nos dice «hacia adelante» P (Fuego | Humo) cuando sabemos «hacia atrás» P (Humo | Fuego)

Solo 4 números

Imagina a 100 personas en una fiesta, y cuentas cuántas visten de rosa o no, y si es hombre o no, y obtienes estos números:

¡El teorema de Bayes «se basa sólo en esos 4 números!

Hagamos algunos totales:

Y calculemos algunas probabilidades:

¡Y entonces llega el cachorro! Qué lindo cachorro.

¡Pero todos tus datos están destrozados! Solo sobreviven 3 valores:

  • P (Hombre) = 0.4,
  • P (Rosa) = 0.25 y
  • P (Rosa | Hombre) = 0.125

¿Puedes descubrir P (Hombre | Rosa)?

Imagina que un invitado vestido de rosa deja dinero … ¿era un hombre? Podemos responder a esta pregunta usando el teorema de Bayes:

P (Hombre | Rosa) = P (Hombre) P (Rosa | Hombre) P (Rosa)

P (Hombre | Rosa ) = 0.4 × 0.1250.25 = 0.2

Nota: si todavía tuviéramos los datos sin procesar, podríamos calcular directamente 525 = 0.2

Siendo general

¿Por qué funciona?

Reemplacemos los números con letras:

Ahora veamos las probabilidades. Así que tomamos algunas razones:

  • la probabilidad general de «A» es P (A) = s + ts + t + u + v
  • la probabilidad de «B dado A» es P ( B | A) = ss + t

Y luego multiplíquelos de esta manera:

Ahora hagámoslo de nuevo, pero usemos P (B) y P (A | B):

Ambos formas obtienen el mismo resultado de ss + t + u + v

Entonces podemos ver que:

P (B) P (A | B) = P (A) P ( B | A)

Agradable y simétrico, ¿no es así?

En realidad tiene que ser simétrico, ya que podemos intercambiar filas y columnas y obtener la misma esquina superior izquierda.

Y también es Bayes Fo rmula … simplemente divide ambos lados por P (B):

P (A | B) = P (A) P (B | A) P (B)

Recordando

Primero piensa en «AB AB AB» y luego recuerda agruparlo como: «AB = A BA / B»

P (A | B) = P (A) P (B | A) P (B)

¿Alergia a los gatos?

Uno de los usos más famosos del Teorema de Bayes son los falsos positivos y los falsos negativos.

Para aquellos, tenemos dos casos posibles para «A», como Pasa / No pasa (o Sí / No, etc.)

Ejemplo: ¿Alergia o no?

Hunter dice que le pica. Existe una prueba de alergia a los gatos, pero esta prueba no siempre es correcta:

  • Para las personas que realmente tienen alergia, la prueba dice «Sí» el 80% de las veces
  • Para las personas que no tienen la alergia, la prueba dice «Sí» el 10% del tiempo («falso positivo»)

Si el 1% de la población tiene la alergia , y la prueba de Hunter dice «Sí», ¿cuáles son las posibilidades de que Hunter realmente tenga alergia?

Queremos saber la probabilidad de tener alergia cuando la prueba dice «Sí», escrito P (Alergia | Sí)

Vamos a obtener nuestra fórmula:

P (Alergia | Sí) = P (Alergia) P (Sí | Alergia) P (Sí)

¡Oh, no! No sabemos cuál es la probabilidad general de que la prueba diga «Sí» …

… pero podemos calcularla sumando los que tienen y los que no tienen alergia:

  • 1% tiene alergia y la prueba dice «Sí» al 80% de ellos
  • 99% no tiene alergia y la prueba dice «Sí» al 10% de ellos

Sumemos eso:

P (Sí) = 1% × 80% + 99% × 10% = 10,7%

Lo que significa que aproximadamente el 10,7% de la población obtendrá un resultado «Sí».

Entonces, ahora podemos completar nuestra fórmula:

P (Alergia | Sí) = 1% × 80% 10,7% = 7.48%

P (Alergia | Sí) = aproximadamente 7%

Este es el mismo resultado que obtuvimos con falsos positivos y falsos negativos.

De hecho, puede escribir una versión especial de la fórmula de Bayes «solo para cosas como esta:

P (A | B) = P (A) P (B | A) P (A) P (B | A) + P (no A) P (B | no A)

«A» con tres (o más) casos

Acabamos de ver «A» con dos casos (A y no A), que nos ocupamos en la línea de fondo.

Cuando «A» tiene 3 o más casos, los incluimos todos en la línea de fondo:

P (A1 | B ) = P (A1) P (B | A1) P (A1) P (B | A1) + P (A2) P (B | A2) + P (A3) P (B | A3) + … etc

Ahora, volvamos a los motores de búsqueda.

Los motores de búsqueda toman esta idea y la amplían mucho (además de algunos otros trucos).

Hace ¡Parece que pueden leer tu mente!

También se puede usar para filtros de correo, servicios de recomendación de música y más.

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *