¡Bayes puede hacer magia!
¿Alguna vez te has preguntado cómo aprenden las computadoras sobre las personas?
Ejemplo:
Una búsqueda en Internet de «cordones de zapatos automáticos de películas» muestra «Regreso al futuro»
¿El motor de búsqueda ha visto la película? No, pero sabe a partir de muchas otras búsquedas lo que la gente probablemente está buscando.
Y calcula esa probabilidad usando el «Teorema de Bayes».
El teorema de Bayes «es una forma de encontrar una probabilidad cuando conocemos ciertas otras probabilidades.
La fórmula es:
P (A | B) = P (A) P (B | A) P (B)
Lo que nos dice: | con qué frecuencia ocurre A dado que ocurre B, escrito P (A | B), | |
Cuando sabemos: | con qué frecuencia ocurre B dado que ocurre A, escrito P (B | A) | |
y qué tan probable es A por sí solo, escrito P (A) | ||
y qué tan probable es B por sí solo, escrito P (B) |
Digamos que P (Fuego) significa la frecuencia con la que hay fuego y P (Humo) la frecuencia con la que ver humo, luego:
P (Fuego | Humo) significa la frecuencia con la que hay fuego cuando podemos ver humo
P (Humo | Fuego) significa la frecuencia con la que podemos ver humo cuando hay fuego
Entonces, la fórmula nos dice «hacia adelante» P (Fuego | Humo) cuando sabemos «hacia atrás» P (Humo | Fuego)
Solo 4 números
Imagina a 100 personas en una fiesta, y cuentas cuántas visten de rosa o no, y si es hombre o no, y obtienes estos números:
¡El teorema de Bayes «se basa sólo en esos 4 números!
Hagamos algunos totales:
Y calculemos algunas probabilidades:
¡Y entonces llega el cachorro! Qué lindo cachorro.
¡Pero todos tus datos están destrozados! Solo sobreviven 3 valores:
- P (Hombre) = 0.4,
- P (Rosa) = 0.25 y
- P (Rosa | Hombre) = 0.125
¿Puedes descubrir P (Hombre | Rosa)?
Imagina que un invitado vestido de rosa deja dinero … ¿era un hombre? Podemos responder a esta pregunta usando el teorema de Bayes:
P (Hombre | Rosa) = P (Hombre) P (Rosa | Hombre) P (Rosa)
P (Hombre | Rosa ) = 0.4 × 0.1250.25 = 0.2
Nota: si todavía tuviéramos los datos sin procesar, podríamos calcular directamente 525 = 0.2
Siendo general
¿Por qué funciona?
Reemplacemos los números con letras:
Ahora veamos las probabilidades. Así que tomamos algunas razones:
- la probabilidad general de «A» es P (A) = s + ts + t + u + v
- la probabilidad de «B dado A» es P ( B | A) = ss + t
Y luego multiplíquelos de esta manera:
Ahora hagámoslo de nuevo, pero usemos P (B) y P (A | B):
Ambos formas obtienen el mismo resultado de ss + t + u + v
Entonces podemos ver que:
P (B) P (A | B) = P (A) P ( B | A)
Agradable y simétrico, ¿no es así?
En realidad tiene que ser simétrico, ya que podemos intercambiar filas y columnas y obtener la misma esquina superior izquierda.
Y también es Bayes Fo rmula … simplemente divide ambos lados por P (B):
P (A | B) = P (A) P (B | A) P (B)
Recordando
Primero piensa en «AB AB AB» y luego recuerda agruparlo como: «AB = A BA / B»
P (A | B) = P (A) P (B | A) P (B)
¿Alergia a los gatos?
Uno de los usos más famosos del Teorema de Bayes son los falsos positivos y los falsos negativos.
Para aquellos, tenemos dos casos posibles para «A», como Pasa / No pasa (o Sí / No, etc.)
Ejemplo: ¿Alergia o no?
Hunter dice que le pica. Existe una prueba de alergia a los gatos, pero esta prueba no siempre es correcta:
- Para las personas que realmente tienen alergia, la prueba dice «Sí» el 80% de las veces
- Para las personas que no tienen la alergia, la prueba dice «Sí» el 10% del tiempo («falso positivo»)
Si el 1% de la población tiene la alergia , y la prueba de Hunter dice «Sí», ¿cuáles son las posibilidades de que Hunter realmente tenga alergia?
Queremos saber la probabilidad de tener alergia cuando la prueba dice «Sí», escrito P (Alergia | Sí)
Vamos a obtener nuestra fórmula:
P (Alergia | Sí) = P (Alergia) P (Sí | Alergia) P (Sí)
¡Oh, no! No sabemos cuál es la probabilidad general de que la prueba diga «Sí» …
… pero podemos calcularla sumando los que tienen y los que no tienen alergia:
- 1% tiene alergia y la prueba dice «Sí» al 80% de ellos
- 99% no tiene alergia y la prueba dice «Sí» al 10% de ellos
Sumemos eso:
P (Sí) = 1% × 80% + 99% × 10% = 10,7%
Lo que significa que aproximadamente el 10,7% de la población obtendrá un resultado «Sí».
Entonces, ahora podemos completar nuestra fórmula:
P (Alergia | Sí) = 1% × 80% 10,7% = 7.48%
P (Alergia | Sí) = aproximadamente 7%
Este es el mismo resultado que obtuvimos con falsos positivos y falsos negativos.
De hecho, puede escribir una versión especial de la fórmula de Bayes «solo para cosas como esta:
P (A | B) = P (A) P (B | A) P (A) P (B | A) + P (no A) P (B | no A)
«A» con tres (o más) casos
Acabamos de ver «A» con dos casos (A y no A), que nos ocupamos en la línea de fondo.
Cuando «A» tiene 3 o más casos, los incluimos todos en la línea de fondo:
P (A1 | B ) = P (A1) P (B | A1) P (A1) P (B | A1) + P (A2) P (B | A2) + P (A3) P (B | A3) + … etc
Ahora, volvamos a los motores de búsqueda.
Los motores de búsqueda toman esta idea y la amplían mucho (además de algunos otros trucos).
Hace ¡Parece que pueden leer tu mente!
También se puede usar para filtros de correo, servicios de recomendación de música y más.