Bayes pode fazer mágica!
Já se perguntou como os computadores aprendem sobre as pessoas?
Exemplo:
Uma pesquisa na Internet por “cadarços automáticos de filmes” traz “De volta ao futuro”
O mecanismo de pesquisa assistiu ao filme? Não, mas ele sabe, por meio de várias outras pesquisas, o que as pessoas provavelmente estão procurando.
E calcula essa probabilidade usando o Teorema de Bayes.
O teorema de Bayes “é uma maneira de encontrar uma probabilidade quando conhecemos certas outras probabilidades.
A fórmula é:
P (A | B) = P (A) P (B | A) P (B)
O que nos diz: | quantas vezes A acontece, dado que B acontece, escrito P (A | B), | |
Quando sabemos: | com que frequência B acontece dado que A acontece, escrito P (B | A) | |
e a probabilidade de A ser por conta própria, escrito P (A) | ||
e qual a probabilidade de B por si só, escrito P (B) |
Digamos que P (Fogo) significa quantas vezes há fogo e P (Fumaça) significa quantas vezes nós ver fumaça, então:
P (Fogo | Fumaça) significa quantas vezes há fogo quando podemos ver fumaça
P (Fumaça | Fogo) significa quantas vezes podemos ver fumaça quando há fogo
Portanto, a fórmula nos diz “para a frente” P (Fogo | Fumaça) quando sabemos “para trás” P (Fumaça | Fogo)
Apenas 4 números
Imagine 100 pessoas em uma festa, e você calcula quantas usam rosa ou não, e se são homens ou não, e obtém estes números:
O teorema de Bayes “é baseado apenas nesses 4 números!
Vamos fazer alguns totais:
E calcular algumas probabilidades:
E então o cachorrinho chega! Um cachorrinho tão fofo.
Mas todos os seus dados são extraídos! Sobreviveram apenas 3 valores:
- P (Homem) = 0,4,
- P (Rosa) = 0,25 e
- P (Rosa | Homem) = 0,125
Você consegue descobrir P (Homem | Rosa)?
Imagine que um convidado de rosa deixando dinheiro para trás … era um homem? Podemos responder a essa pergunta usando o “Teorema de Bayes:
P (Homem | Rosa) = P (Homem) P (Rosa | Homem) P (Rosa)
P (Homem | Rosa ) = 0,4 × 0,1250,25 = 0,2
Observação: se ainda tivéssemos os dados brutos, poderíamos calcular diretamente 525 = 0,2
Sendo geral
Por que funciona?
Vamos substituir os números por letras:
Agora vamos olhar para as probabilidades. Portanto, tomamos algumas proporções:
- a probabilidade geral de “A” é P (A) = s + ts + t + u + v
- a probabilidade de “B dado A” é P ( B | A) = ss + t
E depois multiplique-os assim:
Agora vamos fazer isso de novo, mas use P (B) e P (A | B):
Ambos maneiras obtêm o mesmo resultado de ss + t + u + v
Então, podemos ver que:
P (B) P (A | B) = P (A) P ( B | A)
Bom e simétrico, não é?
Na verdade, tem que ser simétrico, pois podemos trocar linhas e colunas e obter o mesmo canto superior esquerdo.
E também é Bayes Fo rmula … basta dividir os dois lados por P (B):
P (A | B) = P (A) P (B | A) P (B)
Lembrando
Primeiro pense em “AB AB AB” e depois lembre-se de agrupá-lo como: “AB = A BA / B”
P (A | B) = P (A) P (B | A) P (B)
Alergia a gatos?
Um dos famosos usos do Teorema de Bayes são Falsos Positivos e Falsos Negativos.
Para esses, temos dois casos possíveis para “A”, como Aprovado / Reprovado (ou Sim / Não etc.)
Exemplo: Alergia ou Não?
Hunter diz que ela está com coceira. Existe um teste para alergia a gatos, mas este teste nem sempre é correto:
- Para pessoas que realmente têm alergia, o teste diz “Sim” 80% das vezes
- Para pessoas que não têm alergia, o teste diz “Sim” 10% das vezes (“falso positivo”)
Se 1% da população tem alergia , e o teste de Hunter diz “Sim”, quais são as chances de Hunter realmente ter alergia?
Queremos saber a chance de ter a alergia quando o teste diz “Sim”, escrito P (Alergia | Sim)
Vamos ver nossa fórmula:
P (Alergia | Sim) = P (Alergia) P (Sim | Alergia) P (Sim)
Oh não! Não sabemos qual é a chance geral de o teste dizer “Sim” …
… mas podemos calculá-la somando aqueles com e aqueles sem alergia:
- 1% tem alergia, e o teste diz “sim” para 80% deles
- 99% não tem alergia e o teste diz “sim” para 10% de eles
Vamos somar:
P (Sim) = 1% × 80% + 99% × 10% = 10,7%
O que significa que cerca de 10,7% da população obterá um resultado “Sim”.
Portanto, agora podemos completar nossa fórmula:
P (Alergia | Sim) = 1% × 80% 10,7% = 7.48%
P (Alergia | Sim) = cerca de 7%
Este é o mesmo resultado que obtivemos em Falsos Positivos e Falsos Negativos.
Na verdade, nós pode escrever uma versão especial da fórmula de Bayes “apenas para coisas como esta:
P (A | B) = P (A) P (B | A) P (A) P (B | A) + P (não A) P (B | não A)
“A” com três (ou mais) casos
Acabamos de ver “A” com dois casos (A e não A), que cuidamos do resultado final.
Quando “A” tem 3 ou mais casos, incluímos todos eles no resultado final:
P (A1 | B ) = P (A1) P (B | A1) P (A1) P (B | A1) + P (A2) P (B | A2) + P (A3) P (B | A3) + … etc
Agora, de volta aos mecanismos de pesquisa.
Os mecanismos de pesquisa pegam essa ideia e a ampliam muito (além de alguns outros truques).
Isso faz parece que eles podem ler sua mente!
Também pode ser usado para filtros de e-mail, serviços de recomendação de música e muito mais.