Bayes “Theorem

Bayes kan toveren!

Heeft u zich ooit afgevraagd hoe computers over mensen leren?

Voorbeeld:

Een zoekopdracht op internet naar “film automatische schoenveters” brengt “Terug naar de toekomst”

Heeft de zoekmachine de film bekeken? Nee, maar hij weet uit veel andere zoekopdrachten waar mensen waarschijnlijk naar op zoek zijn.

En hij berekent die kans aan de hand van de Bayes-stelling.

Bayes “Stelling is een manier om een kans te vinden als we bepaalde andere kansen kennen.

De formule is:

P (A | B) = P (A) P (B | A) P (B)

Wat ons vertelt: hoe vaak A gebeurt gegeven dat B gebeurt, geschreven P (A | B),
Als we weten: hoe vaak B voorkomt gegeven dat A gebeurt, geschreven P (B | A)
en hoe waarschijnlijk A op zichzelf staat, geschreven P (A)
en hoe waarschijnlijk B op zichzelf staat, geschreven P (B)

Laten we zeggen dat P (vuur) betekent hoe vaak er vuur is, en P (rook) betekent hoe vaak we zie rook, dan:

P (Fire | Smoke) betekent hoe vaak er brand is als we rook kunnen zien
P (Smoke | Fire) betekent hoe vaak we rook kunnen zien als er brand is

Dus de formule vertelt ons “voorwaarts” P (vuur | rook) als we “achterwaarts” weten P (rook | vuur)

Slechts 4 cijfers

Stel je voor dat 100 mensen op een feestje komen, en je telt hoeveel roze dragen of niet, en of het een man is of niet, en je krijgt deze cijfers:

Bayes “Stelling is alleen gebaseerd op die 4 getallen!

Laten we een paar totalen maken:

En enkele kansen berekenen:

En dan arriveert de pup! Zon schattige puppy.

Maar al je gegevens worden gescheurd! Slechts 3 waarden overleven:

  • P (Man) = 0.4,
  • P (Pink) = 0.25 en
  • P (Pink | Man) = 0.125

Kun jij P (Man | Pink) ontdekken?

Stel je voor dat een roze dragende gast geld achterlaat … was het een man? We kunnen deze vraag beantwoorden met behulp van Bayes “Stelling:

P (Man | Roze) = P (Man) P (Roze | Man) P (Roze)

P (Man | Roze ) = 0.4 × 0.1250.25 = 0.2

Opmerking: als we nog steeds de ruwe data hadden, konden we direct 525 = 0.2 berekenen

Algemeen zijn

Waarom werkt het?

Laten we de cijfers vervangen door letters:

Laten we nu eens kijken naar waarschijnlijkheden. Dus nemen we enkele verhoudingen:

  • de algemene kans op “A” is P (A) = s + ts + t + u + v
  • de kans op “B gegeven A” is P ( B | A) = ss + t

En vermenigvuldig ze dan als volgt samen:

Laten we dat nu nog een keer doen, maar gebruik P (B) en P (A | B):

Beide manieren krijgen hetzelfde resultaat als ss + t + u + v

Dus we kunnen zien dat:

P (B) P (A | B) = P (A) P ( B | A)

Mooi en symmetrisch is het niet?

Het moet eigenlijk symmetrisch zijn omdat we rijen en kolommen kunnen verwisselen en dezelfde linkerbovenhoek krijgen.

En het is ook Bayes Fo rmula … deel beide zijden gewoon door P (B):

P (A | B) = P (A) P (B | A) P (B)

Onthouden

Denk eerst aan “AB AB AB” en vergeet niet om het te groeperen als: “AB = A BA / B”

P (A | B) = P (A) P (B | A) P (B)

Kattenallergie?

Een van de bekende toepassingen van de stelling van Bayes is vals-positieven en vals-negatieven.

Daarvoor hebben we twee mogelijke gevallen voor “A”, zoals Pass / Fail (of Ja / Nee enz.)

Voorbeeld: Allergie of niet?

Hunter zegt dat ze jeukt. Er is een test voor allergie voor katten, maar deze test is niet altijd juist:

  • Voor mensen die echt de allergie hebben, zegt de test 80% van de tijd “Ja”
  • Voor mensen die geen allergie hebben, zegt de test 10% van de tijd “Ja” (“vals positief”)

Als 1% van de bevolking de allergie heeft , en Hunters test zegt “Ja”, wat is de kans dat Hunter echt de allergie heeft?

We willen de kans weten op het hebben van de allergie wanneer de test “Ja” zegt, geschreven P (Allergie | Ja)

Laten we eens kijken naar onze formule:

P (Allergie | Ja) = P (Allergie) P (Ja | Allergie) P (Ja)

Oh nee! We weten niet wat de algemene kans is dat de test “Ja” zegt …

… maar we kunnen het berekenen door die met en zonder allergie bij elkaar op te tellen:

  • 1% heeft de allergie, en de test zegt “Ja” tegen 80% van hen
  • 99% heeft de allergie niet en de test zegt “Ja” tegen 10% van hen ze

Laten we dat optellen:

P (Ja) = 1% × 80% + 99% × 10% = 10,7%

Wat betekent dat ongeveer 10,7% van de bevolking een “Ja” resultaat zal krijgen.

Dus nu kunnen we onze formule voltooien:

P (Allergie | Ja) = 1% × 80% 10,7% = 7.48%

P (Allergie | Ja) = ongeveer 7%

Dit is hetzelfde resultaat dat we kregen met fout-positieven en fout-negatieven.

In feite hebben we kan een speciale versie van de Bayes-formule schrijven voor dit soort dingen:

P (A | B) = P (A) P (B | A) P (A) P (B | A) + P (niet A) P (B | niet A)

“A” met drie (of meer) gevallen

We zagen zojuist “A” met twee gevallen (A en niet A), die we in de onderste regel hebben afgehandeld.

Als “A” 3 of meer gevallen heeft, nemen we ze allemaal op in de onderste regel:

P (A1 | B ) = P (A1) P (B | A1) P (A1) P (B | A1) + P (A2) P (B | A2) + P (A3) P (B | A3) + … enz

Nu, terug naar zoekmachines.

Zoekmachines nemen dit idee en schalen het veel op (plus enkele andere trucs).

Het maakt ze zien eruit alsof ze je gedachten kunnen lezen!

Het kan ook worden gebruikt voor mailfilters, muziekaanbevelingsservices en meer.

Geef een reactie

Het e-mailadres wordt niet gepubliceerd. Vereiste velden zijn gemarkeerd met *