Bayes kan gøre magi!
Har du nogensinde spekuleret på, hvordan computere lærer om mennesker?
Eksempel:
En internetsøgning efter “automatiske snørebånd til film” bringer “Tilbage til fremtiden”
Har søgemaskinen set filmen? Nej, men den ved fra mange andre søgninger, hvad folk sandsynligvis leder efter.
Og det beregner sandsynligheden ved hjælp af Bayes “sætning.
Bayes “sætning er en måde at finde en sandsynlighed på, når vi kender visse andre sandsynligheder.
Formlen er:
P (A | B) = P (A) P (B | A) P (B)
Hvilket fortæller os: | hvor ofte A sker i betragtning af at B sker, skrevet P (A | B), | |
Når vi ved: | hvor ofte B sker i betragtning af at A sker, skrevet P (B | A) | |
og hvor sandsynligt A er alene, skrevet P (A) | ||
og hvor sandsynligt B er alene, skrevet P (B) |
Lad os sige P (Ild) betyder hvor ofte der er ild, og P (Røg) betyder hvor ofte vi se røg, så:
P (Ild | Røg) betyder hvor ofte der er ild når vi kan se røg
P (Røg | Ild) betyder hvor ofte vi kan se røg når der er ild
Så formlen fortæller os “frem” P (Ild | Røg) når vi kender “baglæns” P (Røg | Ild)
Bare 4 tal
Forestil dig 100 mennesker til en fest, og du fortæller, hvor mange der bærer lyserød eller ikke, og hvis en mand eller ej, og får disse tal:
Bayes “sætning er baseret udelukkende på disse 4 tal!
Lad os lave nogle totaler:
Og beregne nogle sandsynligheder:
Og så ankommer hvalpen! En sådan sød hvalp.
Men alle dine data bliver revet op! Kun 3 værdier overlever:
- P (Mand) = 0,4,
- P (Lyserød) = 0,25 og
- P (Lyserød | Mand) = 0.125
Kan du opdage P (Mand | Lyserød)?
Forestil dig at en lyserød gæst efterlader penge bag … var det en mand? Vi kan besvare dette spørgsmål ved hjælp af Bayes “sætning:
P (mand | lyserød) = P (mand) P (lyserød | mand) P (lyserød)
P (mand | lyserød) ) = 0.4 × 0.1250.25 = 0.2
Bemærk: hvis vi stadig havde rådataene, kunne vi beregne direkte 525 = 0.2
At være generel
Hvorfor fungerer det?
Lad os erstatte tallene med bogstaver:
Lad os nu se på sandsynligheder. Så vi tager nogle forhold:
- den samlede sandsynlighed for “A” er P (A) = s + ts + t + u + v
- sandsynligheden for “B givet A” er P ( B | A) = ss + t
Og multiplicer dem derefter sammen således:
Lad os nu gøre det igen, men brug P (B) og P (A | B):
Begge måder får det samme resultat af ss + t + u + v
Så vi kan se, at:
P (B) P (A | B) = P (A) P ( B | A)
Dejligt og symmetrisk er det ikke?
Det skal faktisk være symmetrisk, da vi kan bytte rækker og kolonner og få det samme øverste venstre hjørne.
Og det er også Bayes Fo rmula … del bare begge sider med P (B):
P (A | B) = P (A) P (B | A) P (B)
Husker
Tænk først på “AB AB AB”, og husk derefter at gruppere det som: “AB = A BA / B”
P (A | B) = P (A) P (B | A) P (B)
Katteallergi?
En af de berømte anvendelser for Bayes sætning er falske positive og falske negative.
For dem har vi to mulige tilfælde for “A”, såsom Pass / Fail (eller Ja / Nej osv.)
Eksempel: Allergi eller ikke?
Hunter siger, at hun klør. Der er en test for allergi over for katte, men denne test er ikke altid korrekt:
- For folk, der virkelig har allergi, siger testen “Ja” 80% af tiden
- For personer, der ikke har allergi, siger testen “Ja” 10% af tiden (“falsk positiv”)
Hvis 1% af befolkningen har allergi , og Hunters test siger “Ja”, hvad er chancerne for, at Hunter virkelig har allergi?
Vi vil vide chancen for at få allergien, når testen siger “Ja”, skrevet P (Allergi | Ja)
Lad os få vores formel:
P (Allergi | Ja) = P (Allergi) P (Ja | Allergi) P (Ja)
Åh nej! Vi ved ikke, hvad den generelle chance for, at testen siger “Ja” er …
… men vi kan beregne det ved at tilføje dem med og dem uden allergi:
- 1% har allergi, og testen siger “ja” til 80% af dem
- 99% har ikke allergi, og testen siger “ja” til 10% af dem
Lad os tilføje det:
P (Ja) = 1% × 80% + 99% × 10% = 10,7%
Hvilket betyder, at ca. 10,7% af befolkningen får et “ja” -resultat.
Så nu kan vi udfylde vores formel:
P (Allergi | Ja) = 1% × 80% 10,7% = 7.48%
P (Allergi | Ja) = ca. 7%
Dette er det samme resultat, som vi fik på falske positive og falske negative.
Faktisk har vi kan skrive en speciel version af Bayes “-formlen bare til ting som denne:
P (A | B) = P (A) P (B | A) P (A) P (B | A) + P (ikke A) P (B | ikke A)
“A” Med tre (eller flere) sager
Vi så lige “A” med to sager (A og ikke A), som vi tog os af i bundlinjen.
Når “A” har 3 eller flere tilfælde, inkluderer vi dem alle i bundlinjen:
P (A1 | B ) = P (A1) P (B | A1) P (A1) P (B | A1) + P (A2) P (B | A2) + P (A3) P (B | A3) + … etc
Nu tilbage til søgemaskiner.
Søgemaskiner tager denne idé og skalerer den meget op (plus nogle andre tricks).
Det gør dem ser ud som om de kan læse dit sind!
Det kan også bruges til mailfiltre, musikanbefalingstjenester og mere.