Bayesin lause

Bayes voi tehdä taikuutta!

Oletko koskaan miettinyt, kuinka tietokoneet oppivat ihmisistä?

Esimerkki:

Internet-haku ”elokuvan automaattiset kengännauhat” tuo esiin ”Takaisin tulevaisuuteen”

Onko hakukone katsellut elokuvaa? Ei, mutta se tietää monista muista hauista, mitä ihmiset todennäköisesti etsivät.

Ja se laskee tämän todennäköisyyden Bayesin lauseen avulla.

Bayesin lause on tapa löytää todennäköisyys, kun tiedämme tietyt muut todennäköisyydet.

Kaava on:

P (A | B) = P (A) P (B | A) P (B)

Mikä kertoo meille: kuinka usein A tapahtuu, kun B tapahtuu, kirjoitettu P (A | B),
Kun tiedämme: kuinka usein B tapahtuu, kun A tapahtuu, kirjoitetaan P (B | A)
ja kuinka todennäköinen A on yksin, kirjoitettu P (A)
ja kuinka todennäköinen B on yksin, kirjoitettu P (B)

Sanotaan, että P (tuli) tarkoittaa kuinka usein tulta on, ja P (savu) tarkoittaa kuinka usein me katso savua:

P (Tuli | Savu) tarkoittaa sitä, kuinka usein tulta on, kun voimme nähdä savua
P (Savu | Tuli) tarkoittaa, kuinka usein voimme nähdä savua, kun on tulta

Joten kaava kertoo meille ”eteenpäin” P (Tuli | Savu), kun tiedämme ”taaksepäin” P (Savu | Tuli)

Vain 4 numeroa

Kuvittele 100 ihmistä juhlissa, ja lasket, kuinka moni käyttää vaaleanpunaista vai ei, ja jos mies vai ei, niin saat nämä numerot:

Bayesin lause perustuu vain näihin 4 lukuun!

Tehdään joitain summia:

Ja lasketaan joitain todennäköisyyksiä:

Ja sitten pentu saapuu! Niin söpö pentu.

Mutta kaikki tietosi on kopioitu! Vain 3 arvoa säilyy:

  • P (mies) = 0,4,
  • P (vaaleanpunainen) = 0,25 ja
  • P (vaaleanpunainen | mies) = 0,125

Voitko löytää P (mies | vaaleanpunainen)?

Kuvittele, että vaaleanpunainen pukeutunut vieras jättää rahaa taakse … oliko se mies? Voimme vastata tähän kysymykseen Bayesin lauseella:

P (Mies | Vaaleanpunainen) = P (Mies) P (Vaaleanpunainen | Mies) P (Vaaleanpunainen)

P (Mies | Vaaleanpunainen) ) = 0,4 × 0,1250,25 = 0,2

Huomaa: jos meillä olisi vielä raakatietoja, voimme laskea suoraan 525 = 0,2

Yleisyyttä

Miksi se toimii?

Korvataan numerot kirjaimilla:

Tarkastellaan nyt todennäköisyyksiä. Otetaan siis joitain suhteita:

  • ”A”: n yleinen todennäköisyys on P (A) = s + ts + t + u + v
  • ”B: lle annettu A”: n todennäköisyys on P ( B | A) = ss + t

Ja kerro ne sitten yhteen näin:

Tee nyt se uudelleen, mutta käytä P (B) ja P (A | B):

Molemmat tapoja saada sama tulos ss + t + u + v

Joten voimme nähdä, että:

P (B) P (A | B) = P (A) P ( B | A)

Mukava ja symmetrinen ei ole sitä?

Sen on todellakin oltava symmetrinen, koska voimme vaihtaa rivejä ja sarakkeita ja saada saman vasemman yläkulman.

Ja se on myös Bayes Fo rmula … jaa vain molemmat puolet P (B):

P (A | B) = P (A) P (B | A) P (B)

Muistaminen

Ajattele ensin ”AB AB AB” ja muista sitten ryhmitellä se seuraavasti: ”AB = A BA / B”

P (A | B) = P (A) P (B | A) P (B)

Kissan allergia?

Yksi Bayesin lauseen kuuluisimmista käyttötarkoituksista on väärät positiiviset ja väärät negatiiviset.

Niille meillä on kaksi mahdollista A-tapausta, kuten Hyväksyntä / Epäonnistuminen (tai Kyllä / Ei jne.)

Esimerkki: Allergia vai ei?

Hunter sanoo olevansa kutiava. Kissoille allergiasta on testi, mutta tämä testi ei ole aina oikea:

  • Ihmisille, joilla todellakin on allergia, testi sanoo ”Kyllä” 80% ajasta
  • Ihmisille, joilla ei ole allergiaa, testi sanoo ”kyllä” 10% ajasta (”väärä positiivinen”)

Jos 1 prosentilla väestöstä on allergia , ja Hunterin testi sanoo ”Kyllä”, mitkä ovat mahdollisuudet, että Hunterilla on todella allergia?

Haluamme tietää mahdollisuuden saada allergia, kun testi sanoo ”Kyllä”, kirjoitettu P (Allergia | Kyllä)

Saakaamme kaava:

P (Allergia | Kyllä) = P (Allergia) P (Kyllä | Allergia) P (Kyllä)

Voi ei! Emme tiedä, mikä on yleinen mahdollisuus, että testi sanoo ”Kyllä” …

… mutta voimme laskea sen laskemalla yhteen ne, joilla on allergia, ja ne, joilla ei ole allergiaa:

  • 1%: lla on allergia, ja testi sanoo ”kyllä” 80%: lle heistä.
  • 99%: lla ei ole allergiaa ja testissä sanotaan ”kyllä” 10%: lle. ne

Lisätään tämä yhteen:

P (kyllä) = 1% × 80% + 99% × 10% = 10,7%

Mikä tarkoittaa, että noin 10,7% väestöstä saa ”Kyllä” -tuloksen.

Joten nyt voimme täydentää kaavamme:

P (Allergia | Kyllä) = 1% × 80% 10,7% = 7.48%

P (Allergia | Kyllä) = noin 7%

Tämä on sama tulos, jonka saimme vääristä positiivisista ja vääristä negatiivisista.

Itse asiassa me osaa kirjoittaa erityisversion Bayes ”-kaavasta vain seuraaville:

P (A | B) = P (A) P (B | A) P (A) P (B | A) + P (ei A) P (B | ei A)

”A”, jossa on kolme (tai enemmän) tapausta

Näimme juuri ”A”: n, jossa on kaksi tapausta (A ja ei A), josta huolehdimme alarivillä.

Kun ”A”: lla on vähintään 3 tapausta, sisällytämme ne kaikki alimpaan riviin:

P (A1 | B ) = P (A1) P (B | A1) P (A1) P (B | A1) + P (A2) P (B | A2) + P (A3) P (B | A3) + … jne.

Palaa nyt hakukoneisiin.

Hakukoneet käyttävät tätä ajatusta ja laajentavat sitä paljon (plus joitain muita temppuja).

Se tekee ne näyttävät pystyvän lukemaan mieltäsi!

Sitä voidaan käyttää myös sähköpostisuodattimiin, musiikkisuosituspalveluihin ja muuhun.

Vastaa

Sähköpostiosoitettasi ei julkaista. Pakolliset kentät on merkitty *