Twierdzenie Bayesa

Bayes potrafi czynić magię!

Czy zastanawiałeś się kiedyś, jak komputery uczą się o ludziach?

Przykład:

Wyszukiwanie w Internecie hasła „filmowe automatyczne sznurówki do butów” powoduje wyświetlenie komunikatu „Powrót do przyszłości”

Czy wyszukiwarka obejrzała film? Nie, ale z wielu innych wyszukiwań wie, czego ludzie prawdopodobnie szukają.

I oblicza to prawdopodobieństwo za pomocą twierdzenia Bayesa.

Twierdzenie Bayesa to sposób na znalezienie prawdopodobieństwa, gdy znamy pewne inne prawdopodobieństwa.

Wzór jest następujący:

P (A | B) = P (A) P (B | A) P (B)

Który mówi nam: jak często zdarza się A, biorąc pod uwagę, że zdarza się B, zapisane P (A | B),
Kiedy wiemy: jak często zdarza się B, biorąc pod uwagę, że dzieje się A, zapisujemy P (B | A)
i jak prawdopodobne jest, że A jest sam w sobie, napisane P (A)
i jak prawdopodobne jest, że B jest sam w sobie, napisane P (B)

Powiedzmy, że P (Ogień) oznacza, jak często występuje ogień, a P (Dym) oznacza, jak często zobacz dym, więc:

P (Ogień | Dym) oznacza, jak często jest ogień, kiedy widzimy dym
P (Dym | Ogień) oznacza, jak często widzimy dym, gdy jest ogień

Więc formuła mówi nam „do przodu” P (ogień | dym), kiedy znamy „wstecz” P (dym | ogień)

Tylko 4 liczby

Wyobraź sobie 100 osób na przyjęciu i zliczasz, ile osób nosi na różowo, czy nie, i czy to mężczyzna, czy nie, i otrzymujesz te liczby:

Twierdzenie Bayesa opiera się tylko na tych 4 liczbach!

Zróbmy podsumowanie:

I obliczmy pewne prawdopodobieństwa:

I wtedy pojawia się szczeniak! Taki słodki szczeniak.

Ale wszystkie twoje dane są podarte! Przetrwały tylko 3 wartości:

  • P (Man) = 0,4,
  • P (Pink) = 0,25 i
  • P (Pink | Man) = 0.125

Czy potrafisz odkryć P (mężczyzna | różowy)?

Wyobraź sobie gościa w różowym ubraniu, który zostawia pieniądze … czy to był mężczyzna? Możemy odpowiedzieć na to pytanie używając twierdzenia Bayesa:

P (mężczyzna | różowy) = P (mężczyzna) P (różowy | mężczyzna) P (różowy)

P (mężczyzna | różowy) ) = 0,4 × 0,1250,25 = 0,2

Uwaga: gdybyśmy nadal mieli surowe dane, moglibyśmy obliczyć bezpośrednio 525 = 0,2

Ogólne

Dlaczego to działa?

Zastąpmy liczby literami:

Spójrzmy teraz na prawdopodobieństwa. Weźmy więc kilka współczynników:

  • ogólne prawdopodobieństwo „A” wynosi P (A) = s + ts + t + u + v
  • prawdopodobieństwo „B dane A” wynosi P ( B | A) = ss + t

A następnie pomnóż je razem w ten sposób:

Zróbmy to jeszcze raz, ale użyj P (B) i P (A | B):

Oba sposoby uzyskują ten sam wynik ss + t + u + v

Więc widzimy, że:

P (B) P (A | B) = P (A) P ( B | A)

Ładnie i symetrycznie, prawda?

Właściwie to musi być symetryczne, ponieważ możemy zamienić wiersze i kolumny i uzyskać ten sam lewy górny róg.

A także Bayes Fo rmula … po prostu podziel obie strony przez P (B):

P (A | B) = P (A) P (B | A) P (B)

Pamiętanie

Najpierw pomyśl „AB AB AB”, a następnie pamiętaj o zgrupowaniu go w taki sposób: „AB = A BA / B”

P (A | B) = P (A) P (B | A) P (B)

Alergia na kota?

Jednym ze słynnych zastosowań twierdzenia Bayesa są fałszywie dodatnie i fałszywie ujemne.

Dla tych mamy dwa możliwe przypadki „A”, takie jak Pass / Fail (lub Yes / No etc)

Przykład: Alergia czy Not?

Hunter mówi, że swędzi. Istnieje test na alergię na koty, ale ten test nie zawsze jest prawidłowy:

  • W przypadku osób, które naprawdę mają alergię, test mówi „Tak” w 80% przypadków
  • W przypadku osób, które nie mają alergii, test daje wynik „Tak” w 10% przypadków („fałszywie dodatni”)

Jeśli 1% populacji ma alergię , a test Huntera mówi „Tak”, jakie są szanse, że Hunter naprawdę ma alergię?

Chcemy poznać szansę wystąpienia alergii, gdy wynik testu mówi „Tak”, napisane P (Alergia | Tak)

Weźmy naszą formułę:

P (Alergia | Tak) = P (Alergia) P (Tak | Alergia) P (Tak)

O nie! Nie wiemy, jaka jest ogólna szansa, że test mówi „Tak” …

… ale możemy to obliczyć, dodając te z alergią i te bez alergii:

  • 1% ma alergię, a test mówi „Tak” na 80% z nich.
  • 99% nie ma alergii, a test mówi „Tak” na 10% je

Dodajmy to:

P (Tak) = 1% × 80% + 99% × 10% = 10,7%

Co oznacza, że około 10,7% populacji uzyska wynik „Tak”.

Więc teraz możemy uzupełnić naszą formułę:

P (Alergia | Tak) = 1% × 80% 10,7% = 7.48%

P (Alergia | Tak) = około 7%

To jest ten sam wynik, jaki uzyskaliśmy w przypadku wyników fałszywie dodatnich i fałszywie ujemnych.

W rzeczywistości może napisać specjalną wersję wzoru Bayesa tylko dla takich rzeczy:

P (A | B) = P (A) P (B | A) P (A) P (B | A) + P (nie A) P (B | nie A)

„A” z trzema (lub więcej) przypadkami

Właśnie widzieliśmy „A” z dwoma przypadkami (A i nie A), którym zadbaliśmy w dolnej linii.

Gdy „A” ma 3 lub więcej przypadków, uwzględniamy je wszystkie w dolnej linii:

P (A1 | B ) = P (A1) P (B | A1) P (A1) P (B | A1) + P (A2) P (B | A2) + P (A3) P (B | A3) + … itd.

Wróćmy teraz do wyszukiwarek.

Wyszukiwarki wykorzystują ten pomysł i bardzo go skalują (plus kilka innych sztuczek).

wyglądają, jakby potrafiły czytać w twoich myślach!

Może być również używany do filtrów poczty, usług rekomendacji muzycznych i nie tylko.

Dodaj komentarz

Twój adres email nie zostanie opublikowany. Pola, których wypełnienie jest wymagane, są oznaczone symbolem *