23 personer. I ett rum på bara 23 personer är det 50-50 chans att minst två personer har samma födelsedag. I ett rum på 75 är det 99,9% chans att minst två personer matchar.
Lägg ner miniräknare och högaffel, jag talar inte kätteri. Födelsedagsparadoxen är konstig, kontraintuitiv och helt sant. Det är bara en ”paradox” för att våra hjärnor inte kan hantera exponenternas sammansatta kraft. Vi förväntar oss att sannolikheterna är linjära och bara tar hänsyn till de scenarier vi är inblandade i (båda felaktiga antaganden, förresten).
Låt oss se varför paradoxen händer och hur den fungerar.
Problem 1: Exponenter är inte intuitiva
Vi har lärt oss själva matematik och statistik, men låt oss inte kidna oss själva: det är inte naturligt.
Här är ett exempel: Vad är chansen att få 10 huvuden i rad när man vänder mynt? Den otränade hjärnan kanske tror så här:
”Tja, att få ett huvud är en 50% chans. Att få två huvuden är dubbelt så svårt, så en 25% chans. Att få tio huvuden är förmodligen tio gånger svårare … så ungefär 50% / 10 eller en 5% chans. ”
Och där sitter vi, självsäkra som en bugg på en matta. Ingen tärning bubblar.
Men även efter träning fastnar vi igen. Med 5% ränta fördubblar vi våra pengar på 14 år, snarare än den ”förväntade” 20. Har du naturligtvis dragit slutsatsen om 72-talet när du lär dig mer om räntor? Förmodligen inte. Att förstå sammansatt exponentiell tillväxt med våra linjära hjärnor är svårt.
Problem 2: Människor är lite själviska
Ta en titt på nyheterna. Lägg märke till hur mycket av de negativa nyheterna är resultatet av att agera utan att tänka på andra. Jag är en optimist och har hopp för mänskligheten, men det är en separat diskussion :).
I ett rum på 23, tänker du på de 22 jämförelser där din födelsedag jämförs med någon annans? Förmodligen.
Tänker du på de 231 jämförelser där någon som inte är dig kontrolleras mot någon annan som inte är du? Inser du att det finns så många? Förmodligen inte.
Det faktum att vi försummar de tio gånger så många jämförelser som inte inkluderar oss hjälper oss att se varför ”paradoxen” kan hända.
Okej, bra, människor är hemska: Visa mig matematiken!
q fråga: Vilka är chansen att två personer delar en födelsedag i en grupp av 23?
Visst, vi kan lista paren och räkna alla sätt de kan matcha. Men det är svårt: det kan finnas 1, 2, 3 eller till och med 23 matcher!
Det är som att fråga ”Vad är chansen att få ett eller flera huvuden i 23 myntvändningar?” Det finns så många möjligheter: huvuden vid första kastet, eller det tredje, eller det sista, eller 1: a och 3: e, 2: a och 21: e, och så vidare.
Hur löser vi myntproblemet? Vänd den runt (Hämta det? Hämta det?). Snarare än att räkna alla sätt att få huvuden, hitta chansen att få alla svansar, vårt ”problemscenario”.
Om det finns 1% chans att få alla svansar (mer som .5 ^ 23 men jobbar med mig här), det finns en 99% chans att ha minst ett huvud. Jag vet inte om det är 1 huvud, eller 2 eller 15 eller 23: vi har huvuden, och det är det som betyder något. Om vi subtraherar chansen för ett problemscenario från 1 sitter vi kvar med sannolikheten för ett bra scenario.
Samma princip gäller för födelsedagar. Istället för att hitta alla sätt vi matchar, hitta chansen att alla är olika, ”problemscenariot”. Vi tar sedan motsatt sannolikhet och får chansen att en matchning. Det kan vara en matchning, eller 2 eller 20, men någon matchade, vilket är vad vi behöver hitta.
Förklaring: Räknar par (ungefärlig formel)
Med 23 personer har vi 253 par:
(Borsta på kombinationer och permutationer om du vill).
Chansen att två personer får olika födelsedagar är:
Det är vettigt, eller hur? När man jämför en persons födelsedag med en annan, i 364 av 365 scenarier, vann de inte matchen. .
Men att göra 253 jämförelser och ha dem alla olika är som att få huvuden 253 gånger i rad – du var tvungen att undvika ”svansar” varje gång. Låt oss få en ungefärlig lösning genom att låtsas födelsedagsjämförelser är som mynt. (Se bilaga A för exakt beräkning.)
Vi använder exponenter för att hitta sannolikheten:
Vår chans att få en enda missning är ganska hög (99,7260%), men när du tar chansen hundratals gånger minskar oddsen för att hålla den strimman. Snabbt.
Chansen att vi hittar en matchning är: 1 – 49,95% = 50,05%, eller drygt hälften! Om du vill hitta sannolikheten för en matchning för ett antal personer n är formeln:
Interaktivt exempel
Jag trodde inte att vi bara behövde 23 personer. Matematiken fungerar, men är den riktig?
Du satsar.Prova exemplet nedan: Välj ett antal objekt (365), ett antal personer (23) och kör några försök. Du ser den teoretiska matchningen och din faktiska matchning när du kör dina prov. Fortsätt, klicka på knappen (eller se hela sidan).
När du kör fler och fler försök (fortsätt klicka!) Borde den verkliga sannolikheten närma sig den teoretiska.
Exempel och takeaways
Här är några lektioner från födelsedagsparadoxen:
- $ \ sqrt {n} $ är ungefär det antal du behöver för att ha 50% chans att matcha med n objekt. $ \ sqrt {365} $ är ungefär 20. Detta spelar in i kryptografi för födelsedagsattacken.
- Även om det finns 2128 (1e38) GUID, har vi bara 264 (1e19) att använda innan 50% chans för kollision. Och 50% är riktigt, riktigt högt.
- Du behöver bara 13 personer som väljer bokstäver i alfabetet för att ha 95% chans att matcha. Prova det ovan (personer = 13, objekt = 26).
- Exponentiell tillväxt minskar snabbt chansen att välja unika föremål (aka det ökar chanserna för en matchning). Kom ihåg: exponenter är icke-intuitiva och människor är själviska!
Efter att ha funderat mycket på det klickar äntligen födelsedagsparadoxen med mig. Men jag tittar fortfarande på det interaktiva exemplet bara för att vara säker.
Bilaga A: Upprepad multiplikationsförklaring (Exakt formel)
Kom ihåg hur vi antog födelsedagar är oberoende? Det är de inte.
Om person A och Person B matchar, och Person B och C matchar, vet vi att A och C också måste matcha. Resultatet av att matcha A och C beror på deras resultat med B, så sannolikheten är inte oberoende. (Om de verkligen är oberoende skulle A och C ha 1/365 chans att matcha, men vi vet att det är en 100% garanterad matchning.)
När vi räknar par behandlade vi födelsedagsmatcher som myntvridningar, multiplicerade samma sannolikhet om och om igen. Detta antagande är inte helt sant men det är tillräckligt bra för ett litet antal personer (23) jämfört med urvalsstorleken (365). Det är osannolikt att flera personer matchar och förstärker självständigheten, så det är en bra approximation.
Det är osannolikt, men det kan hända. Låt oss ta reda på de verkliga chanserna för att varje person väljer ett annat nummer:
Multiplikationen ser ganska ful ut:
Men det finns en genväg som vi kan ta. När x är nära 0, en grov första ordning Taylor-uppskattning för $ e ^ x $ är:
så
Med vår praktiska genväg kan vi skriva om den stora ekvationen till:
Att lägga till 1 till 22 är (22 * 23) / 2 så vi får:
Phew. Denna approximation är väldigt nära, koppla in dina egna siffror nedan:
Bra nog för regeringens arbete, som de säger. Om du förenklar formeln lite och byter i n mot 23 får du:
och
Bilaga B: Allmän födelsedagsformel
Låt oss generalisera formeln för att plocka n personer från T totalt antal objekt (istället för 365) :
Om vi väljer en sannolikhet (som 50% chans för en matchning) och löser för n:
Voila! Om du tar $ \ sqrt {T} $ artiklar (17% mer om du vill vara kräsen) har du ungefär 50-50 chans att få en match. Om du ansluter andra nummer kan du lösa andra sannolikheter:
Kom ihåg att m är den önskade chansen för en matchning ( det är lätt att bli förvirrad, jag gjorde det själv). Om du vill ha 90% chans att matcha födelsedagar, anslut m = 90% och T = 365 till ekvationen och se att du behöver 41 personer.
Wikipedia har ännu mer detaljer för att tillfredsställa din inre nörd. Gå vidare och njut.
Andra inlägg i den här serien
- En kort introduktion till sannolikhet & Statistik
- En intuitiv (och kort) förklaring av Bayes ”teorem
- Förstå Bayes teorem med förhållanden
- Förstå Monty Hall-problemet
- Hur man analyserar data med hjälp av Genomsnitt
- Förstå födelsedagsparadoxen