Forståelse af fødselsdagsparadoxet

23 personer. I et rum på kun 23 personer er der en 50-50 chance for, at mindst to personer har samme fødselsdag. I et rum på 75 er der en 99,9% chance for, at mindst to personer matcher.

Sæt lommeregneren og gaffel ned, jeg taler ikke kætteri. Fødselsdagsparadoxet er mærkeligt, kontraintuitivt og helt sandt. Det er kun et “paradoks”, fordi vores hjerner ikke kan håndtere eksponenternes sammensatte styrke. Vi forventer, at sandsynlighederne er lineære og kun overvejer de scenarier, vi er involveret i (begge forkerte antagelser, forresten).

Lad os se, hvorfor paradokset sker, og hvordan det fungerer.

Problem 1: Eksponenter er ikke intuitive

Vi har lært os selv matematik og statistik, men lad os ikke unge os selv: det er ikke naturligt.

Her er et eksempel: Hvad er chancen for at få 10 hoveder i træk, når man vender mønter? Den utrænede hjerne tror måske sådan her:

“Nå, at få et hoved er en 50% chance. At få to hoveder er dobbelt så hårdt, så en 25% chance. At få ti hoveder er sandsynligvis 10 gange sværere … så omkring 50% / 10 eller en 5% chance. ”

Og der sidder vi, selvtilfredse som en bug på et tæppe. Ingen terningbobler.

Men selv efter træning bliver vi fanget igen. Med 5% rente fordobler vi vores penge på 14 år snarere end den “forventede” 20. Har du naturligvis udledt reglen på 72, når du lærer om renter? Sandsynligvis ikke. Det er svært at forstå sammensat eksponentiel vækst med vores lineære hjerner.

Problem 2: Mennesker er en smule egoistiske

Se på nyhederne. Bemærk, hvor meget af de negative nyheder er resultatet af at handle uden at overveje andre. Jeg er en optimist og har håb for menneskeheden, men det er en separat diskussion :).

I et rum på 23 tænker du på de 22 sammenligninger, hvor din fødselsdag sammenlignes med en andens? sandsynligvis.

Tænker du på de 231 sammenligninger, hvor en, der ikke er dig, kontrolleres mod en anden, der ikke er dig? Er du klar over, at der er så mange? Sandsynligvis ikke.

Det faktum, at vi forsømmer de 10 gange så mange sammenligninger, der ikke inkluderer os, hjælper os med at se, hvorfor “paradokset” kan ske.

Ok, fint, mennesker er forfærdelige: Vis mig matematikken!

q uestion: Hvad er chancerne for, at to personer deler en fødselsdag i en gruppe på 23?

Sikker på, vi kunne liste parene og tælle alle de måder, de kunne matche på. Men det er svært: der kan være 1, 2, 3 eller endda 23 kampe!

Det er som at spørge “Hvad er chancen for at få et eller flere hoveder i 23 møntflip?” Der er så mange muligheder: hoveder på det første kast, eller det tredje eller det sidste eller det 1. og 3., 2. og 21. osv.

Hvordan løser vi møntproblemet? Vend det rundt (Få det? Få det?). I stedet for at tælle enhver måde at få hoveder på, skal du finde chancen for at få alle haler, vores “problemscenarie”.

Hvis der er 1% chance for at få alle haler (mere som .5 ^ 23 men arbejd med mig her), der er en 99% chance for at have mindst et hoved. Jeg ved ikke, om det er 1 hoved eller 2 eller 15 eller 23: vi har hoveder, og det er det der betyder noget. Hvis vi trækker chancen for et problemscenarie fra 1, er vi tilbage med sandsynligheden for et godt scenario.

Det samme princip gælder for fødselsdage. I stedet for at finde alle de måder, vi matcher, skal du finde chancen for, at alle er forskellige, “problemscenariet”. Vi tager derefter den modsatte sandsynlighed og får chancen for en kamp. Det kan være 1 kamp, eller 2 eller 20, men nogen matchede, hvilket er hvad vi skal finde.

Forklaring: Counting Pairs (Approximate Formula)

Med 23 personer har vi 253 par:

(Børst på kombinationer og permutationer, hvis du vil).

Chancen for, at 2 personer har forskellige fødselsdage er:

Det giver mening, ikke? Når man sammenligner en persons fødselsdag med en anden, i 364 ud af 365 scenarier vinder de ikke match. .

Men at lave 253 sammenligninger og have dem alle anderledes er som at få hoveder 253 gange i træk – du var nødt til at undvige “haler” hver gang. Lad os få en omtrentlig løsning ved at foregive fødselsdagssammenligninger er som møntklips. (Se tillæg A for den nøjagtige beregning.)

Vi bruger eksponenter til at finde sandsynligheden:

Vores chance for at få en enkelt miss er ret høj (99,7260%), men når du tager chancen hundreder af gange, falder oddsene for at holde den stribe op. Hurtigt.

Chancen for, at vi finder et match, er: 1 – 49,95% = 50,05% eller lidt over halvdelen! Hvis du vil finde sandsynligheden for et match for et vilkårligt antal personer, er formlen:

Interaktivt eksempel

Jeg troede ikke, at vi kun havde brug for 23 personer. Matematikken ordner sig, men er den rigtig?

Du satser.Prøv eksemplet nedenfor: Vælg et antal ting (365), et antal personer (23) og kør et par forsøg. Du ser det teoretiske match og dit faktiske match, når du kører dine prøveperioder. Gå videre, klik på knappen (eller se hele siden).

Når du kører flere og flere forsøg (fortsæt med at klikke!), Skal den faktiske sandsynlighed nærme sig den teoretiske.

Eksempler og takeaways

Her er et par lektioner fra fødselsdagsparadoxet:

  • $ \ sqrt {n} $ er omtrent det antal, du har brug for for at have 50% chance for en match med n ting. $ \ sqrt {365} $ er omkring 20. Dette spiller ind i kryptografi til fødselsdagsangrebet.
  • Selvom der er 2128 (1e38) GUIDer, har vi kun 264 (1e19) at bruge op før en 50% chance for kollision. Og 50% er virkelig, virkelig højt.
  • Du behøver kun 13 personer, der vælger bogstaver i alfabetet for at have 95% chance for at matche. Prøv det ovenfor (personer = 13, genstande = 26).
  • Eksponentiel vækst mindsker hurtigt chancen for at vælge unikke genstande (det øger chancerne for en kamp). Husk: eksponenter er ikke-intuitive, og mennesker er egoistiske!

Efter at have tænkt meget over det, klikker fødselsdagsparadoxet mig endelig. Men jeg tjekker stadig det interaktive eksempel for bare at være sikker.

Appendiks A: Forklaring til gentagen multiplikation (nøjagtig formel)

Husk hvordan vi antog fødselsdage er uafhængige? Det er de ikke.

Hvis person A og person B matcher, og person B og C matcher, ved vi, at A og C også skal matche. Resultatet af at matche A og C afhænger af deres resultater med B, så sandsynlighederne er ikke uafhængige. (Hvis de virkelig er uafhængige, vil A og C have en 1/365 chance for at matche, men vi ved, at det er et 100% garanteret match.)

Når vi tæller par, behandlede vi fødselsdagskampe som møntklip, ganget den samme sandsynlighed igen og igen. Denne antagelse er ikke strengt sandt, men den er god nok til et lille antal mennesker (23) sammenlignet med stikprøvestørrelsen (365). Det er usandsynligt, at flere mennesker matcher og skruer op for uafhængigheden, så det er en god tilnærmelse.

Det er usandsynligt, men det kan ske. Lad os finde ud af de reelle chancer for, at hver person vælger et andet nummer:

Multiplikationen ser ret grim ud:

Men der er en genvej, vi kan tage. Når x er tæt på 0, er en grov førsteordens Taylor-tilnærmelse til $ e ^ x $ er:

Ved hjælp af vores praktiske genvej kan vi omskrive den store ligning til:

Tilføjelse af 1 til 22 er (22 * 23) / 2, så vi får:

Phew. Denne tilnærmelse er meget tæt, tilslut dine egne numre nedenfor:

God nok til regeringens arbejde, som de siger. Hvis du forenkler formlen lidt og bytter i n til 23, får du:

og

Appendiks B: Den generelle fødselsdagsformel

Lad os generalisere formlen til at vælge n personer fra T-samlede poster (i stedet for 365) :

Hvis vi vælger en sandsynlighed (som 50% chance for et match) og løser for n:

Voila! Hvis du tager $ \ sqrt {T} $ varer (17% mere, hvis du vil være kræsen), har du cirka 50-50 chance for at få en kamp. Hvis du tilslutter andre numre, kan du løse andre sandsynligheder:

Husk at m er den ønskede chance for en kamp ( det er let at blive forvirret, jeg gjorde det selv). Hvis du vil have 90% chance for at matche fødselsdage, skal du tilslutte m = 90% og T = 365 til ligningen og se, at du har brug for 41 personer.

Wikipedia har endnu flere detaljer for at tilfredsstille din indre nørd. Gå videre og nyd.

Andre indlæg i denne serie

  1. En kort introduktion til sandsynlighed & Statistik
  2. En intuitiv (og kort) forklaring på Bayes “sætning
  3. Forståelse af Bayes sætning med forhold
  4. Forståelse af Monty Hall-problemet
  5. Sådan analyseres data ved hjælp af Gennemsnit
  6. Forståelse af fødselsdagsparadoxet

Skriv et svar

Din e-mailadresse vil ikke blive publiceret. Krævede felter er markeret med *