CMD + K
CMD + K
Sannsynlighet
Aksiomer og grunnleggende regneregler, betinget sannsynlighet, total sannsynlighet og Bayes' teorem. Kombinatorikk som verktøy for å telle utfall: permutasjoner, kombinasjoner og hypergeometriske modeller.
- 01Sette opp utfallsrom og hendelser for et stokastisk eksperiment og bruke Kolmogorov-aksiomene til å regne ut sannsynligheter
- 02Bruke definisjonen av betinget sannsynlighet, multiplikasjonsregelen og uavhengighet til å regne på sammensatte hendelser
- 03Bruke loven om total sannsynlighet og Bayes' teorem til å snu en betinging, særlig i diagnostisk testing
- 04Telle utfall med permutasjoner, kombinasjoner, multinomial- og hypergeometriske formler i konkrete oppgaver
Utfallsrom og hendelser
Et stokastisk eksperiment er enhver prosess hvor utfallet ikke er forutsigbart på forhånd: et myntkast, en arving fra en pasientpopulasjon, en ventetid på neste telefon. utfallsrom Ω er mengden av alle mulige utfall. For et myntkast er Ω = {kron, mynt}. For antall e-poster i en uke er Ω = {0, 1, 2, …}. For ventetid er Ω = [0, ∞).
En hendelse er en delmengde av Ω — et sett av utfall som tilfredsstiller et bestemt kriterium. «Minst tre e-poster» er en hendelse, og det samme er «ventetid under fem sekunder». Hendelser kan kombineres med vanlig mengdelære: A ∪ B (én eller begge), A ∩ B (begge), A^c (ikke A).
To hendelser er disjunkte hendelser hvis A ∩ B = ∅ — de kan ikke inntreffe samtidig. Å trekke et hjerter og å trekke et spar fra én kortstokk er disjunkt. Å trekke et hjerter og å trekke et bilde-kort er det ikke; hjerterknekt er begge deler.
For diskrete utfallsrom kan vi simpelthen lage hendelser av alle mulige delmengder. For kontinuerlige rom som [0, ∞) er det matematisk problematisk å gjøre det samme — vi trenger en kontrollert kolleksjon av tillatte hendelser. Det kalles en sigma-algebra, og den er lukket under komplement og tellbare unioner. I praksis er Borel-mengdene (alt vi får ved å starte med åpne intervaller og kombinere) tilstrekkelig, og du trenger sjelden å bekymre deg om detaljene.
Kolmogorov-aksiomene
Andrei Kolmogorov ga oss på 1930-tallet det enkleste tenkelige fundamentet for sannsynlighet. kolmogorov-aksiomer sier at en sannsynlighet er en funksjon P som tilordner hver hendelse et tall, og som tilfredsstiller tre regler. Sannsynligheten er ikke-negativ: P(A) ≥ 0 for alle A. Hele utfallsrommet har sannsynlighet 1: ƒnormalisering. Og for parvis disjunkte hendelser A1, A2, … gjelder σ-additivitet: P(A1 ∪ A2 ∪ …) = ΣP(A_i).
Fra disse tre lovene følger alle andre regneregler. ƒkomplement kommer av at A og A^c er disjunkte og dekker hele Ω. ƒadditivitet følger av å splitte A ∪ B i tre disjunkte deler. Vi behøver ikke vite hva «sannsynlighet» fundamentalt er for å regne med den — aksiomene er nok.
Betinget sannsynlighet
Når vi vet at noe har skjedd, oppdaterer vi sannsynlighetene for det vi ikke vet enda. Det er nettopp betinget sannsynlighet. ƒbetinget sannsynlighet er definisjonen: vi krymper utfallsrommet til B og normaliserer slik at det nye «hele» har sannsynlighet 1.
Et lite eksempel. Vi trekker et tilfeldig kort. P(spar) = 13/52 = 1/4. Hvis vi får vite at kortet er svart, oppdaterer vi: P(spar ∣ svart) = (13/52)/(26/52) = 1/2. Informasjonen om svart utelukker hjerter og ruter, og endrer dermed sannsynligheten for spar.
Betinget sannsynlighet leder direkte til multiplikasjonsregelen P(A ∩ B) = P(A ∣ B) P(B). Den er nyttig når det er enklere å resonnere stegvis: først B, så A gitt B.
uavhengighet formaliserer ideen om at to hendelser ikke påvirker hverandre. A og B er uavhengige hvis ƒuavhengighet. En ekvivalent definisjon er at P(A ∣ B) = P(A) — det å vite at B inntraff endrer ikke sannsynligheten for A. Uavhengighet er en antakelse vi gjør om modellen, ikke noe vi observerer direkte. To etterfølgende myntkast antas uavhengige, men i en serie kort uten tilbakelegging er det ene avhengig av det andre.
Total sannsynlighet og Bayes
Anta at vi kan splitte utfallsrommet i parvis disjunkte hendelser A1, …, An som dekker alt — en partisjon. Da kan vi regne ut sannsynligheten for hvilken som helst hendelse B ved ƒtotal sannsynlighet. Vi bryter B opp i biter avhengig av hvilken A_i som inntreffer, regner ut hver bit, og summerer.
Et eksempel: et selskap har tre kundeservice-team som tar henholdsvis 50 %, 30 % og 20 % av samtalene, med henholdsvis 90 %, 80 % og 70 % løsningsrate. Totalsannsynligheten for å få løst saken er 0,5·0,9 + 0,3·0,8 + 0,2·0,7 = 0,83. Vi har en partisjon (hvilket team som tok samtalen) og en betinget sannsynlighet for hver del.
bayes' teorem snur betingingen. Når vi vet B og lurer på hvilket Aj som faktisk ligger bak, gir {{f:bayes-formel}} oss svaret. Telleren er sannsynligheten for at både Aj og B inntreffer, og nevneren er total sannsynlighet for B.
Bayes-formelen er rammeverket for å oppdatere tro i lys av evidens. P(Aj) er prior — vår tro om årsaken før vi observerer noe. P(Aj ∣ B) er posterior — den oppdaterte troen etter B. Hvis prior er 50/50 og likelihood-forholdet er 9:1, blir posterior 0,9:0,1.
Bayes i praksis: diagnostiske tester
En klassisk anvendelse er sensitivitet og spesifisitet. La D være «pasienten har sykdommen» og T+ være «testen er positiv». Sensitiviteten er P(T+ ∣ D) — andelen av syke som testen plukker opp. Spesifisiteten er P(T− ∣ D^c) — andelen av friske som riktig får negativ test. En god test har høye verdier for begge.
Det vi som regel vil vite er den andre veien: gitt en positiv test, hva er sannsynligheten for at man faktisk er syk? Det er P(D ∣ T+), og Bayes gir oss den. Konkret eksempel: sykdom-prevalens 1 %, sensitivitet 99 %, spesifisitet 95 %. Da er P(D ∣ T+) = (0,99 · 0,01) / (0,99 · 0,01 + 0,05 · 0,99) ≈ 0,167. Selv med svært høy sensitivitet er det 83 % sjanse for at en positiv test er falsk når sykdommen er sjelden. Det er Bayes-regnskapet som forklarer hvorfor masseskanning av lavprevalens-populasjoner gir så mange falske alarmer — og det er en av de mest praktiske innsiktene i hele faget.
Kombinatorikk
Mange grunnleggende sannsynlighetsoppgaver koker ned til å telle: hvor mange like sannsynlige utfall, hvor mange av dem oppfyller hendelsen. To verktøy gjør det meste.
En permutasjon er en ordning av alle objektene i en mengde. Antallet permutasjoner av n elementer er n!. En variasjon er et ordnet utvalg av k av n: ƒantall permutasjoner. Telleren teller alle ordninger; nevneren fjerner de vi ikke valgte.
En kombinasjon er et uordnet utvalg av k av n: ƒantall kombinasjoner. Vi deler bort k! fordi rekkefølgen ikke teller. Forholdet mellom variasjoner og kombinasjoner er at en variasjon = en kombinasjon · k! måter å ordne den valgte gruppen.
Anvendelse: hvor mange unike femkorts-pokerhender finnes i en kortstokk på 52? Det er C(52, 5) = 2 598 960. Hvor mange av disse er royal flush? Bare 4 (én per sort). Sannsynligheten er 4/2 598 960 ≈ 1,5 · 10⁻⁶ — den slags tall som kombinatorikken regner ut for oss.
Multinomial og hypergeometrisk
Når vi fordeler n objekter på flere enn to kategorier, generaliserer vi til multinomial koeffisient: ƒmultinomial koeffisient. Antall måter å dele 10 jakker mellom 3 personer som skal ha henholdsvis 5, 3 og 2: 10!/(5!·3!·2!) = 2520. Den dukker opp igjen som ledd i multinomialfordelingen i neste kapittel.
hypergeometrisk modell brukes når vi trekker uten tilbakelegging fra en endelig populasjon. Av N objekter er K «suksesser» og N − K «fiaskoer». Vi trekker et utvalg på n og lurer på hvor sannsynlig det er å få akkurat k suksesser: ƒhypergeometrisk sannsynlighet. Telleren teller måtene å velge k suksesser og n − k fiaskoer; nevneren teller alle mulige utvalg på n. Lottotrekning er hypergeometrisk: hvor sannsynlig er det å få 5 rette av 7 trekninger i en pott på 34? Formelen svarer direkte.
For store N nærmer hypergeometrisk seg binomisk, fordi forskjellen mellom trekning med og uten tilbakelegging blir liten når populasjonen er stor. Det er overgangen til de diskrete fordelingene i kapittel 4.
Hva sitter etter dette kapittelet?
Tre poenger er kjernen. For det første: sannsynligheter er en mengde-funksjon som tilfredsstiller tre enkle aksiomer; alle regneregler følger av dem. For det andre: betinget sannsynlighet og Bayes er ikke abstrakt — de er den naturlige måten å oppdatere tro på når vi får ny informasjon, og resultatene kan være kontraintuitive (lavprevalens-tester). For det tredje: kombinatorikk er telleverktøyet vi trenger for likesannsynlighets-modeller, og multinomial og hypergeometrisk er hyppige modeller for henholdsvis fordeling og trekning uten tilbakelegging. Disse byggeklossene er fundamentet for alt vi gjør fra neste kapittel og utover.