Sannsynlighet

Aksiomer og grunnleggende regneregler, betinget sannsynlighet, total sannsynlighet og Bayes' teorem. Kombinatorikk som verktøy for å telle utfall: permutasjoner, kombinasjoner og hypergeometriske modeller.

Læringsmål

01Sette opp utfallsrom og hendelser for et stokastisk eksperiment og bruke Kolmogorov-aksiomene til å regne ut sannsynligheter
02Bruke definisjonen av betinget sannsynlighet, multiplikasjonsregelen og uavhengighet til å regne på sammensatte hendelser
03Bruke loven om total sannsynlighet og Bayes' teorem til å snu en betinging, særlig i diagnostisk testing
04Telle utfall med permutasjoner, kombinasjoner, multinomial- og hypergeometriske formler i konkrete oppgaver

Utfallsrom og hendelser

Et stokastisk eksperiment er enhver prosess hvor utfallet ikke er forutsigbart på forhånd: et myntkast, en arving fra en pasientpopulasjon, en ventetid på neste telefon. utfallsrom Ω er mengden av alle mulige utfall. For et myntkast er Ω = {kron, mynt}. For antall e-poster i en uke er Ω = {0, 1, 2, …}. For ventetid er Ω = [0, ∞).

En hendelse er en delmengde av Ω — et sett av utfall som tilfredsstiller et bestemt kriterium. «Minst tre e-poster» er en hendelse, og det samme er «ventetid under fem sekunder». Hendelser kan kombineres med vanlig mengdelære: A ∪ B (én eller begge), A ∩ B (begge), A^c (ikke A).

To hendelser er disjunkte hendelser hvis A ∩ B = ∅ — de kan ikke inntreffe samtidig. Å trekke et hjerter og å trekke et spar fra én kortstokk er disjunkt. Å trekke et hjerter og å trekke et bilde-kort er det ikke; hjerterknekt er begge deler.

For diskrete utfallsrom kan vi simpelthen lage hendelser av alle mulige delmengder. For kontinuerlige rom som [0, ∞) er det matematisk problematisk å gjøre det samme — vi trenger en kontrollert kolleksjon av tillatte hendelser. Det kalles en sigma-algebra, og den er lukket under komplement og tellbare unioner. I praksis er Borel-mengdene (alt vi får ved å starte med åpne intervaller og kombinere) tilstrekkelig, og du trenger sjelden å bekymre deg om detaljene.

Kolmogorov-aksiomene

Andrei Kolmogorov ga oss på 1930-tallet det enkleste tenkelige fundamentet for sannsynlighet. kolmogorov-aksiomer sier at en sannsynlighet er en funksjon P som tilordner hver hendelse et tall, og som tilfredsstiller tre regler. Sannsynligheten er ikke-negativ: P(A) ≥ 0 for alle A. Hele utfallsrommet har sannsynlighet 1: ƒnormalisering. Og for parvis disjunkte hendelser A1, A2, … gjelder σ-additivitet: P(A1 ∪ A2 ∪ …) = ΣP(A_i).

Fra disse tre lovene følger alle andre regneregler. ƒkomplement kommer av at A og A^c er disjunkte og dekker hele Ω. ƒadditivitet følger av å splitte A ∪ B i tre disjunkte deler. Vi behøver ikke vite hva «sannsynlighet» fundamentalt er for å regne med den — aksiomene er nok.

FIGTo hendelser i et utfallsrom

Betinget sannsynlighet

Når vi vet at noe har skjedd, oppdaterer vi sannsynlighetene for det vi ikke vet enda. Det er nettopp betinget sannsynlighet. ƒbetinget sannsynlighet er definisjonen: vi krymper utfallsrommet til B og normaliserer slik at det nye «hele» har sannsynlighet 1.

Et lite eksempel. Vi trekker et tilfeldig kort. P(spar) = 13/52 = 1/4. Hvis vi får vite at kortet er svart, oppdaterer vi: P(spar ∣ svart) = (13/52)/(26/52) = 1/2. Informasjonen om svart utelukker hjerter og ruter, og endrer dermed sannsynligheten for spar.

Betinget sannsynlighet leder direkte til multiplikasjonsregelen P(A ∩ B) = P(A ∣ B) P(B). Den er nyttig når det er enklere å resonnere stegvis: først B, så A gitt B.

uavhengighet formaliserer ideen om at to hendelser ikke påvirker hverandre. A og B er uavhengige hvis ƒuavhengighet. En ekvivalent definisjon er at P(A ∣ B) = P(A) — det å vite at B inntraff endrer ikke sannsynligheten for A. Uavhengighet er en antakelse vi gjør om modellen, ikke noe vi observerer direkte. To etterfølgende myntkast antas uavhengige, men i en serie kort uten tilbakelegging er det ene avhengig av det andre.

Total sannsynlighet og Bayes

Anta at vi kan splitte utfallsrommet i parvis disjunkte hendelser A1, …, An som dekker alt — en partisjon. Da kan vi regne ut sannsynligheten for hvilken som helst hendelse B ved ƒtotal sannsynlighet. Vi bryter B opp i biter avhengig av hvilken A_i som inntreffer, regner ut hver bit, og summerer.

Et eksempel: et selskap har tre kundeservice-team som tar henholdsvis 50 %, 30 % og 20 % av samtalene, med henholdsvis 90 %, 80 % og 70 % løsningsrate. Totalsannsynligheten for å få løst saken er 0,5·0,9 + 0,3·0,8 + 0,2·0,7 = 0,83. Vi har en partisjon (hvilket team som tok samtalen) og en betinget sannsynlighet for hver del.

bayes' teorem snur betingingen. Når vi vet B og lurer på hvilket Aj som faktisk ligger bak, gir {{f:bayes-formel}} oss svaret. Telleren er sannsynligheten for at både Aj og B inntreffer, og nevneren er total sannsynlighet for B.

Bayes-formelen er rammeverket for å oppdatere tro i lys av evidens. P(Aj) er prior — vår tro om årsaken før vi observerer noe. P(Aj ∣ B) er posterior — den oppdaterte troen etter B. Hvis prior er 50/50 og likelihood-forholdet er 9:1, blir posterior 0,9:0,1.

Bayes i praksis: diagnostiske tester

En klassisk anvendelse er sensitivitet og spesifisitet. La D være «pasienten har sykdommen» og T+ være «testen er positiv». Sensitiviteten er P(T+ ∣ D) — andelen av syke som testen plukker opp. Spesifisiteten er P(T− ∣ D^c) — andelen av friske som riktig får negativ test. En god test har høye verdier for begge.

Det vi som regel vil vite er den andre veien: gitt en positiv test, hva er sannsynligheten for at man faktisk er syk? Det er P(D ∣ T+), og Bayes gir oss den. Konkret eksempel: sykdom-prevalens 1 %, sensitivitet 99 %, spesifisitet 95 %. Da er P(D ∣ T+) = (0,99 · 0,01) / (0,99 · 0,01 + 0,05 · 0,99) ≈ 0,167. Selv med svært høy sensitivitet er det 83 % sjanse for at en positiv test er falsk når sykdommen er sjelden. Det er Bayes-regnskapet som forklarer hvorfor masseskanning av lavprevalens-populasjoner gir så mange falske alarmer — og det er en av de mest praktiske innsiktene i hele faget.

Kombinatorikk

Mange grunnleggende sannsynlighetsoppgaver koker ned til å telle: hvor mange like sannsynlige utfall, hvor mange av dem oppfyller hendelsen. To verktøy gjør det meste.

En permutasjon er en ordning av alle objektene i en mengde. Antallet permutasjoner av n elementer er n!. En variasjon er et ordnet utvalg av k av n: ƒantall permutasjoner. Telleren teller alle ordninger; nevneren fjerner de vi ikke valgte.

En kombinasjon er et uordnet utvalg av k av n: ƒantall kombinasjoner. Vi deler bort k! fordi rekkefølgen ikke teller. Forholdet mellom variasjoner og kombinasjoner er at en variasjon = en kombinasjon · k! måter å ordne den valgte gruppen.

Anvendelse: hvor mange unike femkorts-pokerhender finnes i en kortstokk på 52? Det er C(52, 5) = 2 598 960. Hvor mange av disse er royal flush? Bare 4 (én per sort). Sannsynligheten er 4/2 598 960 ≈ 1,5 · 10⁻⁶ — den slags tall som kombinatorikken regner ut for oss.

Multinomial og hypergeometrisk

Når vi fordeler n objekter på flere enn to kategorier, generaliserer vi til multinomial koeffisient: ƒmultinomial koeffisient. Antall måter å dele 10 jakker mellom 3 personer som skal ha henholdsvis 5, 3 og 2: 10!/(5!·3!·2!) = 2520. Den dukker opp igjen som ledd i multinomialfordelingen i neste kapittel.

hypergeometrisk modell brukes når vi trekker uten tilbakelegging fra en endelig populasjon. Av N objekter er K «suksesser» og N − K «fiaskoer». Vi trekker et utvalg på n og lurer på hvor sannsynlig det er å få akkurat k suksesser: ƒhypergeometrisk sannsynlighet. Telleren teller måtene å velge k suksesser og n − k fiaskoer; nevneren teller alle mulige utvalg på n. Lottotrekning er hypergeometrisk: hvor sannsynlig er det å få 5 rette av 7 trekninger i en pott på 34? Formelen svarer direkte.

For store N nærmer hypergeometrisk seg binomisk, fordi forskjellen mellom trekning med og uten tilbakelegging blir liten når populasjonen er stor. Det er overgangen til de diskrete fordelingene i kapittel 4.

Hva sitter etter dette kapittelet?

Tre poenger er kjernen. For det første: sannsynligheter er en mengde-funksjon som tilfredsstiller tre enkle aksiomer; alle regneregler følger av dem. For det andre: betinget sannsynlighet og Bayes er ikke abstrakt — de er den naturlige måten å oppdatere tro på når vi får ny informasjon, og resultatene kan være kontraintuitive (lavprevalens-tester). For det tredje: kombinatorikk er telleverktøyet vi trenger for likesannsynlighets-modeller, og multinomial og hypergeometrisk er hyppige modeller for henholdsvis fordeling og trekning uten tilbakelegging. Disse byggeklossene er fundamentet for alt vi gjør fra neste kapittel og utover.

Test deg selv

Tar du quizen på kapittel 2?

12 spørsmål satt sammen til dette kapittelet — den beste måten å sjekke at det sitter.

Start quiz

Begreper & formler

15 begreper · 11 formler i kapittelet

Forrige

Utforskende dataanalyse

Kap 01

Neste

Stokastiske variabler, forventning og varians

Kap 03