CMD + K
CMD + K
Diskrete fordelinger
Bernoulli, binomisk, geometrisk og negativ binomisk for forsøk med suksess eller fiasko. Poisson for hendelser i tid eller rom, hypergeometrisk for trekning uten tilbakelegging, og multinomial for flere kategorier.
- 01Identifisere hvilken diskret fordeling som passer en gitt situasjon, og beregne sannsynligheter med riktig PMF
- 02Regne ut forventning og varians for binomisk og Poisson, og forklare hvorfor np og λ er bærende parametre
- 03Bruke Poisson-approksimasjonen til binomisk når n er stor og p liten, og vurdere når approksimasjonen er rimelig
- 04Skille mellom trekning med og uten tilbakelegging — binomisk versus hypergeometrisk — og avgjøre når valget spiller stor rolle
Når utfallet er et heltall
I forrige kapittel definerte vi stokastiske variabler generelt. Nå tar vi en konkret familie: variabler som teller noe. Antall defekter på en kretsplate. Antall kunder som ringer en hotline på en time. Antall forsøk frem til en målmann redder en straffe. Når en variabel kan ta bare heltallsverdier — ofte 0, 1, 2, ... — har vi en diskret fordeling, og en håndfull modeller dekker det meste av det vi møter i praksis.
Læringsmålet er gjenkjenning. Når du ser en problemtekst, må du raskt avgjøre hvilken fordeling som passer, slik at du kan plugge inn riktig forventning og varians og være ferdig. Resten av kapittelet bygger den gjenkjennings-katalogen.
Bernoulli og binomial — bygge-blokker
bernoulli-forsøket er det enkleste eksperimentet vi kan tenke oss: ett forsøk, to mulige utfall, suksess med sannsynlighet p. Et myntkast med p = 0,5. En komponent som svikter med p = 0,02 i en gitt time. Selve fordelingen er ƒbernoulli-parameter, og det er ikke mye mer å si — verdien sitter helt i p.
Det interessante kommer når vi setter sammen mange uavhengige Bernoulli-forsøk. binomisk fordeling-fordelingen teller hvor mange suksesser vi får i n forsøk: ƒbinomisk sannsynlighet. Binomialkoeffisienten teller hvor mange måter vi kan plassere k suksesser blant n forsøk; p^k og (1−p)^(n−k) gir sannsynligheten for hver spesifikk sekvens.
Forventning og varians: ƒforventning og varians for binomisk. Det første er intuitivt — hvis hvert forsøk gir suksess med p, blir snittet over n forsøk np. Det andre er mindre opplagt, men husk Bernoulli-variansen p(1−p) som maksimeres ved p = 0,5; jo nærmere p er 0 eller 1, desto mindre spredning.
Eksempel: 10 % defekt-rate, 50 produkter testet. Forventet antall defekter er 50 · 0,1 = 5. P(X = 5) regnes med formelen — eller man slår opp i en kalkulator. Spørsmål om "minst" og "høyst" handler om summer av PMF-verdier.
Geometrisk og negativ binomisk — venter på suksess
Hva om vi snur spørsmålet? I stedet for å fiksere n og telle suksesser, kan vi fiksere antall suksesser og spørre hvor mange forsøk det tar. geometrisk fordeling-fordelingen er enklest: hvor mange forsøk til første suksess. PMF er ƒgeometrisk pmf — sannsynligheten for (k − 1) feil etterfulgt av én suksess.
Forventningen er ƒgeometrisk forventning: hvis hvert forsøk gir suksess med sannsynlighet 0,1, må vi i snitt prøve ti ganger. Resultatet er overraskende kraftig som intuisjon — for å treffe noe sjeldent, må du gjøre mange forsøk. Det er hele logikken bak ting som lottospill, mutation hits, og brute force-angrep.
negativ binomisk-fordelingen generaliserer: hvor mange forsøk frem til r suksesser? Denne brukes sjeldnere direkte, men er nyttig i overdispergerte teller-data der binomial eller Poisson ikke fanger spredningen.
Hypergeometrisk — uten tilbakelegging
Binomial-modellen forutsetter at hvert forsøk er uavhengig — at p er konstant. I praksis brytes det når vi trekker uten tilbakelegging fra en endelig populasjon. Du trekker fem kort fra en kortstokk: sannsynligheten for at det andre er en ess avhenger av om det første var det.
hypergeometrisk dekker dette: ƒhypergeometrisk sannsynlighet. Vi har N totalt, K suksesser i populasjonen, trekker n kort, og spør om sannsynligheten for k suksesser. Telleren teller måtene å trekke k suksesser fra K og (n − k) feil fra (N − K); nevneren er totalt antall mulige trekninger.
Praktisk skille: hvis populasjonen er stor i forhold til utvalget (n ≪ N, tommelfingerregel n < 0,05N), gir binomial nesten samme svar. Forskjellen blir bare merkbar når vi tar en betydelig brøkdel av populasjonen. Spørreundersøkelser på 1000 personer i en populasjon på 5 millioner kan trygt modelleres binomialt. En kvalitetstest av 50 produkter fra en batch på 200 må behandles hypergeometrisk.
Poisson — sjeldne hendelser i tid eller rom
poisson-fordelingen modellerer antall hendelser i et tids- eller romintervall når hendelsene inntreffer uavhengig og med konstant rate. Antall e-poster i en time, antall meteornedslag på en sone, antall mutasjoner i et DNA-segment. PMF: ƒpoisson fordeling hvor λ er forventet antall hendelser i intervallet.
Den karakteristiske egenskapen er ƒforventning og varians for poisson — forventning og varians er like. Det er en diagnostisk testbar prediksjon. Hvis empiriske data har varians mye større enn snittet, har vi overdispersion — Poisson-modellen passer ikke, og en negativ binomial eller en miks-modell er bedre.
For små λ er fordelingen sterkt skjev mot høyre og toppet ved 0 eller 1. For store λ blir den nesten normalfordelt — sentralgrenseteoremet gjelder for Poisson akkurat som for andre fordelinger.
Poisson som tilnærming til binomial
poisson-approksimasjon er et viktig regneknep. Når n er stor og p liten, slik at np = λ er en moderat verdi, gjelder Binomial(n, p) ≈ Poisson(np). Hvorfor: i grensen n → ∞, p → 0 med np fast, går binomial-PMF mot Poisson-PMF analytisk. Tommelfingerregel: n ≥ 20 og p ≤ 0,05, eller n ≥ 100 og np ≤ 10.
Eksempel: en komponent svikter med p = 0,001 per drift-time, og en fabrikk har 5000 komponenter. Forventet antall svikt per time er λ = 5. Binomial(5000, 0,001) gir samme svar som Poisson(5) — men Poisson er enklere å regne med, særlig når du vil ha P(X ≥ k) for store k.
Denne approksimasjonen er hovedgrunnen til at Poisson-fordelingen er så viktig: den er enklere algebraisk, og dekker et stort spekter av faktisk binomiale situasjoner der p er liten.
Multinomial — flere kategorier
Når hvert forsøk har mer enn to mulige utfall — for eksempel terning med seks sider, eller stemmegivning med fem partier — generaliseres binomial til multinomial. PMF er ƒmultinomial sannsynlighet, hvor pi er sannsynligheten for kategori i og ki er antall som havnet der, med Σ pi = 1 og Σ ki = n.
Marginalfordelingene er hver enkelt binomial. Hver kategori i, sett alene, er Binomial(n, p_i). Kovarians mellom kategorier er negativ — hvis én kategori får mange treff, må noen andre få færre. Resultatet utnyttes i hypotesetesting (chi-kvadrat goodness-of-fit) og i klassifiseringsmodeller.
Hva sitter etter dette kapittelet?
De diskrete fordelingene er bygget på et lite sett av byggesteiner. Bernoulli for ett forsøk; binomial for sum av Bernoulli; hypergeometrisk for samme men uten tilbakelegging; geometrisk og negativ binomial for ventetid på suksess; Poisson for sjeldne hendelser i tid eller rom; multinomial for flere enn to utfall.
Det viktige er gjenkjenningen: les en problemtekst og koble den til riktig modell. Spør deg selv: er det fiksert antall forsøk (binomial) eller fiksert antall suksesser (negativ binomial)? Trekker vi med eller uten tilbakelegging? Er det hendelser i et intervall (Poisson)? Når du har koblet, blir formelen — og dermed forventning, varians og spesifikke sannsynligheter — rett frem.
Mønstrene gjentar seg i den kontinuerlige verdenen, som er kapittel 5.