CMD + K

StatistikkKontinuerlige fordelingerBegreper & formler18
5 min lesing

Kontinuerlige fordelinger

Uniform, eksponential og gamma for ventetider. Normalfordeling og standardisering, lognormal, chi-kvadrat og beta-fordelingen.

Læringsmål
  • 01Skille mellom uniform, eksponential, gamma og normalfordeling og velge riktig modell for ventetider og målefeil
  • 02Bruke standardisering for å regne ut sannsynligheter for normalfordelte variabler ved hjelp av Z-tabeller eller numerisk verktøy
  • 03Forklare den minnefri egenskapen til eksponentialfordelingen og hvorfor den både er nyttig og av og til urealistisk
  • 04Identifisere chi-kvadrat- og beta-fordelinger som funksjoner av andre kontinuerlige variabler, og knytte dem til hypotesetesting og bayesianske modeller

Når x kan ta alle verdier

Diskrete fordelinger dekker det vi teller. Kontinuerlige fordelinger dekker det vi måler — høyder, ventetider, temperaturer, måleavvik. En kontinuerlig variabel kan ta enhver verdi i et intervall, og som vi så i kapittel 3 har punktverdier sannsynlighet 0. Vi tenker i tetthet: f(x) er sannsynlighetsmasse per lengdeenhet, og P(a ≤ X ≤ b) er arealet under f mellom a og b.

Dette kapittelet er en katalog over de viktigste kontinuerlige fordelingene. Hver har en tetthetsfunksjon, et par parametre som styrer plassering og spredning, og en kontekst der den er den naturlige modellen.

Uniform — flat fordeling

uniform fordeling-fordelingen på [a, b] har konstant tetthet: ƒuniform tetthet. Den modellerer situasjoner der vi ikke har grunn til å favorisere én verdi over en annen innenfor et intervall — runde-feil, generering av tilfeldige tall, en ventetid i et system uten egentlig dynamikk.

Forventning er midtpunktet: E[X] = (a + b)/2. Varians: Var(X) = (b − a)²/12. Det er det enkleste å regne ut analytisk, og uniform er ofte byggestein for andre fordelinger via invers transformasjon — gitt U ∼ Uniform(0, 1) kan vi konstruere en variabel med vilkårlig fordeling F ved å sette X = F⁻¹(U).

Eksponential — ventetid i en Poisson-prosess

Hvis hendelser inntreffer uavhengig med rate λ (en Poisson-prosess fra kapittel 4), så er ventetiden mellom to påfølgende hendelser eksponentialfordeling-fordelt. PMF for diskrete tellinger blir til en kontinuerlig tetthet: ƒeksponential tetthet.

Forventningen er ƒforventning og varians for eksponential — variansen er kvadratet av forventningen, så standardavviket er lik forventningen. Det betyr at eksponentialfordelinger har en betydelig høyrehale; lang ventetid er ikke uvanlig selv om gjennomsnittet er kort.

0502.10xf(x)Større rate λ gir raskere avtak og kortere forventet ventetid (E[X] = 1/λ).
FIGEksponentialtetthet for tre rater

Den særlig viktige egenskapen er minnefri egenskap: ƒminnefri egenskap. Hvis et lyspæreliv er eksponentialfordelt, så er sannsynligheten for at en pære som allerede har levd 1000 timer skal vare 500 timer til den samme som for en helt ny pære. Dette er en sterk antagelse, og gjelder typisk ikke for fysiske systemer som slites — der trenger man Weibull eller gamma med riktig form. Men for hendelser der "alderen" på systemet ikke endrer rate (kunde-anrop, beta-henfall), passer eksponential.

Gamma — sum av ventetider

Hvis hver enkelt ventetid er eksponentialfordelt med rate λ, så er ventetiden frem til den α-te hendelsen gammafordeling-fordelt. Tettheten: ƒgamma tetthet, der α er form og β = 1/λ er skala.

Spesialtilfeller dukker opp overalt. α = 1 gir eksponential. α = k/2 og β = 2 gir chi-kvadrat med k frihetsgrader. Gamma er fleksibel — den dekker høyrevskjeve fordelinger med spillerom fra eksponential-aktig (lav α) til nesten-symmetrisk (høy α). E[X] = αβ; Var(X) = αβ².

Normalfordelingen — den dominerende modellen

normalfordeling-fordelingen er den hyppigst brukte kontinuerlige fordelingen i statistikk. Tetthet: ƒnormal tetthet. Den er symmetrisk om μ, har bøyepunkter ved μ ± σ, og halefri på et målbart nivå utover μ ± 3σ.

Den dominerer fordi sentralgrenseteoremet (CLT) — som vi går grundig gjennom i et senere kapittel — sier at summer og snitt av mange uavhengige variabler er tilnærmet normalfordelte, uansett hvilken fordeling de individuelle variablene har. Måleresultater er sjelden eksakt normalfordelte, men ofte tilstrekkelig nær til at modellen fungerer.

-3.503.5000.45xf(x)μ−σμ+σ−2σ+2σStandard normalfordeling. 68 % av massen ligger innenfor ±σ, 95 % innenfor ±2σ, 99,7 % innenfor ±3σ.
FIGStandard normal: 68-95-99-regelen

68-95-99-regelen er et nyttig huskemerke: rundt 68 % av massen ligger innenfor μ ± σ, 95 % innenfor μ ± 2σ, og 99,7 % innenfor μ ± 3σ. En enkelt observasjon mer enn 3σ fra snittet er sjelden men ikke umulig; mange sigma er signal om at modellen kanskje ikke passer.

Standardisering — flytte til Z-form

standardisering er operasjonen ƒstandardisering, som sender en hvilken som helst normal X ∼ N(μ, σ²) til standard normal Z ∼ N(0, 1). Det er kjernen i hvorfor vi bare trenger én tabell for normalfordelingen: alt regnes om til Z og slås opp.

Z-tabeller gir P(Z ≤ z) for z ≥ 0; symmetrien P(Z ≤ −z) = 1 − P(Z ≤ z) håndterer negative argumenter. Praktisk regning: P(X ≤ 80) for X ∼ N(70, 25) blir P(Z ≤ (80 − 70)/5) = P(Z ≤ 2) ≈ 0,9772. Med en kalkulator eller scipy.stats.norm slipper du tabellene, men logikken er den samme — alle normalfordelinger er bare skalert og forskjøvet versjon av Z.

Lognormal og chi-kvadrat — funksjoner av normaler

lognormal-fordelingen er fordelingen til Y = exp(X) når X er normalfordelt. Den brukes der variabelen er strengt positiv og har høyrehale: lønninger, aksjepriser, partikkelstørrelser. Tettheten er ikke symmetrisk i Y, men i log Y.

chi-kvadrat-fordelingen er fordelingen til ƒchi-kvadrat med k frihetsgrader — summen av kvadrerte uavhengige standard normaler. Den er sentral i hypotesetester: chi-kvadrat goodness-of-fit, test av varianser, og likelihood-ratio-tester. Tettheten er en spesialgamma med form k/2 og skala 2; den er høyreskjev for små k og blir nesten normalfordelt for store k.

Beta — fordelingen på [0, 1]

beta-fordeling-fordelingen er definert på intervallet [0, 1] og styres av to formparametre α og β. Den er ekstremt fleksibel: kan være flat (α = β = 1, som gir uniform), klokkeformet (α, β > 1), U-formet (α, β < 1), eller skjev (α ≠ β).

Beta brukes som modell for sannsynligheter eller proporsjoner — andelen av en populasjon med en gitt egenskap, sannsynlighet for suksess i en gjentakelig prosess. I bayesiansk statistikk er beta den konjugerte prioren for binomial-likelihooden, noe som gjør oppdateringen av en sannsynlighet basert på data analytisk gjennomførbar.

skalering — hvordan parametre styrer fordelingen

Hver fordeling har en eller to parametre som styrer plassering, skala og form. For normal: μ flytter fordelingen, σ skalerer den. For eksponential: λ skalerer (større λ → fordelingen "trekkes sammen" mot 0). For gamma: β skalerer, α endrer formen. For beta: α og β samspiller — produktet styrer skarpheten, forholdet styrer plasseringen.

Et generelt prinsipp: hvis Y = aX + b, så er forventningen aμX + b og variansen a²σX². Det betyr at lineære transformasjoner alltid kan håndteres på μ-og-σ-nivå. For ikke-lineære transformasjoner trenger vi maskineriet fra neste kapittel.

Hva sitter etter dette kapittelet?

Det viktige er ikke å huske alle tetthetsformler — det er å gjenkjenne hvilken fordeling som passer en situasjon. Eksponential for ventetid i en uavhengig prosess. Gamma for sum av eksponentialventetider eller for fleksible høyreskjeve modeller. Normal som default for målefeil og som CLT-konsekvens. Lognormal for strengt positive variabler med høyrehale. Chi-kvadrat for kvadratsummer av standardiserte normaler. Beta for proporsjoner.

Standardisering forblir det viktigste regne-trikset — det reduserer enhver normal til Z. Den minnefri egenskapen er en både kraftig og avgrenset egenskap for eksponential. Og parametrene styrer alt: plassering, skala, form. I neste kapittel ser vi hva som skjer når vi setter flere variabler sammen og transformerer dem.