CMD + K

StatistikkMultivariate fordelinger og transformasjonerBegreper & formler19
6 min lesing

Multivariate fordelinger og transformasjoner

Felles, marginal og betinget fordeling, kovarians og uavhengighet for flere variabler. Lineære og generelle transformasjoner, Jacobian for to variabler, og konvolusjon for fordelingen av summer.

Læringsmål
  • 01Regne ut marginal- og betinget-fordelinger fra en gitt felles tetthet ved integrasjon eller summering
  • 02Bruke kovarians og korrelasjon til å beskrive lineær samvariasjon, og forklare hvorfor uavhengighet impliserer null kovarians men ikke omvendt
  • 03Transformere én variabel via Y = g(X) ved Jacobian-formelen, og generalisere til to variabler med Jacobian-determinanten
  • 04Finne fordelingen til summen av uavhengige variabler ved konvolusjon eller via momentgenererende funksjoner

Flere variabler samtidig

Til nå har vi behandlet stokastiske variabler én av gangen. Mange interessante spørsmål involverer flere. Høyde og vekt i en populasjon. Inntekt og utdanning. Temperaturen i to nabolaboratorier. Vi trenger maskineri for å beskrive hvordan variabler samvarierer.

Den fulle beskrivelsen er den felles fordeling-fordelingen f_{X,Y}(x, y) — en bivariat tetthet (eller PMF for diskrete tilfeller) som forteller sannsynlighetsmasse for hver kombinasjon (x, y). Fra felles fordelingen kan vi alltid hente ut alt: marginal-fordelingene, betinget-fordelingene, kovarians, og fordelingen til funksjoner av variablene.

Marginal — én variabel av gangen

Hvis vi har felles fordeling f_{X,Y} men bare vil ha fordelingen til X, integrerer vi bort Y: ƒmarginal fra felles tetthet. For diskrete variabler er det en sum i stedet for et integral. Resultatet er den marginal fordeling-fordelingen til X — det vi ville observert hvis vi hadde glemt verdien til Y.

Eksempel: temperatur (X) og fuktighet (Y) i en logg fra en målestasjon. f_{X,Y} beskriver felles oppførsel. Hvis vi bare vil ha fordelingen av temperatur uten å bry oss om fuktighet, integrerer vi bort y. Marginalen mister informasjon — vi ser ikke lenger hvilke (x, y)-kombinasjoner som er vanlige eller sjeldne, bare hvilke x.

Betinget — gitt en spesifikk verdi

Det motsatte spørsmålet er: hvis jeg vet Y = y, hva er da fordelingen til X? Det er betinget fordeling-fordelingen: ƒbetinget tetthet. Tenk på det som å ta et tverrsnitt av felles fordeling ved verdien y, og normalisere det slik at integralet er 1.

Bayes regel og betinget forventning bygger på dette. E[X | Y = y] er den betingede forventningen — den "beste gjetninga" på X gitt at vi har observert Y. Det er kjernen i regresjon: vi modellerer E[Y | X = x] som en funksjon av x.

En subtil og viktig egenskap: f{X | Y}(x | y) og f{Y | X}(y | x) er ikke det samme. Forveksling er hva som gjør Bayes-resonnement utfordrende — å gå fra "sannsynlighet for symptom gitt sykdom" til "sannsynlighet for sykdom gitt symptom" krever Bayes regel, ikke direkte oppslag.

Uavhengighet — en sterk struktur

To variabler er uavhengighet hvis felles fordelingen faktoriserer: f{X,Y}(x, y) = fX(x) · f_Y(y) for alle (x, y). Det er en sterk egenskap: verdien av Y forteller oss ingenting om X.

Uavhengighet impliserer ƒforventning av produkt (uavhengige), og som konsekvens at kovarians Cov(X, Y) = 0. Men det omvendte gjelder ikke — null kovarians impliserer ikke uavhengighet. Klassiske moteksempel: X ∼ Uniform(−1, 1) og Y = X². De er deterministisk relaterte (Y er bestemt av X), så absolutt ikke uavhengige, men Cov(X, Y) = E[X³] − E[X]E[X²] = 0 − 0 = 0 fordi X er symmetrisk om 0.

Kovarians og korrelasjon

ƒkovarians er det praktiske målet på lineær samvariasjon. Den ekvivalente formen E[XY] − E[X]E[Y] er ofte enklere å regne ut: regn de tre forventningene separat og kombiner.

Kovariansen har enhet (samme som produktet av enhetene til X og Y), så absolutt-verdien sier lite uten kontekst. ƒkorrelasjon er den skalerte versjonen — korrelasjonskoeffisienten, alltid mellom −1 og 1. ρ = 1 betyr at Y er en strengt voksende lineær funksjon av X; ρ = −1 strengt avtakende lineær; ρ = 0 ingen lineær sammenheng.

ρ ≈ +0,9Positiv kovarians: punktene klynger seg rundt linja y = x. Negativ kovarians gir klynge langs y = −x; null kovarians en mer sirkulær sky.
FIGPositiv korrelasjon i et 2D-utvalg

For varians av sum gjelder ƒvarians av sum. Kovariansleddet er det som hindrer varians fra å summere fritt. For uavhengige variabler forsvinner det og vi får Var(X + Y) = Var(X) + Var(Y) — den enkle regelen vi brukte uten å tenke i kapittel 4 da vi snakket om Binomial som sum av Bernoulli.

Transformasjon av én variabel

La oss bytte tema og snakke om funksjon av variabel: hvis X har kjent fordeling og Y = g(X), hva er fordelingen til Y? Den generelle formelen er ƒtransformasjon av kontinuerlig variabel. Vi går via Y → x = g⁻¹(y), bytter tetthet, og multipliserer med absoluttverdien av den deriverte av den inverse — Jacobian i én dimensjon.

Eksempel: X ∼ N(0, 1) og Y = X² . Her er g ikke en-en-til-en (både x og −x gir samme y), så formelen må modifiseres til å summere bidrag fra begge grener. Resultatet er chi-kvadrat med 1 frihetsgrad — som vi nevnte i kapittel 5 uten å vise utregningen.

Et viktig tilfelle er lineær transformasjon: Y = aX + b. Da blir Y bare en skalert og forskjøvet versjon av X, og fordelingen "beholder formen". For en normal X ∼ N(μ, σ²) er aX + b igjen normalfordelt: N(aμ + b, a²σ²). Standardiseringen Z = (X − μ)/σ er nettopp en lineær transformasjon valgt slik at resultatet har forventning 0 og varians 1.

Transformasjon av flere variabler — Jacobian

For to variabler (X, Y) → (U, V) der U = g₁(X, Y), V = g₂(X, Y), bruker vi ƒjacobian for to variabler. jacobian-matrisen J er partial-deriverte av (x, y) m.h.t. (u, v), og determinant-faktoren justerer for hvordan transformasjonen strekker eller komprimerer areal lokalt.

Praktisk bruk: hvis vi har felles tetthet i (x, y) og vil regne om til polar-koordinater (r, θ), bruker vi |det J| = r. Det er hvorfor du ser r dukke opp som tilleggsfaktor i integraler over kartesiske til polare overganger.

Maskineriet generaliserer til n dimensjoner: fU(u) = fX(x(u)) |det J|, der J er den n × n partielle deriverte. Brukt i statistisk simulering for å transformere uniforme tilfeldige tall til ønsket fordeling, i Bayesianske oppdateringer, og i alt som involverer endring av variabler i sannsynlighetsregning.

Konvolusjon — fordelingen til en sum

Et særtilfelle som dukker opp ofte: hvis X og Y er uavhengige med kjente tettheter, hva er fordelingen til S = X + Y? Svaret er en konvolusjon: ƒkonvolusjon.

Geometrisk er det en glidende integrasjon — for hver z summerer vi over alle (x, y)-par der x + y = z. For diskrete variabler tilsvarende: P(S = s) = Σx P(X = x) P(Y = s − x). To uavhengige Poisson(λ₁) og Poisson(λ₂) gir Poisson(λ₁ + λ₂); to uavhengige normaler N(μi, σi²) gir N(μ1 + μ2, σ1² + σ_2²); to uavhengige uniform(0, 1) gir den triangulære fordelingen på [0, 2].

-0.202.2001.20zf(z)Konvolusjon av to U(0,1) gir triangulær tetthet på [0,2] — massen klumpes mot midten.
FIGKonvolusjon av to U(0,1) gir triangulær tetthet

Konvolusjon er en regne-tung operasjon for vilkårlige fordelinger. Triks: momentgenererende funksjon. MGF-en til en sum av uavhengige variabler er produktet av MGF-ene: M{X+Y}(t) = MX(t) · M_Y(t). Vi multipliserer altså MGF-er i stedet for å konvolvere tettheter, og hvis produktet matcher en kjent MGF, vet vi at summen følger den tilhørende fordelingen. Dette er hvordan man enklest viser at sum av uavhengige normaler er normal, sum av uavhengige Poissoner er Poisson, og så videre.

Hva sitter etter dette kapittelet?

Tre poenger bærer det meste. For det første: felles fordeling er den fulle informasjonen — marginal, betinget, og funksjoner av (X, Y) hentes ut derfra ved integrasjon eller transformasjon. For det andre: uavhengighet er en sterk strukturell egenskap, sterkere enn null kovarians; kovarians fanger bare lineær samvariasjon. For det tredje: transformasjoner styres av Jacobian — én-dimensjonalt en derivert, fler-dimensjonalt en determinant — og konvolusjon (eller MGF-produkt) finner fordelingen til en sum.

Med dette har vi maskineriet for å gå fra én variabel til flere, og fra rå variabler til funksjoner av dem. Neste kapittel bruker dette til å bygge utvalgsfordelinger — fordelingen til statistikker som gjennomsnitt og varians, som hele inferensapparatet hviler på.