CMD + K

StatistikkStokastiske variabler, forventning og variansBegreper & formler19
7 min lesing

Stokastiske variabler, forventning og varians

Diskrete og kontinuerlige variabler, sannsynlighetsfunksjon, tetthet og kumulativ fordeling. Forventning, varians, standardavvik, kovarians og høyere øyeblikk som karakteriserer fordelingene.

Læringsmål
  • 01Skille mellom diskrete og kontinuerlige variabler og bruke sannsynlighetsfunksjon, tetthet og kumulativ fordeling riktig
  • 02Regne ut forventning og varians for en gitt diskret eller kontinuerlig variabel ved direkte summering eller integrasjon
  • 03Bruke linearitet av forventning og varians-egenskaper til å regne på aX + b og på summer av variabler
  • 04Tolke kovarians og standardavvik og forklare hvorfor uavhengighet impliserer kovarians lik null

Fra hendelser til tall

I forrige kapittel snakket vi om hendelser i et utfallsrom. Veldig ofte er det vi egentlig vil måle ikke selve hendelsen, men et tall knyttet til den: antall feilkomponenter, ventetid, høyde på en pasient. En stokastisk variabel X er en funksjon fra utfallsrommet til tallene. Hver gang eksperimentet utføres, faller et utfall ω i Ω, og X(ω) er det tilhørende tallet.

Vi skiller mellom to typer. En diskret variabel kan kun ta tellingbart mange verdier — typisk 0, 1, 2, …. Eksempel: antall e-poster i en time, antall defekter på en kretsplate. En kontinuerlig variabel kan ta alle verdier i et intervall — typisk høyde, ventetid, måleresultater. Skillet styrer hvilke verktøy vi bruker: summer for diskrete, integraler for kontinuerlige.

I praksis er all måling diskret (vi har endelig nøyaktighet), men det er ofte mye lettere å modellere kontinuerlig. Vi bruker det modelleringsalternativet som gjør regning enklest og som passer datamengden vi har.

Sannsynlighetsfunksjon og tetthet

For en diskret variabel beskriver sannsynlighetsfunksjon sannsynligheten for hver enkelt verdi: P(X = x). Den må være ikke-negativ, og ƒsum til én må holde, ellers er det ikke en gyldig sannsynlighet. Vi finner P(X ∈ A) ved å summere P(X = x) over alle x i A.

Eksempel: et rettferdig terningkast har P(X = k) = 1/6 for k = 1, 2, …, 6. Summen er 1, som forventet. Antall kron i to myntkast har P(0) = 1/4, P(1) = 1/2, P(2) = 1/4.

0700.25P(X = x)1/6Rettferdig terning: alle utfall har sannsynlighet 1/6.
FIGSannsynlighetsfunksjon for et terningkast

For en kontinuerlig variabel har punkter sannsynlighet 0 — det er bare meningsfullt å snakke om sannsynligheten for å ligge i et intervall. tetthetsfunksjon er funksjonen fX(x) slik at P(a ≤ X ≤ b) = ∫a^b f_X(x) dx. Tettheten er ikke selv en sannsynlighet — den kan godt ha verdier større enn 1. Det er arealet under kurven som er sannsynlighet, og ƒintegrasjon til én er det globale kravet.

En tetthet er en estimator av sannsynlighetsmasse per lengdeenhet. Tenk på en kontinuerlig fordeling som en uendelig fin tellebjelke: tettheten forteller deg hvor mye masse som ligger lokalt rundt x, og du integrerer for å totalsumme over et område.

Kumulativ fordelingsfunksjon

kumulativ fordelingsfunksjon FX(x) = P(X ≤ x) er definert for alle variabler — diskrete så vel som kontinuerlige. Den er ikke-avtagende, går mot 0 når x → −∞, og mot 1 når x → ∞. For en diskret variabel er FX en stegfunksjon med hopp på P(X = xi). For en kontinuerlig variabel er FX glatt og ƒderivasjon av cdf: tettheten er ganske enkelt den deriverte av kumulativen.

CDF er ofte det praktiske verktøyet. Vi finner P(a < X ≤ b) = FX(b) − FX(a). Vi finner kvantiler ved å løse FX(x) = p. Og vi sjekker om en empirisk fordeling matcher en teoretisk modell ved å sammenligne ECDF (fra kapittel 1) med FX.

-3301.05f(x), F(x)0,5μStandardnormal: tetthet (blå) og CDF (rød).
FIGTetthet og CDF for standard normalfordeling

Figuren over viser begge for en standard normalfordeling. Tettheten er den klokkeformede kurven; CDF er den S-formede. Toppen på tettheten ligger der CDF stiger raskest — det er nettopp utsagnet at f er den deriverte av F.

Forventning — gjennomsnitt i utvalgsteoretisk forstand

forventning E[X] er den teoretiske analogen til utvalgsgjennomsnittet fra kapittel 1. For en diskret variabel er det ƒforventning (diskret) — hver mulige verdi vektes med sin sannsynlighet. For en kontinuerlig variabel er det ƒforventning (kontinuerlig). Begge svarer på spørsmålet: hvis vi gjentar eksperimentet uendelig mange ganger og snitter resultatene, hva nærmer snittet seg?

For terningen er E[X] = (1+2+…+6)/6 = 3,5. Det er en verdi terningen aldri tar — forventning trenger ikke å være et mulig utfall. Det er en vektet middelverdi, ikke en typisk observasjon.

En vakker egenskap er ƒlinearitet av forventning. Forventning er en lineær operator: E[aX + b] = a E[X] + b, og E[X + Y] = E[X] + E[Y] uansett om X og Y er uavhengige eller ikke. Det siste poenget er overraskende kraftig. Vi vet at forventning summerer fint selv om variansene gjør det ikke. Resultatet brukes overalt — i å regne ut forventet antall suksesser i n forsøk (en sum av n indikatorer), i lineær regresjon, i analyser av algoritmer.

Forventning kan også regnes ut for funksjoner: E[g(X)] = Σ g(x) P(X = x) eller ∫ g(x) f_X(x) dx. Du bytter altså ikke ut argumentet på en enkel måte (E[g(X)] ≠ g(E[X]) generelt — Jensens ulikhet styrer relasjonen for konvekse g), men formelen for å regne ut er rett frem.

Varians og standardavvik

Forventning sier hvor sentrum er, men forteller ingenting om spredning. varians fyller det rommet. Definisjonen er ƒvarians, og den ekvivalente formen E[X²] − (E[X])² er ofte enklere å regne med — først regn ut E[X], så E[X²], så trekk fra kvadratet av det første.

For terningen: E[X²] = (1+4+9+16+25+36)/6 = 91/6 ≈ 15,17. E[X] = 3,5, så (E[X])² = 12,25. Var(X) = 15,17 − 12,25 = 2,92. standardavvik er kvadratroten: ƒstandardavvik ≈ 1,71. Som vi diskuterte i kapittel 1, gjør standardavviket spredningen direkte tolkbar i samme enhet som variabelen.

Varians har egne regneregler. Var(aX + b) = a² Var(X) — addisjon av en konstant flytter forventningen, men ikke spredningen. Skalering med a forstørrer både gjennomsnitt og spredning, og siden varians er kvadratisk, kommer det inn med a². For sum av uavhengige variabler gjelder Var(X + Y) = Var(X) + Var(Y), men det forutsetter uavhengighet — vi kommer tilbake til det.

Standardiserte variabler Z = (X − μ)/σ har E[Z] = 0 og Var(Z) = 1. Det er den operasjonen som ligger bak Z-tabeller for normalfordelingen og bak alle typer normaliseringer du møter senere.

Kovarians og uavhengighet

Når vi har to variabler, kan vi spørre om de henger sammen. kovarians er målet: ƒkovarians. Tolkningen er enkel — positiv kovarians betyr at de typisk avviker fra sine respektive forventninger i samme retning; negativ at de avviker i motsatt retning; null at de svinger uavhengig av hverandre i gjennomsnitt.

To viktige egenskaper. For det første: hvis X og Y er uavhengige, så er Cov(X, Y) = 0. Resultatet følger av at E[XY] = E[X] E[Y] når de er uavhengige. For det andre — og dette er det enkelt å feile på — null kovarians impliserer ikke uavhengighet. To variabler kan være sterkt avhengige (Y = X² for symmetrisk X for eksempel) og likevel ha null kovarians, fordi kovarians bare fanger lineær samvariasjon.

For sum av to variabler gjelder Var(X + Y) = Var(X) + Var(Y) + 2 Cov(X, Y). Det er kovariansleddet som gjør at varianser ikke summerer fritt — det krever uavhengighet (eller minst ukorrelert) for at det leddet skal forsvinne.

Korrelasjon ρ = Cov(X, Y)/(σX σY) er en skalert versjon. Den ligger alltid mellom −1 og 1, og er hva vi rapporterer som «korrelasjonskoeffisient» i regresjonsanalyse senere.

Skjevhet og kurtose

Forventning og varians beskriver fordelingen til andre orden, men ikke fullt ut. skjevhet og kurtose er to høyere øyeblikk som fyller på.

Skjevhet (skewness) måler asymmetri. Definert som E[((X − μ)/σ)³], er den positiv når fordelingen har lang hale til høyre (typisk inntektsfordelinger), negativ når halen er til venstre, og null for symmetriske fordelinger som normalen. Kurtose måler tunghaledhet — hvor mye sannsynlighetsmasse som ligger i halene relativt til en normalfordeling. Normalen har kurtose 3, og eksess-kurtose (kurtose − 3) brukes ofte i stedet. Tunge haler (positiv eksess) er typisk for finansielle avkastninger og betyr at ekstreme hendelser er mer sannsynlige enn normalmodellen tilsier.

Begge brukes diagnostisk for å sjekke om en normalmodell passer. Et histogram med klar skjevhet eller særs tunge haler bør få oss til å lete etter en bedre fordeling — kanskje en lognormal, en gamma, eller en t-fordeling med få frihetsgrader.

Hva sitter etter dette kapittelet?

Tre poenger er bærende. For det første: en stokastisk variabel er en funksjon fra utfallsrom til tall, og PMF, PDF og CDF er tre likeverdige måter å beskrive fordelingen på — vi velger den som passer modellen. For det andre: forventning er lineær uten antagelser, mens varians og høyere øyeblikk har mer subtile regler — særlig kovariansleddet i Var(X + Y). For det tredje: standardavvik og kovarians er de praktiske spredningsmålene, men kovarians fanger bare lineær samvariasjon, så uavhengighet er en sterkere egenskap enn å ha kovarians lik null. Disse mønstrene gjelder for alle de navngitte fordelingene vi møter fra og med kapittel 4.