Utforskende dataanalyse

Beskrivende statistikk: histogram, boksplott, kvantiler og empirisk kumulativ fordeling. Lær å se mønster, sentral- og spredningsmål, og å oppdage uteliggere før vi modellerer.

Læringsmål

01Velge passende grafisk fremstilling (stolpediagram, histogram, boksplott) ut fra om dataene er kategoriske eller kontinuerlige
02Regne ut utvalgsgjennomsnitt, median, empirisk varians og standardavvik for et lite datasett
03Tolke et boksplott i form av kvartiler, IQR og potensielle uteliggere
04Skissere en empirisk kumulativ fordeling og lese av kvantiler grafisk

Hvorfor utforske data først?

Før vi modellerer eller tester noe som helst, bør vi se på dataene. histogram, boksplott og enkle tabeller avslører raskt om datasettet er normalt-symmetrisk, skjevt, har to topper, eller om noen observasjoner skiller seg ut. Utforskende dataanalyse er fasen der vi blir kjent med materialet: hvilke verdier er typiske, hvor sprer de seg, og finnes det noe rart vi må håndtere før vi går videre.

Det praktiske eksempelet vi drar gjennom kapittelet er ventetiden på et sett av 200 telefonsamtaler til en kundeservice, målt i sekunder. Vi vil vite typisk ventetid, hvor mye den varierer, og om det finnes ekstreme samtaler som kanskje skyldes nedetid i systemet. Akkurat det samme spørsmålet dukker opp i alt fra medisinske målinger til kvalitetskontroll, og verktøyene i kapittelet svarer på det.

Stolpediagram og histogram

For kategoriske data — telefon, e-post, chat — bruker vi et stolpediagram. Hver kategori får sin egen stolpe med høyde lik frekvensen. Kategoriene har ingen naturlig orden, så det er ingenting i veien for å sortere dem alfabetisk eller etter høyde.

For kontinuerlige data deler vi tallinja inn i intervaller og teller observasjoner i hvert intervall. Det er et histogram. To valg styrer hvor mye vi ser: bredden på intervallene og hvor vi legger inndelingen. For få intervaller jevner ut interessante detaljer; for mange gir en hakkete graf hvor støy dominerer. En grei tommelfingerregel er omtrent sqrt(n) intervaller, justert opp eller ned etter hvordan kurven ser ut. Histogrammet er en estimator av den underliggende tetthetsfunksjonen, og vi kommer tilbake til hvordan vi tegner glatte versjoner senere.

Et histogram av telefonsamtalene viser raskt at fordelingen er skjev mot høyre: de fleste samtaler kommer raskt gjennom, men noen få drar opp en lang hale. Det er nyttig informasjon før vi velger statistisk modell.

Sentralmål: gjennomsnitt og median

Det vanligste sentralmålet er ƒutvalgsgjennomsnitt. Det er enkelt å regne ut og lett å resonnere om — særlig under normalforutsetninger. Men gjennomsnittet er sårbart for ekstreme verdier. En enkelt samtale som varer ti minutter kan dra opp snittet betydelig hvis de andre er korte.

Medianen tar midten av et sortert datasett, og er robust mot slike uteliggere. For et oddetall observasjoner er den entydig: ƒmedian for oddetall. For et partall gjennomsnitter vi de to midterste. På telefon-eksempelet er gjennomsnittet typisk høyere enn medianen — et tegn på at fordelingen er skjev mot høyre, og at gjennomsnittet ikke representerer en typisk samtale så godt som medianen.

Tommelfingerregelen er: bruk gjennomsnittet når dataene er rimelig symmetriske, og bruk medianen ellers. Rapporter gjerne begge — forskjellen mellom dem er i seg selv informativ.

Spredningsmål: varians, standardavvik, IQR

Sentralmål alene er ikke nok. To datasett kan ha samme gjennomsnitt og være helt forskjellige hvis det ene har mye større spredning. Standard mål på spredning er ƒempirisk varians, som måler gjennomsnittlig kvadrert avstand fra gjennomsnittet. Den merkelige nevneren n − 1 er Bessel-korreksjonen: den justerer for at vi har estimert gjennomsnittet fra de samme dataene, og uten den ville variansen systematisk underestimere populasjonsvariansen.

Standardavviket ƒempirisk standardavvik er kvadratroten av variansen og har den fordelen at det får samme enhet som dataene. Et standardavvik på 3,2 sekunder er direkte tolkbart; en varians på 10,2 «sekunder kvadrert» er det ikke.

For skjeve fordelinger eller datasett med uteliggere er standardavviket misvisende — én ekstrem observasjon kan dominere summen. interkvartil bredde er det robuste alternativet: ƒinterkvartil bredde (iqr). Den beskriver bredden på den midterste halvparten av observasjonene og påvirkes minimalt av halene.

Kvantiler

kvantil er verdien som splitter et sortert datasett i bestemte prosentandeler. 0,5-kvantilen er medianen. 0,25- og 0,75-kvantilene er de to kvartilene Q1 og Q3. Persentiler er det samme begrepet uttrykt i prosent — 90-persentilen er 0,90-kvantilen.

Kvantiler er ekstremt nyttige i praksis. En SLA på «90 % av samtalene besvares innen 30 sekunder» er en utsagn om 90-persentilen. Et boligprisindeks-mål basert på medianen er mer robust mot et fåtall ekstreme luksusboliger enn et basert på gjennomsnittet. Kvantiler beskriver hvor i fordelingen ulike grenser ligger uten å anta noen bestemt form.

Boksplott — fem tall som forteller mye

Et boksplott (boxplot) er den kanoniske kvantil-baserte visualiseringen. Boksen strekker seg fra Q1 til Q3 og inneholder den midterste 50 prosenten av dataene. En strek i boksen markerer medianen. Whiskerne strekker seg ut til de mest ekstreme observasjonene innenfor 1,5·IQR fra kvartilene. Observasjoner utenfor whiskerne plottes som individuelle punkter og kalles uteligger.

FIGBoksplott på en tallinje

Boksplott er spesielt nyttige når vi vil sammenligne flere grupper. Tegnes boksplott for ventetider på fem forskjellige kundeservice-team ved siden av hverandre, ser vi umiddelbart hvilket team som har lavest typisk ventetid, hvilket som har størst variasjon, og hvilke som har flest uteliggere. Slike sammenligninger danner ofte grunnlaget for hypoteser vi skal teste formelt senere i kurset.

Empirisk kumulativ fordeling

Mens histogrammet er en estimator av tettheten, er den empirisk kumulativ fordeling en direkte estimator av den kumulative fordelingsfunksjonen F(x) = P(X ≤ x). Vi sorterer observasjonene, og for hver verdi x lar vi F_n(x) være andelen av observasjonene som er mindre enn eller lik x. Resultatet er en stegfunksjon som hopper med 1/n ved hver observasjon.

FIGEmpirisk kumulativ fordeling

ECDF har flere fordeler over histogrammet. Den er parameterfri — ingen valg av intervallbredde. Den konvergerer punktvis mot den sanne F(x) når n vokser (Glivenko–Cantelli-teoremet, som dukker opp senere i kurset). Og den gjør det enkelt å lese av kvantiler grafisk: for å finne medianen, finn x-verdien der F_n(x) krysser 0,5.

ECDF er også det visuelle utgangspunktet for godhetstilpasningstester — Kolmogorov–Smirnov-testen sammenligner den empiriske kurven med en hypotetisk teoretisk kurve, og målet er den største vertikale avstanden mellom de to.

Hva forteller utforskingen oss?

Når vi har gjort gjennomsnitt, median, standardavvik, IQR, boksplott og ECDF, har vi vanligvis et godt bilde av hvilken modell som passer dataene. Symmetrisk og klokkeformet histogram med gjennomsnitt ≈ median peker mot en normalfordeling. Skjev mot høyre med lang hale peker mot eksponential- eller gamma-fordeling. Flere topper peker mot at dataene egentlig er en blanding av flere underliggende populasjoner.

Uten denne utforskningen risikerer vi å bruke verktøy som ikke passer. En T-test forutsetter tilnærmet normalfordeling, og hvis dataene er sterkt skjeve eller har tunge haler, blir konklusjonene upålitelige. Det er ingen statistisk pakke som kan erstatte å bruke et minutt på å se på dataene før vi modellerer dem — og det er nettopp det utforskende dataanalyse handler om.

Test deg selv

Tar du quizen på kapittel 1?

4 spørsmål satt sammen til dette kapittelet — den beste måten å sjekke at det sitter.

Start quiz

Begreper & formler

7 begreper · 5 formler i kapittelet

Neste

Sannsynlighet

Kap 02