CMD + K

6 min lesing3 videoer

Indreproduktrom

Generelle indreproduktrom, ortogonale og ortonormale mengder, Gram–Schmidt-prosessen, projeksjon på underrom og beste approksimasjon. Ortogonalt komplement.

Læringsmål
  • 01Verifisere indreproduktaksiomene for et gitt produkt og bruke Cauchy–Schwarz på konkrete vektorer
  • 02Kjøre Gram–Schmidt på en gitt basis og normalisere til en ortonormal basis
  • 03Regne ut projeksjonen av en vektor på et underrom og finne beste approksimasjon
  • 04Beskrive ortogonalt komplement og bruke V = W ⊕ W^⊥ til å splitte vektorer

Hva er et indreprodukt?

Prikkproduktet i R^n var praktisk fordi det ga oss lengder, vinkler og en måte å snakke om «vinkelrett» på. indreprodukt er den generelle versjonen — en avbildning ⟨·,·⟩ : V × V → R med tre egenskaper: symmetri, linearitet i første argument, og positiv definit. Ett uttrykk pakker alt: ƒaksiomene for indreprodukt.

Eksempler finnes langt utenfor R^n. For kontinuerlige funksjoner på [a, b] er ⟨f, g⟩ = ∫ f(x) g(x) dx et indreprodukt — det er den strukturen Fourier-rekker hviler på. For polynomer kan man velge vektede indreprodukt som gir opphav til klassiske ortogonale polynomer som Legendre eller Chebyshev. For matriser har vi ⟨A, B⟩ = tr(A^T B). Apparatet vi bygger her er ikke bare en mat-leksjon — det er verktøyet bak signalbehandling, kvantemekanikk og minste kvadraters tilpasning.

Et vektorrom utstyrt med et fast indreprodukt kalles et indreproduktrom. Det arver da automatisk en geometri.

Norm og avstand

Den induserte norm er gitt ved ƒnorm fra indreprodukt. Tre egenskaper er garantert: positivitet (||v|| ≥ 0, med likhet bare for v = 0), homogenitet (||c v|| = |c| · ||v||), og trekantulikheten (||u + v|| ≤ ||u|| + ||v||). Tilsammen gjør disse at d(u, v) = ||u − v|| er en avstand i klassisk forstand — vi har et fullt metrisk rom å jobbe i.

Det fine er at vi ikke trenger å postulere noen av disse egenskapene. De følger automatisk fra indreproduktet. Vi får geometri gratis så snart vi har lineærstruktur og ett skalart produkt.

Cauchy–Schwarz og trekantulikheten

Den enkleste, dypeste ulikheten i hele kapittelet er cauchy–schwarz-ulikheten: ƒcauchy–schwarz-ulikheten. Beviset går via å se på at ||u + t v||² ≥ 0 for alle t, ekspandere som et andregradsuttrykk i t, og se på diskriminanten. Når man har dette resultatet, faller mye annet ut.

Trekantulikheten er en kort konsekvens. Vi ekspanderer ||u + v||² = ⟨u + v, u + v⟩ = ||u||² + 2⟨u, v⟩ + ||v||², erstatter 2⟨u, v⟩ med en øvre grense via Cauchy–Schwarz, og får ||u + v||² ≤ (||u|| + ||v||)². trekantulikheten følger ved å ta kvadratrøtter.

I funksjonsrom blir Cauchy–Schwarz til |∫ f g| ≤ √(∫f²) · √(∫g²). Det er den samme ulikheten, bare med et annet indreprodukt. Hele apparatet er strukturelt det samme i alle indreproduktrom.

Ortogonalitet

Vi sier u og v er ortogonale når ⟨u, v⟩ = 0, akkurat som i R^n. Pytagoras kommer rett ut: hvis u ⊥ v, så ƒpytagoras i indreproduktrom. Beviset er en linjeregning på ||u + v||² ekspandert via indreproduktet, hvor mellomleddet 2⟨u, v⟩ forsvinner fordi det er null.

En ortogonal mengde er en samling vektorer som er parvis ortogonale. Slike ikke-null mengder er automatisk lineært uavhengige — en test som vi nå kan sjekke på et øyeblikk i stedet for å redusere matriser. Har du n parvis ortogonale ikke-null vektorer i et n-dimensjonalt rom, har du en basis.

Hvis vi i tillegg krever at hver vektor har lengde 1, har vi en ortonormal mengde. En ortonormal basis kombinerer det beste fra to verdener: spennet er hele rommet, og koordinatene er trivielle å regne ut. Identiteten ƒortonormal basis (kronecker) pakker det inn — kronecker-delta-deltaet δ_{ij} er 1 når i = j og 0 ellers.

I en ortonormal basis kan vi lese koordinatene direkte: v = Σ ⟨v, ei⟩ ei. Vi trenger ikke løse noe ligningssystem; bare ta n indreprodukter. Det er enkelt nok til å bli uvurderlig i praksis.

Gram–Schmidt — fra uavhengig til ortonormal

De fleste basiser vi får er ikke ortogonale. Gram–Schmidt-prosessen er algoritmen som ordner opp i det. Gitt en lineært uavhengig mengde {v1, …, vn} bygger vi en ortogonal mengde med samme spenn ved å fjerne, fra hver ny vektor, dens projeksjon på det allerede etablerte ortogonale settet: ƒgram–schmidt.

w₁ = v₁v₂proj_{w₁} v₂w₂w₂ = v₂ − proj_{w₁} v₂ — det som blir igjen er ortogonalt på w₁
FIGGram-Schmidt: trekk fra skyggen, og du har ortogonalitet

Intuisjonen er enkel. Den første vektoren w1 er bare v1. Den andre w2 er v2 minus sin skygge på w1 — det som blir igjen står per definisjon ortogonalt på w1. Vi fortsetter og trekker fra skyggen mot hele det forrige ortogonale underrommet. Etter trinn k er {w1, …, wk} ortogonal, og spennet er det samme som {v1, …, vk}.

Etter en kjøring kan vi normalisere hver w_i ved å dele på sin egen lengde, og vi sitter igjen med en ortonormal basis. gram–schmidt-prosessen er ikke bare en teoretisk konstruksjon — det er kjernen i QR-faktorisering, som ligger til grunn for utallige algoritmer i numerisk lineær algebra.

Projeksjon og beste approksimasjon

For et underrom W med ortonormal basis {e1, …, ek} er projeksjon på underrom gitt ved ƒprojeksjon på underrom (ortonormal basis). Vektoren v deles opp i to: én del som ligger i W (projeksjonen), og én del som ligger ortogonalt på W.

Wvv − proj_W vproj_W vblant alle w ∈ W er proj_W v den som ligger nærmest v
FIGProjeksjon på underrom: nærmeste punkt i W

Differansen v − proj_W v står ortogonalt på hele W.

Hvorfor er projeksjonen viktig? Fordi den løser et minimering. Blant alle vektorer i W er projW v den som ligger nærmest v. Det er innholdet i approksimasjonsteoremet: {{f:beste-approx-teorem}}, med likhet bare for w = projW v. beste approksimasjon er ikke en sidefasinasjon; det er navnet på selve metoden bak minste kvadraters tilpasning, og det er hva en Fourier-rekke faktisk gjør — den finner nærmeste vektor i et passende endeligdimensjonalt underrom.

Konkret eksempel: tilpass en linje y = a x + b til en sky av datapunkter. Vi vil minimere summen av kvadrerte avstander. Det er nettopp å finne projeksjonen av datavektoren ned på et passende todimensjonalt underrom. Geometrien bak regresjon er denne — og generaliseringen gir grunnlaget for hovedkomponentanalyse og andre dimensjonsreduksjonsteknikker.

Ortogonalt komplement

Til hvert underrom W hører ortogonalt komplement w^⊥: ƒortogonalt komplement. Det er settet av alle vektorer som står ortogonalt på alt i W. Dette er selv et underrom, og når V er endeligdimensjonalt får vi den vakre dekomposisjonen V = W ⊕ W^⊥.

Hva betyr direkte sum her? At hver vektor v ∈ V kan skrives entydig som w + u med w ∈ W og u ∈ W^⊥.

WW^⊥vproj_W vproj_W^⊥ vlyseblå v deles entydig i to: subject-pil langs W + gul pil langs W^⊥
FIGHver v ∈ V er entydig sum av proj_W v og proj_W^⊥ v

Tallet w er nettopp projW v, og u er v − projW v. Vi har dermed gjort om hele rommet til en ortogonal direkte sum, og projeksjonen er den naturlige operatoren som velger ut den ene komponenten.

Resultatet (W^⊥)^⊥ = W binder begrepene sammen. For matriser dukker det opp i fundamentaldekomposisjonen: for en matrise A er nullrommet ortogonalt komplement til radrommet, og venstre-nullrommet er ortogonalt komplement til kolonnerommet — fire underrom som passer sammen i to ortogonale par. Det skjer bare fordi vi nå tillater oss å snakke om geometri i abstrakte vektorrom.

Et konkret Gram–Schmidt-eksempel

La oss kjøre Gram–Schmidt på et lite eksempel i R^3 med standard prikkprodukt. Start med v1 = (1, 1, 0), v2 = (1, 0, 1), v_3 = (0, 1, 1). De tre er lineært uavhengige, men ikke ortogonale.

Sett w1 = v1 = (1, 1, 0). Da er ⟨w1, w1⟩ = 2. Beregn w2 = v2 − (⟨v2, w1⟩/⟨w1, w1⟩) · w1 = (1, 0, 1) − (1/2)(1, 1, 0) = (1/2, −1/2, 1). Sjekk: ⟨w1, w_2⟩ = 1/2 − 1/2 + 0 = 0 — ortogonal som lovet.

For w3: vi trekker fra projeksjonen på både w1 og w2. ⟨v3, w1⟩ = 1, ⟨v3, w2⟩ = 1/2 og ⟨w2, w2⟩ = 3/2. Dette gir w3 = (0, 1, 1) − (1/2)(1, 1, 0) − (1/3)(1/2, −1/2, 1) = (−2/3, 2/3, 2/3). Normaliser de tre, og du har en ortonormal basis for R^3 med samme spenn som utgangspunktet — i dette tilfellet hele R^3.

Algoritmen er prosessuell og litt klønete for hånd, men maskinelt er den lynrask og brukes daglig i numerisk lineær algebra. Hovedpoenget er ikke å lære utenat — det er å forstå hvorfor det fungerer: hver wk er det som er igjen av vk etter at vi har trukket fra alt vi allerede har plukket opp.