CMD + K

Matematikk 2BFunksjoner og derivasjonBegreper & formler28
6 min lesing4 videoer

Funksjoner og derivasjon

Skalar- og vektorfunksjoner i flere variable, mengder og følger i R^n, grenser og kontinuitet. Partielle deriverte, retningsderivert, gradient, deriverbarhet, linearisering og middelverdisetningen.

Læringsmål
  • 01Avgjøre om en flervariabel grense finnes ved å sammenligne tilnærmingsveier
  • 02Regne gradient, partielle deriverte og retningsderivert i et konkret punkt
  • 03Skrive opp lineariseringen / tangentplanet og bruke det til approksimasjon
  • 04Forklare hvorfor partielle deriverte alene ikke gir deriverbarhet, og bruke C¹-kriteriet

Fra én til flere variable

Når vi går fra f : R → R til f : R^n → R skjer noe ubehagelig: deriverte er ikke lenger ett tall. Stigningen avhenger av hvilken retning du går. partiell derivert er bare ett spesialtilfelle — endringsraten langs en koordinatakse. Vi trenger et rikere språk for å snakke om hvordan en flate krummer.

Dette kapittelet bygger opp det språket. En skalarfunksjon f : R^n → R er det enkleste; en vektorfunksjon F : R^n → R^m utvider ideene komponentvis. Vi starter med topologi (åpne og lukkede mengder), beveger oss til grenser og kontinuitet, og ender med gradient, linearisering og det globale verktøyet middelverdisetningen.

Topologi i R^n — hva er "nær"?

En kule B(a, r) er settet av punkter med ||x − a|| < r.

01234[0, 2] lukket(1, 3) åpent[2, 4) halvåpentutfylt = inkludert, hul = ekskludert — samme prinsipp i Rⁿ via kuler
FIGLukket, åpent, halvåpent — endepunktene avgjør

Med kulen som måleenhet definerer vi:

- åpen mengde: hvert punkt har en kule som ligger helt inni. Eksempel: enhetsdisken uten randen. - lukket mengde: inneholder alle sine randpunkter. Komplementet av en åpen mengde. Eksempel: enhetsdisken med rand.

En mengde kan også være ingen av delene — halvåpne intervaller, eller mengder som mangler en av kantene sine. Begrepet begrenset er en uavhengig egenskap: en mengde er begrenset hvis den får plass i en endelig kule. Lukket og begrenset er sammen et særdeles nyttig par, fordi det er nettopp på slike mengder at kontinuerlige funksjoner alltid antar maks og min.

En følge i r^n (ak) konvergerer til a hvis ||ak − a|| → 0. Komponentvis blir det det samme som om hver enkelt koordinat-følge konvergerer i R. Den observasjonen gjør at mange resultater for én variabel direkte løftes til flere.

Grenser og kontinuitet — vei-uavhengighet er nøkkelen

grense er der det blir vanskelig. lim{(x,y) → (a,b)} f(x,y) = L betyr at f kan gjøres vilkårlig nær L ved å velge (x,y) tilstrekkelig nær (a,b) — uansett tilnærmingsvei_. Det siste forbeholdet er hele dramaet.

Et klassisk moteksempel: f(x,y) = xy/(x² + y²) for (x,y) ≠ (0,0).

y = 0 ⇒ f → 0y = x ⇒ f → ½(0,0) ekskl.f(x,y) = xy/(x² + y²): ulike veier inn til origo gir ulike grenser
FIGGrense som ikke finnes: to veier, to verdier

Langs x-aksen (y = 0) er f = 0. Langs linjen y = x er f = 1/2. To veier gir to ulike grenser, så grensen i (0,0) finnes ikke. Funksjonen oppfører seg pent langs hver akse, men kollapser totalt sett.

To strategier: vil du vise at en grense ikke finnes, hold det enkelt med to ulike veier som gir ulike grenser. Vil du vise at den finnes, bruk polarkoordinater (x = r cos θ, y = r sin θ) og se om uttrykket går mot samme verdi når r → 0 uansett θ. Eksempel: f(x,y) = x²y/(x² + y²) i polar gir r cos²θ sin θ, som går mot 0 uniformt i θ. Da finnes grensen og er 0.

kontinuitet i a betyr at grensen i a finnes og er lik f(a). Bygd av kontinuerlige byggesteiner (polynomer, sin, exp, kvotient med ikke-null nevner) holder kontinuitet seg gjennom sammensetning og produkter. definisjonsmengde og verdimengde er greie å avgrense før du regner: √-funksjonen vil ha ikke-negative argumenter, ln vil ha strengt positive, og brøker vil ikke ha null i nevneren.

Partielle deriverte — derivér én aksen om gangen

ƒpartiell derivert (definisjon) er bare den vanlige deriverte med alle andre variable frosset. For f(x,y) = x²y + sin(y): ∂f/∂x = 2xy og ∂f/∂y = x² + cos(y). Mekanisk, men kraftig — det er hele grunnlaget for resten av kapittelet.

Notasjonen varierer: ∂f/∂x, fx, og D1 f betyr alle det samme. Skriver du eksplisitt utregning er ∂-notasjonen tydeligst; skriver du teori går fx raskere. Pass på rekkefølgen i blandede deriverte: f{xy} = ∂/∂y(∂f/∂x). Heldigvis er rekkefølgen likegyldig så lenge de blandede deriverte er kontinuerlige (Clairauts setning) — så f{xy} = f{yx} i alle praktiske tilfeller.

Tilfellet at både ∂f/∂x og ∂f/∂y finnes i (a,b) er svakere enn man tror. Funksjonen kan likevel være diskontinuerlig der: f(x,y) = xy/(x²+y²) (samme som over) har fx(0,0) = fy(0,0) = 0, men er ikke kontinuerlig i origo. Eksistens av partielle deriverte gir ingen garanti.

Gradient — alle partielle deriverte i én vektor

Samle alle partielle deriverte i en vektor og du har ƒgradient. gradient ∇f peker i retningen f vokser raskest, og dens lengde er den maksimale stigningsraten. Den står normalt på nivåkurve / nivåflate f = c.

For å se hvorfor: bruk ƒretningsderivert. Retningsderivert i retning u er en skalarprodukt mellom ∇f og u, så den er maksimal når u peker samme vei som ∇f. Tar du normen får du ƒmaksimal retningsderivert — det er bare Cauchy–Schwarz med likhet.

Det er denne egenskapen som gjør gradient til kjernen i optimalisering.

f=1f=4f=13∇f(1,2)f(x,y) = x² + 3y²; ∇f(1,2) = (2, 12) peker i retning av raskest vekst
FIGNivåkurver og gradient: ∇f står normalt på nivåkurven

Gradient descent — gå i retning −∇f og du beveger deg nedover så raskt som mulig — er hele maskinlæring i én setning.

Et konkret eksempel: f(x,y) = x² + 3y² i punktet (1, 2). Da er ∇f = (2x, 6y) = (2, 12), og lengden er √148 ≈ 12.17. Det er den maksimale endringsraten. Vil du gå i retning u = (1, 0) er endringsraten ∇f · u = 2; i retning v = (0, 1) er den 12. Funksjonen vokser mye raskere i y-retning enn x-retning her — naturlig, siden y-koeffisienten er større.

Deriverbarhet — sterkere enn partielle deriverte

For å gjenfange den fine førsteordens-approksimasjonen vi hadde i én variabel trenger vi deriverbarhet (totalt): ƒlineær approksimasjonsfeil. Lineariseringen f(a) + ∇f(a)·h må være nøyaktig nok til at restleddet ε(h) går mot null raskere enn ||h||.

Dette er strengere enn at partielle deriverte eksisterer. Heldigvis finnes et praktisk kriterium: ƒtilstrekkelig betingelse for deriverbarhet. Hvis alle førstederiverte er kontinuerlige rundt a, er f automatisk deriverbar der. Polynomer, sin, cos, exp og deres sammensetninger er C^1 over alt — du trenger sjelden å sjekke definisjonen direkte.

Husk implikasjonen ƒderiverbar ⇒ kontinuerlig. Den går bare én vei. Deriverbar ⇒ kontinuerlig, men kontinuerlig sier ingenting om deriverbarhet.

Linearisering og tangentplan

linearisering ƒlinearisering er den beste lineære approksimasjonen til f nær (a,b). Geometrisk er grafen til L et plan — tangentplan ƒtangentplan — som tangerer flaten z = f(x,y) i (a,b,f(a,b)).

Et konkret eksempel: f(x,y) = √(x² + y²) nær (3, 4). Vi har f(3, 4) = 5, fx = x/√(x² + y²) = 3/5, fy = y/5 = 4/5. Lineariseringen er L(x, y) = 5 + (3/5)(x − 3) + (4/5)(y − 4). For (x, y) = (3.1, 4.1) gir den 5 + 0.06 + 0.08 = 5.14, mot eksakt √(9.61 + 16.81) ≈ 5.140. Brukbar.

Lineariseringen er arbeidshesten i numerisk approksimasjon. Newtons metode for ligninger i flere variable, Taylor-utvidelser, og hele teorien for små perturbasjoner i fysikk hviler på den.

Kjerneregel og middelverdi

For en parametrisert kurve r(t) = (x(t), y(t)) gir kjerneregelen ƒkjerneregelen langs en kurve. Det er bare prikkproduktet av gradienten og hastighetsvektoren. Setter du r(t) = a + t(b − a) får du en lineær vei fra a til b, og middelverdisetningen ƒmiddelverdisetningen (flere variable) sier at det finnes et punkt c på veien der gradienten "rammer" stigningen mellom endepunktene presist. Det er den flervariable analogen til klassisk MVT, og brukes til å bevise alt fra Taylors teorem til ulikheter for feilledd.

Kjerneregelen er sjelden noe brukerene ser i den abstrakte formen — men i hverdagen dukker den opp som "derivér med tanke på t". I termodynamikk har du f(T, V, P) der alle tre er funksjoner av tiden, og endringsraten er fT T' + fV V' + f_P P'. I optimaliseringsmetoder med innebygd parametrisering (gradient flow, kontinuerlige analoger til SGD) gir den koblingen mellom partielle deriverte og baner i parameter-rommet.