Jacobi-Matrix und Differential
Wir führen nun die Ableitung einer Funktion f : P → ℝm in einem Punkt p ∈ P ⊆ ℝn ein. Dabei orientieren wir uns an der lokalen Approximation einer eindimensionalen Funktion durch eine Gerade. Die Ableitung von f an der Stelle p wird als diejenige lineare Abbildung g : ℝn → ℝm definiert, für die
f (p) + g(x − p) für alle x ∈ ℝn
die bestmögliche Approximation an f an der Stelle p ist. Im eindimensionalen Fall konnten wir den linearen Anteil von f an der Stelle p durch eine reelle Zahl a kodieren, im mehrdimensionalen Fall verwenden wir Matrizen zur Kodierung der linearen Abbildung g.
Definition (totale Differenzierbarkeit, Jacobi-Matrix, Differential)
Sei f : P → ℝm, und sei p ∈ P. Dann heißt f (total) differenzierbar in p, falls eine Matrix A ∈ ℝm × n und eine Funktion r : P → ℝm existieren, sodass
(a) | f (x) = f (p) + A (x − p) + r(x) für alle x ∈ P, |
(b) | limx → p ∥ r(x) ∥∥ x − p ∥ = 0. |
Wir setzen:
Jf (p) = f ′(p) = A,
df (p) = | „die lineare Abbildung g : ℝn → ℝm mit g(x) = A x für alle x“. |
Die Matrix Jf(p) heißt die Jacobi-Matrix oder die Ableitung von f und die lineare Abbildung df (p) das Differential von f im Punkt p.
Die Funktion f heißt (total) differenzierbar, wenn f in allen p ∈ P differenzierbar ist.
Eine Matrix A wie in der Definition ist eindeutig bestimmt, sodass die Definition „Jf(p) = A“ gerechtfertigt ist. Die Eindeutigkeit kann man direkt aus den Bedingungen (a) und (b) herleiten. (Sie gilt dagegen nicht, wenn wir anstelle von „P offen“ lediglich voraussetzen, dass p ein Häufungspunkt von P ist.)
Nach Definition gilt
Jf(p) x = df (p)(x) für alle x ∈ ℝn.
Auf der linken Seite steht ein Matrix-Vektor-Produkt, auf der rechten Seite eine Funktionsanwendung.
Der Leser beachte, dass in der Bedingung
limx → p ∥ r(x) ∥∥ x − p ∥ = 0
im Zähler des Bruchs die euklidische Norm des ℝm, im Nenner dagegen die euklidische Norm des ℝn verwendet wird. Im Zähler können wir die Norm auch weglassen und mit dem Vektor r(x) ∈ ℝm und dem Nullvektor auf der rechten Seite arbeiten, im Nenner ist sie notwendig, da für n ≥ 2 eine Division durch (x − p) ∈ ℝn nicht erklärt ist. Da alle Normen auf dem ℝn bzw. ℝm äquivalent sind, können wir statt den euklidischen auch andere Normen im Zähler und Nenner verwenden, zum Beispiel die Maximumsnormen.
Beispiel 1: Lineare Abbildungen
Sei f : ℝn → ℝm eine lineare Abbildung, und sei A ∈ ℝm × n die f zugeordnete Matrix, d. h., es gilt A = (f (e1); …; f (en)), wobei e1, …, en die kanonischen Einheitsvektoren des ℝn sind: „Die Spalten von A sind die Bilder der kanonischen Einheitsvektoren“. Dann gilt für alle p ∈ P:
f (x) = Ax = Ap + A(x − p) + 0 für alle x ∈ ℝn.
Also ist f differenzierbar und Jf(p) = A, df (p) = f für alle p ∈ ℝn.
Beispiel 2: Eindimensionale Funktionen
Sei f : P → ℝ, P ⊆ ℝ, im bisherigen Sinne differenzierbar in p ∈ P, und sei a = f ′(p) ∈ ℝ. Dann gilt nach dem Approximationssatz
f (x) = f (p) + a (x − p) + r(x) für alle x ∈ P,
mit einer Funktion r : P → ℝ mit
limx → p r(x)x − p = 0 = limx → p |r(x)||x − p| = limx → p ∥ r(x) ∥∥ x − p ∥.
Also ist f total differenzierbar mit Jf(p) = (a) für die (1 × 1)-Matrix (a).
Identifizieren wir (a) ∈ ℝ1 × 1 mit der reellen Zahl a, so setzt der neue Differenzierbarkeitsbegriff den alten fort. Das Differential df (p) : ℝ → ℝ ist die Gerade mit der Steigung a: df (p)(x) = a x für alle a ∈ ℝ.
Beispiel 3: Kurven
Sei f : P → ℝm mit P ⊆ ℝ, und sei p ∈ P. Hier hatten wir im Fall der Existenz schon die vektorwertige Ableitung
f ′(p) = (f1′(p), …, fm′(p)) ∈ ℝm
betrachtet (dass P offen ist, ist unwesentlich: für ein hinreichend kleines ε > 0 ist die Einschränkung f|[ p − ε, p + ε ] → ℝm eine Kurve). Lesen wir nun wie vereinbart f ′(p) als (m × 1)-Matrix, so zeigt der auf die Komponenten f1, …, fm von f angewendete Approximationssatz, dass
f (x) | = (f1(p) + f1′(p) (x − p) + r1(x), …, fm(p) + fm′(p) (x − p) + rm(x)) |
= f (p) + f ′(p) (x − p) + r(x) |
mit einer Funktion r : P → ℝm, r = (r1, …, rm) mit
limx → p ∥ r(x) ∥∥ x − p ∥ = limx → p ∥ r(x) ∥x − p = 0.
Damit ist f total differenzierbar im Punkt p und
Jf(p) = = (f1′(p), …, fm′(p)) = f ′(p) ∈ ℝm
Beispiel 4: Tangentialebenen
Für den Fall n = 2 und m = 1 lässt sich die Differenzierbarkeit anschaulich interpretieren: So, wie eine differenzierbare Funktion f : ℝ → ℝ an einer Stelle p ∈ ℝ lokal wie eine Gerade aussieht, nämlich wie die dortige Tangente
f (p) + f ′(p) (x − p), x ∈ ℝ,
so sieht ein differenzierbares f : ℝ2 → ℝ an einer Stelle p = (p1, p2) ∈ ℝ2 lokal wie eine Ebene aus, nämlich wie ihre dortige (als Funktion dargestellte) Tangentialebene
f (p) + Jf(p) ((x, y) − p) = f (p) + a (x − p1) + b (y − p2), (x, y) ∈ ℝ2,
mit Jf(p) = (a b). Stellen wir uns f : ℝ2 → ℝ als Höhenlandschaft vor, so sind Wanderungen auf dem Graphen von f in der Nähe des Punktes (p, f (p)) kaum von entsprechenden Wanderungen auf der Tangentialebene von f im Punkt (p, f (p)) zu unterscheiden. Und eine auf den Graphen aufgelegte Murmel beginnt auf dem Graphen so herabzurollen, wie sie auf der Tangentialebene herabrollt − wenn wir uns nicht gerade an einem Ort befinden, an dem die Tangentialebene parallel zur x-y-Ebene ist, was genau dann der Fall ist, wenn die Jacobi-Matrix die Nullmatrix ist.
f(x, y) = x2 + y2, p = (0, 0)
f(x, y) = x2 − y2, p = (1/3, −1/3)
f(x, y) = exp(−x2 − y2), p = (0, 0)
Die Diagramme links zeigen Funktionen und Tangentialebenen in einigen Punkten p. Rechts ist ∥ r(x, y) ∥/∥ (x, y) − p ∥ gezeigt, wobei die Restfunktion r(x, y) die Differenz von f und der betrachteten Tangentialebene ist. Wir werden im nächsten Kapitel sehen, wie sich die die Tangentialebene kodierende Matrix Jf(p) berechnen lässt. Wer es sofort wissen möchte, kann vorspringen.
Mehrdimensionale Differentialquotienten
Im eindimensionalen Fall konnten wir f ′(p) als Grenzwert von Differenzenquotienten definieren. Ist f : P → ℝ, P ⊆ ℝ, differenzierbar bei p, so gilt
f ′(p) = limx → p f (x) − f (p)x − p = limh → 0 f (p + h) − f (p)h.
Sei nun f : P → ℝm, P ⊆ ℝn, p ∈ P mit beliebigen Dimensionen n, m ≥ 1. Wir können nun im Allgemeinen keine Differenzenquotienten mehr bilden: Im Zähler stehen Vektoren der Dimension m, im Nenner Vektoren der Dimension n. Durch Übergang zur Norm im Nenner können wir die Grenzwerte
(+) limx → p f (x) − f (p)∥ x − p ∥ = limh → 0 f (p + h) − f (p)∥ h ∥
betrachten, die im Fall der Existenz einen Vektor des ℝm ergeben. Nun gilt:
Die totale Differenzierbarkeit bedeutet nicht, dass die Grenzwerte (+) existieren.
Ein Gegenbeispiel liefert die einfache Funktion f : ℝ2 → ℝ mit
f(x, y) = x für alle (x, y) ∈ ℝ2.
Für den Nullpunkt p = 0 = (0, 0) gilt für alle (x, y) ∈ ℝ2 mit (x, y) ≠ 0:
f (x, y) − f (p)∥ (x, y) − p ∥ = (x, y) − 0∥ (x, y) − 0 ∥ = (x, y)∥ (x, y) ∥ ∈ K1
Die Quotienten sind Elemente des Einheitskreises der Ebene. Sie konvergieren für die allgemeine Bewegung „(x, y) → p“ nicht. Strebt (x, y) auf der positiven x-Achse gegen 0, so erhalten wir den Grenzwert (1, 0). Strebt dagegen (x, y) auf der positiven y-Achse gegen 0, so erhalten wir den Grenzwert (0, 1). Bei entsprechender radialer Annäherung ist jeder Punkt auf dem Einheitskreis als Grenzwert möglich. Bei einer spiralförmigen Annäherung an den Nullpunkt existiert der Grenzwert nicht, und konkret gilt dies auch für die Folge (xn, yn) = ((−1/2)n, 0) für alle n ∈ ℕ.
Der Leser wird vielleicht einwenden, dass wir auch im eindimensionalen nicht einfach einen Betrag im Nenner (entsprechend der Norm) verwenden können. Für f : ℝ → ℝ mit f (x) = x existiert
limx → 0 f (x) − f (0)|x − 0| = limx → 0 x|x|
nicht, die Quotienten liegen in der Menge { −1, 1 }. Dennoch erscheint es instruktiv, sich die Nichtexistenz von Differentialquotienten für den mehrdimensionalen Fall vor Augen zu führen. Die Überlegung bereitet auch die Richtungsableitungen vor, die wir im nächsten Kapitel untersuchen werden.
Wie im Eindimensionalen sind verschiedene Umformulierungen der Definition nützlich (Beweis als Übung):
Satz (Varianten der Differenzierbarkeitsbedingung)
Sei f : P → ℝm, und sei p ∈ P. Dann sind äquivalent:
(a) | f ist differenzierbar in p. |
(b) | Es gibt eine (m × n)-Matrix A mit limx → p ∥ f (x) − f (p) − A (x − p) ∥∥ x − p ∥ = 0. |
(c) | Es gibt eine (m × n)-Matrix A mit limh → 0 ∥ f (p + h) − f (p) − A h ∥∥ h ∥ = 0. |
(d) | Es gibt eine (m × n)-Matrix A und eine Funktion r : Uε(0) → ℝm mit Uε(p) ⊆ P und f(p + h) = f (p) + A h + r(h) für alle h ∈ Uε(0), limh → 0 ∥ r(h) ∥∥ h ∥ = 0. |
(e) | Es gibt eine (m × n)-Matrix A und eine im Punkt 0 stetige Funktion s : Uε(0) → ℝm mit Uε(p) ⊆ P und f(p + h) = f (p) + A h + ∥ h ∥ s(h) für alle h ∈ Uε(0), s(0) = 0. |
In diesem Fall gilt A = Jf(p).
Wie früher impliziert die Differenzierbarkeit die Stetigkeit:
Satz (Stetigkeit differenzierbarer Funktionen)
Sei f : P → ℝm differenzierbar in p ∈ P. Dann ist f stetig in p.
Beweis
Sind A und r : P → ℝm wie in der Definition, so gilt limx → p r(x) = 0 und
limx → p f (x) − f (p) = limx → p A(x − p) + r(x) = 0 + 0 = 0.
Also ist limx → p f (x) = f (p) und damit f stetig im Punkt p.
Die folgende Beobachtung, die sich ebenfalls direkt aus der Definition gewinnen lässt, unterstreicht, warum dem Fall m = 1 eine besondere Rolle zukommt:
Satz (Differenzierbarkeit der Komponenten)
Ein f : P → ℝm ist genau dann in einem Punkt p ∈ P differenzierbar, wenn alle Komponenten f1, …, fm von f in p differenzierbar sind. Die (1 × n)-Matrizen Jf1(p), …, Jfm(p) sind dann die Zeilen der Matrix Jf(p) und die Differentiale df1(p), …, dfm(p) : ℝn → ℝ die Komponenten des Differentials df (p) : ℝn → ℝm.
Beherrschen wir also „n ≥ 1 und m = 1“, so auch „n ≥ 1 und m ≥ 1“.