Lokale Extremwerte
Auch für mehrdimensionale Funktionen f : P → ℝ, P ⊆ ℝn, lässt sich eine Kurvendiskussion betreiben. Eine Hauptaufgabe ist dabei wieder das Auffinden lokaler Extremwerte. Die entsprechenden Begriffe werden wie im eindimensionalen Fall definiert.
Da grad(f)(p) in die Richtung des stärksten Anstiegs und −grad(f)(p) in die Richtung des stärksten Abfalls von f bei p zeigt, gilt:
Satz (notwendige Bedingung für lokale Extrema)
Sei f : P → ℝ partiell differenzierbar, und sei p ∈ P eine lokale Extremalstelle von f. Dann gilt grad(f)(p) = 0.
Beweis
Ist w ∈ ℝn, ∥ w ∥ = 1, so besitzt hw : ] − ε, ε [ → ℝ mit hw(t) = f(p + t w) eine lokale Extremalstelle im Punkt 0, wobei ε hinreichend klein gewählt wird. Also gilt nach dem notwendigen eindimensionalen Kriterium
0 = hw′(0) = 〈 grad(f)(p), w 〉 für alle w ∈ ℝn mit ∥ w ∥ = 1.
Hieraus folgt grad(f)(p) = 0.
Der Satz verallgemeinert die notwendige Bedingung „f ′(p) = 0“ (kritischer Punkt), die bereits im Eindimensionalen nicht hinreichend ist. Die Hesse-Matrix liefert, wie die zweite Ableitung für n = 1, ein hinreichendes Kriterium. Von Bedeutung sind hier die folgenden Begriffsbildungen der Linearen Algebra:
Definition (Definitheit einer Matrix)
Eine reelle (n × n)-Matrix A heißt
(a) | positiv definit, falls 〈 x, A x 〉 > 0 für alle x ∈ ℝn mit x ≠ 0, positiv semidefinit, falls 〈 x, A x 〉 ≥ 0 für alle x ∈ ℝn, |
(b) | negativ (semi-)definit, falls − A positiv (semi-)definit ist, |
(c) | indefinit, falls es x, y ∈ ℝn gibt mit 〈 x, A x 〉 > 0 und 〈 y, A y 〉 < 0. |
Ist Sn − 1 = { x ∈ ℝn | ∥ x ∥ = 1 }, so nimmt die stetige Funktion 〈 ·, A · 〉 : ℝn → ℝ aufgrund der Kompaktheit von Sn − 1 ihr Minimum c und ihr Maximum d auf Sn − 1 an. Für alle x ∈ ℝn gilt dann, mit x̂ = x/∥ x ∥ für x ≠ 0 und x̂ = 0 für x = 0:
〈 x, A x 〉 = ∥ x ∥2 〈 x̂, A x̂ 〉 ≥ c ∥ x ∥2 und analog
〈 x, A x 〉 ≤ d ∥ x ∥2.
Folglich gelten die Entsprechungen:
A positiv definit : c > 0, | A positiv semidefinit : c ≥ 0, | ||
A negativ definit : d < 0, | A negativ semidefinit : d ≤ 0, | ||
A indefinit : c < 0 und d > 0. |
Mit Hilfe der Taylor-Entwicklung zweiter Ordnung können wir nun den folgenden ansprechenden Satz beweisen:
Satz (hinreichende Bedingung für lokale Extrema, Definitheit der Hesse-Matrix)
Sei f : P → ℝ zweimal stetig differenzierbar, und sei p ∈ P mit grad(f)(p) = 0.
Dann gilt:
(a) | Ist Hf(p) positiv definit, so ist p eine strikte lokale Minimalstelle. |
(b) | Ist Hf(p) negativ definit, so ist p eine strikte lokale Maximalstelle. |
(c) | Ist Hf(p) indefinit, so ist p keine lokale Extremalstelle. |
Beweis
Durch Übergang zu f(x + p) − f (p) können wir p = 0 und f (0) = 0 annehmen (zur Vereinfachung der Notation). Dann gilt für A = Hf(0):
f (x) = 12 〈 x, A x 〉 + r(x), limx → 0 r(x)∥ x ∥2 = 0.
Seien c, d ∈ ℝ wie oben, sodass für alle x ∈ ℝn gilt:
〈 x, A x 〉 ≥ c ∥ x ∥2, 〈 x, A x 〉 ≤ d ∥ x ∥2.
Sei nun δ > 0, sodass für alle x mit ∥ x ∥ < δ, x ≠ 0, gilt:
|r(x)| < min(|c|, |d|)2 ∥ x ∥2.
Dann gilt für alle x ≠ 0 mit ∥ x ∥ < δ:
f (x) ≥ c2 ∥ x ∥2 + r(x) > 0, | falls c > 0, d. h. A positiv definit, |
f (x) ≤ d2 ∥ x ∥2 + r(x) < 0, | falls d < 0, d. h. A negativ definit. |
Dies zeigt (a) und (b). Für (c) seien xc, xd ∈ ℝn mit ∥ xc ∥ = ∥ xd ∥ = 1 und 〈 xc, A xc 〉 = c < 0 und 〈 xd, A xd 〉 = d > 0. Dann gilt für alle t ∈ ] 0, δ [
f (t xc) = t2 c2 + r(t xc) < 0, f (t xd) = t2 d2 + r(t xd) > 0.
Also ist 0 keine lokale Extremalstelle von f.
Dem eindimensionalen Krümmungsverhalten „f ″(p) > 0“ und „f ″(p) < 0“ entspricht im Mehrdimensionalen also die positive bzw. negative Definitheit der Hesse-Matrix von f im Punkt p. Die Aussage (c) des Satzes hat im Eindimensionalen kein Analogon.
Ist die Hesse-Matrix in einem Punkt p nur semidefinit, so ist keine allgemeine Aussage möglich. Im Eindimensionalen entspricht dies dem Fall „f ″(p) = 0“. Die dritte und vierte Potenz zeigen, dass in diesem Fall p dann eine lokale Extremalstelle sein kann oder auch nicht. Mehrdimensionale Beispiele besprechen wir in den Übungen.
Wir diskutieren noch einige Kriterien, die nützlich sind, die Definitheit einer Matrix zu bestimmen. Da eine Hesse-Matrix symmetrisch ist, besitzt sie reelle Eigenwerte. (Allgemein entspricht die Definitheit einer reellen Matrix A der Definitheit der symmetrischen Matrix A + At, sodass man sich prinzipiell auf symmetrische Matrizen beschränken kann.) Es gilt:
Satz (Eigenwertkriterium)
Sei A eine symmetrische reelle (n × n)-Matrix, und seien λ1 ≤ … ≤ λn die Eigenwerte von A. Dann gilt:
A ist positiv definit | genau dann, wenn | λ1 > 0, |
A ist positiv semidefinit | genau dann, wenn | λ1 ≥ 0, |
A ist negativ definit | genau dann, wenn | λn < 0, |
A ist negativ semidefinit | genau dann, wenn | λn ≤ 0, |
A ist indefinit | genau dann, wenn | λ1 < 0 und λn > 0. |
Beweis
Sei (b1, …, bn) eine Orthonormalbasis des ℝn mit A bk = λk bk für alle k. Dann gilt für alle x = ∑1 ≤ k ≤ n αk bk, dass
〈 x, A x 〉 = ∑1 ≤ k, j ≤ n αj αk λk 〈 bj, bk 〉 = ∑1 ≤ k ≤ n α2k λk.
Hieraus liest man Äquivalenzen ab.
Damit ist die Diagonalisierung der Hesse-Matrix eine Möglichkeit, ihre Definitheit zu bestimmen. Nützlich ist daneben oft auch der folgende Satz, den wir ohne Beweis angeben:
Satz (Determinantenkriterium)
Sei A eine symmetrische reelle (n × n)-Matrix. Dann sind äquivalent:
(a) | A ist positiv definit. |
(b) | Für alle 1 ≤ k ≤ n ist der k-te Hauptminor von A positiv, d. h., die Determinante der quadratischen Untermatrix Ak = (ai j)1 ≤ i, j ≤ k von A ist positiv. |
Ist also a11 < 0, so ist A nicht positiv definit, und ist a11 > 0, so ist A nicht negativ definit. Wegen det(− A) = (−1)n det(A) folgt aus dem Kriterium, dass A genau dann negativ definit ist, wenn die Hauptminoren det(A1), …, det(An) abwechselnd negativ und positiv sind.
Ein analoges Kriterium für Semidefinitheit gilt im Allgemeinen nicht.
Beispiele
(1) | Sei f : ℝ2 → ℝ mit f(x, y) = cos(x) + cos(y) für alle (x, y) ∈ ℝ2. Für alle p = (x, y) ∈ ℝ2 gilt grad(f)(p) = (−sin(x), −sin(y)), Hf(p) = − . Die Nullstellen des Gradienten sind genau die Punkte pa, b = (aπ, bπ) für a, b ∈ ℤ. Mit Hilfe der Hesse-Matrix können wir die Extremalstellen aus diesen Kandidaten aussondern: Sind a und b beide gerade, so ist Hf(p) = −E negativ definit und damit pa, b eine strikte lokale Maximalstelle von f. Sind a und b beide ungerade, so ist Hf(p) = E positiv definit und damit pa, b eine strikte lokale Minimalstelle von f. Haben a und b verschiedene Parität, so ist Hf(p) indefinit und damit pa, b keine lokale Extremalstelle von f. |
(2) | Allgemeiner gilt: Ist f : ℝn → ℝ von der additiven Form f(x1, …, xn) = g1(x1) + … + gn(xn) mit Funktionen gj : ℝ → ℝ, so ist die Hesse-Matrix Hf(p) für alle p eine aus den zweiten Ableitungen der Funktionen gj gebildete Diagonalmatrix. Ein Punkt p mit gj′(p) = 0 für alle j ist eine lokale Maximalstelle, wenn alle gj konkav in p sind. Analoges gilt für Minimalstellen mit konvex statt konkav. Ist in Hf(p) ein Diagonaleintrag gleich 0, so ist keine allgemeine Aussage möglich. |
(3) | Die Hesse-Matrix ist nicht immer die beste Wahl, um lokale Extremalstellen zu ermitteln. Ist f : ℝ2 → ℝ mit f(x, y) = arctan(xy), so gilt grad(f)(p) = 0 nur für p = 0. Der Hesse-Matrix-Weg ist nun aber mühsamer als ein „eindimensionales“ Argument: Seien g1, g2 : ℝ → ℝ mit g1(x) = f(x, x) = arctan(x2) und g2(x) = f(x, − x) = arctan(− x2). Man rechnet nach, dass g1″(0) = 2, sodass g1 in 0 ein striktes lokales Minimum besitzt. Dann hat aber g2 = − g1 in 0 ein lokales Maximum, sodass 0 keine lokale Extremalstelle von f sein kann. |