Tangentialräume
Im Beweis der Multiplikatorregel haben wir benutzt, dass die Ebene die Dimension 2 besitzt: Zwei Vektoren, die senkrecht auf einem Vektor v ≠ 0 stehen, liegen in der Ebene auf einer Geraden, im ℝ3 ist das nicht immer richtig. Zudem haben wir die Parametrisierbarkeit von N in der Nähe von p vorausgesetzt. Das Ergebnis lässt sich aber auf höhere Dimensionen verallgemeinern, und die Voraussetzung gilt automatisch. Hierzu definieren wir:
Definition (Tangentialraum)
Sei N ⊆ ℝn beliebig, und sei p ∈ N. Dann heißt
Tp N = { h′(0) | h : ] − ε, ε [ → N ist stetig differenzierbar mit h(0) = p }
der Tangentialraum von N im Punkt p.
Der Tangentialraum Tp N ⊆ ℝn besteht aus allen Tangential- oder Geschwindigkeitsvektoren von stetig differenzierbaren Kurven im Punkt p, die ganz in in der Menge N verlaufen und p besuchen. Es ist leicht nachzuweisen, dass Tp N ein Unterraum des ℝn ist, sodass die Bezeichnung als „Raum“ gerechtfertigt ist. Für Niveaumengen gilt das unabhängig von Lagrange-Multiplikatoren bedeutsame Ergebnis:
Satz (Gradientendarstellung des Tangentialraums für Niveaumengen)
Seien g : P → ℝ stetig differenzierbar, N = nivg(c) für ein c und p ∈ N mit grad(g)(p) ≠ 0. Dann gilt
Tp N = { x ∈ ℝn | Jg(p) x = 0 } = { x | 〈 grad(g)(p), x 〉 = 0 }.
Beweis
Ist x ∈ TpN und h : ] − ε, ε [ → N mit h(0) = p und h′(0) = x, so ist g ∘ h konstant gleich c und damit
Jg(p) x = Jg(h(0)) h′(0) = (g ∘ h)′(0) = 0.
Sei nun x* ∈ ℝn mit Jg(p) x* = 0. Wir konstruieren eine stetig differenzierbare Kurve h* in N, die p zur Zeit 0 mit dem Tangentialvektor x* = h*′(0) besucht. Sei hierzu w = ∥ grad(g)(p) ∥. Durch Übergang zu g/w können wir ohne Einschränkung annehmen, dass w = 1 (die Menge aller x mit Jg(p) x = 0 bleibt durch diesen Übergang gleich).
Sei bn = grad(g)(p), und seien b1, …, bn − 1 ∈ ℝn derart, dass b1, …, bn eine Orthonormalbasis des ℝn bilden. Wir definieren nun φ : P → ℝn durch
φ(x) = (〈 b1, (x − p) 〉, …, 〈 bn − 1, (x − p) 〉, g(x) − c) für alle x ∈ P.
Dann gilt φ(p) = 0 und für alle x ∈ P ist die letzte Komponente von φ(x) genau dann 0, wenn x ∈ N. Die Vektoren b1, …, bn sind die Zeilenvektoren von Jφ(p), und damit ist Jφ(p) invertierbar. Also existiert eine offene Umgebung U ⊆ P von p, sodass für V = φ[ U ] gilt:
(a) | φ : U → V ist bijektiv und V ist offen, |
(b) | φ−1 : V → U ist stetig differenzierbar, |
(c) | Jφ−1(0) = Jφ(p)−1. |
Sei x* = ∑1 ≤ k ≤ n αkbk. Dann gilt αn = 0 wegen 〈 bn, x* 〉 = 0. Wir definieren h : ] − ε, ε [ → V für ein hinreichend kleines ε > 0 durch
h(t) = (tα1, …, tαn) = (tα1, …, tαn − 1, 0) für alle t.
Dann gilt h(0) = 0 und h′(t) = (α1, …, αn − 1, 0) für alle t. Damit gilt für die stetig differenzierbare Kurve h* = φ−1 ∘ h : ] − ε, ε [ → P:
(1) | h*(0) = p, |
(2) | h*(t) ∈ N für alle t, |
(3) | h*′(0) = Jφ−1(0) h′(0) = Jφ(p)−1 (α1, …, αn − 1, 0) = x*. |
Dabei folgt (1) aus φ(p) = h(0), (2) aus αn = 0 und schließlich (3) aus
Jφ(p)x* = (α1, …, αn).
Der Tangentialraum Tp N einer Niveaumenge N = nivg(c) ist also der (n − 1)-dimensionale Vektorraum aller Vektoren, die senkrecht auf dem Gradienten von g im Punkt p stehen. In der Sprache der Linearen Algebra kann man dies auch so ausdrücken: Tp N ist der Kern der linearen Abbildung dg(p) : ℝn → ℝ.
Nun können wir leicht zeigen:
Satz (Multiplikatorregel von Lagrange, allgemeine Version)
Seien f, g : P → ℝ, P ⊆ ℝn, stetig differenzierbar, c ∈ ℝ, N = nivg(c) und p ∈ N derart, dass grad(g)(p) ≠ 0 und f|N eine lokale Extremalstelle in p besitzt. Dann existiert ein λ mit grad(f)(p) + λ grad(g)(p) = 0.
Beweis
Sei x ∈ TpN. Sei h : ] − ε, ε [ → N mit h(0) = p und h′(0) = x. Wie im Spezialfall oben gilt (f ∘ h)′(p) = 0 und g ∘ h = c, sodass
〈 grad(f)(p), x 〉 = 0 = 〈 grad(g)(p), x 〉.
Da TpN ein (n − 1)-dimensionaler Vektorraum ist, ist dies nur dann möglich, wenn grad(f)(p) ein skalares Vielfaches von grad(g)(p) ist.
Ohne Beweis geben wir noch ein hinreichendes Kriterium an:
Satz (hinreichendes Kriterium für bedingte Extremalstellen)
Seien g, f, N wie oben, und seien p ∈ N und λ derart, dass
grad(f + λ g)(p) = 0.
Die Hesse-Matrix
H = Hf + λ g(p) = Hf(p) + λ Hg(p)
sei positiv definit auf Tp N, d. h., für alle x ≠ 0 mit 〈 x, grad(g)(p) 〉 = 0 gilt 〈 x, H x 〉 > 0. Dann ist p eine strikte lokale Minimalstelle von f|N. Analog ist p eine strikte lokale Maximalstelle von f|N, wenn H negativ definit auf TpN ist.
Beispiel
Im obigen Beispiel gilt für p = (w, w) und λ = −1/2:
H = Hf(p) + λ Hg(p) = − 12 = .
Für alle (x, y) ∈ ℝ2 gilt 〈 (x, y), H (x, y) 〉 = − (x − y)2, und dies ist kleiner als 0 für alle von 0 verschiedenen Elemente von
TpN = { (x, y) ∈ ℝ2 | 〈 (x, y), 2 (w, w) 〉 = 0 } = { (x, − x) | x ∈ ℝ }.
Also ist (w, w) eine strikte lokale Maximalstelle von f. Analog können die drei anderen Kandidaten als strikte lokale Extremalstellen erkannt werden.