Tangentialräume

 Im Beweis der Multiplikatorregel haben wir benutzt, dass die Ebene die Dimension 2 besitzt: Zwei Vektoren, die senkrecht auf einem Vektor v ≠ 0 stehen, liegen in der Ebene auf einer Geraden, im 3 ist das nicht immer richtig. Zudem haben wir die Parametrisierbarkeit von N in der Nähe von p vorausgesetzt. Das Ergebnis lässt sich aber auf höhere Dimensionen verallgemeinern, und die Voraussetzung gilt automatisch. Hierzu definieren wir:

Definition (Tangentialraum)

Sei N ⊆ n beliebig, und sei p  ∈  N. Dann heißt

Tp N  =  { h′(0) | h : ] − ε, ε [  N ist stetig differenzierbar mit h(0) = p }

der Tangentialraum von N im Punkt p.

 Der Tangentialraum Tp N ⊆ n besteht aus allen Tangential- oder Geschwindigkeitsvektoren von stetig differenzierbaren Kurven im Punkt p, die ganz in in der Menge N verlaufen und p besuchen. Es ist leicht nachzuweisen, dass Tp N ein Unterraum des n ist, sodass die Bezeichnung als „Raum“ gerechtfertigt ist. Für Niveaumengen gilt das unabhängig von Lagrange-Multiplikatoren bedeutsame Ergebnis:

Satz (Gradientendarstellung des Tangentialraums für Niveaumengen)

Seien g : P   stetig differenzierbar, N = nivg(c) für ein c und p  ∈  N mit grad(g)(p) ≠ 0. Dann gilt

Tp N  =  { x  ∈  n | Jg(p) x  =  0 }  =  { x | 〈 grad(g)(p), x 〉  =  0 }.

Beweis

Ist x  ∈  TpN und h : ] − ε, ε [  N mit h(0) = p und h′(0) = x, so ist g ∘ h konstant gleich c und damit

Jg(p) x  =  Jg(h(0)) h′(0)  =  (g ∘ h)′(0)  =  0.

Sei nun x*  ∈  n mit Jg(p) x* = 0. Wir konstruieren eine stetig differenzierbare Kurve h* in N, die p zur Zeit 0 mit dem Tangentialvektor x* = h*′(0) besucht. Sei hierzu w = ∥ grad(g)(p) ∥. Durch Übergang zu g/w können wir ohne Einschränkung annehmen, dass w = 1 (die Menge aller x mit Jg(p) x = 0 bleibt durch diesen Übergang gleich).

Sei bn = grad(g)(p), und seien b1, …, bn − 1  ∈  n derart, dass b1, …, bn eine Orthonormalbasis des n bilden. Wir definieren nun φ : P  n durch

φ(x)  =  (〈 b1, (x − p) 〉, …, 〈 bn − 1, (x − p) 〉,  g(x) − c)  für alle x  ∈  P.

Dann gilt φ(p) = 0 und für alle x  ∈  P ist die letzte Komponente von φ(x) genau dann 0, wenn x  ∈  N. Die Vektoren b1, …, bn sind die Zeilenvektoren von Jφ(p), und damit ist Jφ(p) invertierbar. Also existiert eine offene Umgebung U ⊆ P von p, sodass für V = φ[ U ] gilt:

(a)

φ : U  V ist bijektiv und V ist offen,

(b)

φ−1 : V  U  ist stetig differenzierbar,

(c)

Jφ−1(0)  =  Jφ(p)−1.

Sei x* = 1 ≤ k ≤ n αkbk. Dann gilt αn = 0 wegen 〈 bn, x* 〉 = 0. Wir definieren h : ] − ε, ε [  V für ein hinreichend kleines ε > 0 durch

h(t)  =  (tα1, …, tαn)   =  (tα1, …, tαn − 1, 0)  für alle t.

Dann gilt h(0) = 0 und h′(t) = (α1, …, αn − 1, 0) für alle t. Damit gilt für die stetig differenzierbare Kurve h* = φ−1 ∘ h : ] − ε, ε [  P:

(1)

h*(0)  =  p,

(2)

h*(t)   ∈   N  für alle t,

(3)

h*′(0)  =  Jφ−1(0) h′(0)  =  Jφ(p)−11, …, αn − 1, 0)  =  x*.

Dabei folgt (1) aus φ(p) = h(0), (2) aus αn = 0 und schließlich (3) aus

Jφ(p)x*  =  1, …, αn).

 Der Tangentialraum Tp N einer Niveaumenge N = nivg(c) ist also der (n − 1)-dimensionale Vektorraum aller Vektoren, die senkrecht auf dem Gradienten von g im Punkt p stehen. In der Sprache der Linearen Algebra kann man dies auch so ausdrücken: Tp N ist der Kern der linearen Abbildung dg(p) : n  .

 Nun können wir leicht zeigen:

Satz (Multiplikatorregel von Lagrange, allgemeine Version)

Seien f, g : P  , P ⊆ n, stetig differenzierbar, c  ∈  , N = nivg(c) und p  ∈  N derart, dass grad(g)(p) ≠ 0 und f|N eine lokale Extremalstelle in p besitzt. Dann existiert ein λ mit grad(f)(p) + λ grad(g)(p) = 0.

Beweis

Sei x  ∈  TpN. Sei h : ] − ε, ε [  N mit h(0) = p und h′(0) = x. Wie im Spezialfall oben gilt (f ∘ h)′(p) = 0 und g ∘ h = c, sodass

〈 grad(f)(p), x 〉  =  0  =  〈 grad(g)(p), x 〉.

Da TpN ein (n − 1)-dimensionaler Vektorraum ist, ist dies nur dann möglich, wenn grad(f)(p) ein skalares Vielfaches von grad(g)(p) ist.

 Ohne Beweis geben wir noch ein hinreichendes Kriterium an:

Satz (hinreichendes Kriterium für bedingte Extremalstellen)

Seien g, f, N wie oben, und seien p  ∈  N und λ derart, dass

grad(f + λ g)(p)  =  0.

Die Hesse-Matrix

H  =  Hf + λ g(p)  =  Hf(p)  +  λ Hg(p)

sei positiv definit auf Tp N, d. h., für alle x ≠ 0 mit 〈 x, grad(g)(p) 〉 = 0 gilt 〈 x, H x 〉 > 0. Dann ist p eine strikte lokale Minimalstelle von f|N. Analog ist p eine strikte lokale Maximalstelle von f|N, wenn H negativ definit auf TpN ist.

Beispiel

Im obigen Beispiel gilt für p = (w, w) und λ = −1/2:

H  =  Hf(p)  +  λ Hg(p)  = 0110 −  12 2002 =  1111.

Für alle (x, y)  ∈  2 gilt 〈 (x, y), H (x, y) 〉 = − (x − y)2, und dies ist kleiner als 0 für alle von 0 verschiedenen Elemente von

TpN  =  { (x, y)  ∈  2 | 〈 (x, y), 2 (w, w) 〉 = 0 }  =  { (x, − x) | x  ∈   }.

Also ist (w, w) eine strikte lokale Maximalstelle von f. Analog können die drei anderen Kandidaten als strikte lokale Extremalstellen erkannt werden.