Ausblick: Der Spektralsatz für symmetrische Matrizen
Der fundamentale Spektralsatz der linearen Algebra besagt, dass jede symmetrische Matrix A ∈ ℝn × n eine Orthonormal-Basis aus Eigenvektoren mit reellen Eigenwerten besitzt: Es gibt x1, …, xn ∈ ℝn und λ1, …, λn ∈ ℝ mit
Axi = λixi, 〈 xi, xi 〉 = 1, 〈 xi, xj 〉 = 0 für alle i und alle j ≠ i.
Bezüglich dieser Basis ist A eine Diagonalmatrix. Man sagt deswegen auch, dass A orthogonal diagonalisierbar ist. Der Beweis kann in der linearen Algebra mit Hilfe des charakteristischen Polynoms und des Fundamentalsatzes der Algebra geführt werden. Wir geben zwei (verwandte) analytische Beweise, die den Fundamentalsatz nicht bemühen und wertvolle neue Einsichten mit sich bringen. Unser erstes Argument schließt an die Diskussion bedingter lokaler Extrema an:
Eigenwerte symmetrischer Matrizen à la Lagrange
Bei der Diskussion der Definitheit hatten wir das Werteverhalten von Funktionen f : ℝn → ℝ der Form f (x) = 〈 x, A x 〉 mit einer symmetrischen Matrix A auf der Sphäre Sn − 1 untersucht. Wir wissen aufgrund der Kompaktheit von Sn − 1, dass bedingte Extremalstellen existieren. Die Multiplikatorregel liefert nun:
Satz (kleinster und größter Eigenwert einer symmetrischen Matrix)
Sei A ∈ ℝn × n symmetrisch, und seien f, g : ℝn → ℝ mit
f (x) = 〈 x, A x 〉, g(x) = ∥ x ∥2 für alle x ∈ ℝn.
Weiter seien Sn − 1 = nivg(1) und c, d ∈ ℝ, xc, xd ∈ Sn − 1 mit
f (xc) = c = min(f|Sn − 1), f (xd) = d = max(f|Sn − 1).
Dann ist c der kleinste und d der größte Eigenwert von A und xc, xd sind zugehörige normierte Eigenvektoren.
Beweis
Für alle x ∈ Sn − 1 gilt:
grad(f)(x) = A x + At x = 2 Ax, grad(g)(x) = 2x.
Nach der Multiplikatorregel gibt es also λ, μ ∈ ℝ mit
Axc = λxc, Axd = μxd.
Sind nun x ∈ Sn − 1 und α ∈ ℝ mit Ax = αx, so ist
α = α 〈 x, x 〉 = 〈 x, Ax 〉 = f (x) ∈ [ c, d ].
Insbesondere gilt λ = c und μ = d.
Der Beweis zeigt, dass jede symmetrische Matrix A ∈ ℝn × n mindestens einen reellen Eigenwert besitzt. Durch Bildung des orthogonalen Unterraums erhalten wir durch Induktion eine Orthonormalbasis aus Eigenvektoren von A. Der Fundamentalsatz der Algebra wird dabei nicht verwendet.
Gezeigt ist dieFunktion f : ℝ2 → ℝ mit
f(x, y) = 〈 (x, y), A (x, y) 〉,
sowie der Einheitskreis S1 und das Bild von S1 unter f. Die beiden durch Pfeile dargestellten Vektoren bilden eine Orthonormalbasis des ℝ2 aus Eigenvektoren von A. Sie verweisen auf lokale Maximal- und Minimalstellen von f|S1, und die zugehörigen Werte von f sind die Eigenwerte von A.
Eigenwerte symmetrischer Matrizen à la Rayleigh
Der Einsatz der Lagrangeschen Multiplikator-Methode zur Eigenwert-Analyse symmetrischer Matrizen lässt sich vermeiden, wenn wir statt der Funktion f (x) = 〈 x, Ax 〉 den folgenden Quotienten betrachtet:
Definition (Rayleigh-Quotient)
Sei A ∈ ℝn × n. Dann heißt R : ℝn − { 0 } → ℝ mit
R(x) = 〈 x, Ax 〉〈 x, x 〉 = 〈 x, Ax 〉∥ x ∥2 für alle x ∈ ℝn, x ≠ 0,
der Rayleigh-Quotient von A.
Gilt Ax = αx für x ≠ 0, so ist R(x) = α. Der Rayleigh-Quotient liefert also den Eigenwert zu einem Eigenvektor. Weiter gilt die Homogenität
(+) R(αx) = R(x) für alle α ∈ ℝ und x ∈ ℝn − { 0 }.
Sei Sn − 1 = { x ∈ ℝn | ∥ x ∥ = 1 }. Dann nimmt R|Sn − 1 ihre Extremwerte an. Nach (+) sind die Extrema von R|Sn − 1 globale Extrema und folglich Nullstellen des Gradienten. Wir nehmen nun an, dass A symmetrisch ist. Dann gilt:
grad(R)(x) = 2 〈 x, x 〉 Ax − 〈 x, Ax 〉 x〈 x, x 〉2 für alle x ∈ ℝn − { 0 }.
Ist nun x eine Extremalstelle von R, so gilt 〈 x, x 〉 Ax − 〈 x, Ax 〉 x = 0, also
Ax = 〈 x, Ax 〉〈 x, x 〉 x = R(x) x,
sodass x ein Eigenvektor von A zum Eigenwert R(x) ist (und genauer ist R(x) der kleinste oder größte Eigenwert von A).
Der Rayleigh-Quotient
der symmetrischen
(2 x 2)-Matrix
A =
für alle x mit
1/2 ≤ ∥ x ∥ ≤ 2.
Die Argumentation zeigt nicht nur die Diagonalisierbarkeit, sondern erlaubt es, analytische Extremwert-Methoden zur Bestimmung von Eigenvektoren und Eigenwerten symmetrischer Matrizen einzusetzen. Numerisch bedeutsam ist, dass die Anwendung des Rayleigh-Quotienten auf eine gute Approximation xn an einen Eigenvektor x* eine sehr gute Approximation αn = R(xn) an α* = R(x*) liefert: Konvergiert (xn)n ∈ ℕ gegen x*, so konvergiert (αn)n ∈ ℕ quadratisch gegen α*, d. h. es gibt es ein c > 0, sodass
|αn − α*| < c ∥ xn − x* ∥2 für alle n.
Denn es gilt (Taylor-Entwicklung von R im Punkt x*)
αn − α* = R(xn) − R(x*) = 〈 grad(R)(x*), (xn − x*) 〉 + O(∥ xn − x* ∥2) = O(∥ xn − x* ∥2).
Eine Folge (xn)n ∈ ℕ, die gegen einen Eigenvektor konvergiert, kann durch folgende sog. Vektoriteration definiert werden. Für ein beliebiges x0 ∈ ℝn setzen wir
xn + 1 = Axn∥ Axn ∥ für alle n.
Man kann zeigen, dass (xn)n ∈ ℕ gegen einen Eigenvektor x* von A mit dem betragsmäßig größten Eigenwert α* konvergiert, falls 〈 x0, x* 〉 ≠ 0 und α* einfach ist. Wir illustrieren die Iteration (xn)n ∈ ℕ und die zugehörige Folge (αn)n ∈ ℕ, αn = R(xn), anhand von 2 × 2-Matrizen. Natürlich lassen sich die Eigenwerte und Eigenvektoren hier direkter bestimmen, aber das Verfahren funktioniert auch für sehr große Matrizen. Seien also
A = , x0 = (1, 0).
Eine Computer-Berechnung liefert (auf vier Stellen gerundet):
n | xn | αn = R(xn) |
1 | (0,2197, 0,9756) | 0,7734 |
5 | (0,6387, 0,7695) | 1,3706 |
10 | (0,7037, 0,7104) | 1,3852 |
15 | (0,6987, 0,7154) | 1,3853 |
Die (gerundeten) wirklichen Werte sind
x* = (0,6991, 0,7150), α* = 1,3853.
Für B = und x0 = (1, 0) erhalten wir dagegen:
n | xn | αn = R(xn) |
10 | (0,9766, −0,2152) | −0,2419 |
50 | (0,7219, −0,6920) | −1,1224 |
100 | (0,6289, −0,7775) | −1,1680 |
Dies weicht von den wirklichen Werten
x* = (−0,6162, 0,7876), α* = −1.1686
vergleichsweise weit ab, wobei die αn wieder deutlich besser sind als die xn. Der Grund ist, dass der Betrag des Quotienten q = |α*/β*| der beiden Eigenwerte α* > β* von B fast gleich 1 ist. Die Konvergenzgeschwindigkeit des Verfahrens ist, wie man in der numerischen linearen Algebra zeigt, O(qn) für xn und O(q2n) für αn.