Ausblick: Der Spektralsatz für symmetrische Matrizen

Der fundamentale Spektralsatz der linearen Algebra besagt, dass jede symmetrische Matrix A  ∈  ℝ^n × n eine Orthonormal-Basis aus Eigenvektoren mit reellen Eigenwerten besitzt: Es gibt x₁, …, x_n  ∈  ℝⁿ und λ₁, …, λ_n  ∈  ℝ mit

Ax_i = λ_ix_i, 〈 x_i, x_i 〉 = 1, 〈 x_i, x_j 〉 = 0 für alle i und alle j ≠ i.

Bezüglich dieser Basis ist A eine Diagonalmatrix. Man sagt deswegen auch, dass A orthogonal diagonalisierbar ist. Der Beweis kann in der linearen Algebra mit Hilfe des charakteristischen Polynoms und des Fundamentalsatzes der Algebra geführt werden. Wir geben zwei (verwandte) analytische Beweise, die den Fundamentalsatz nicht bemühen und wertvolle neue Einsichten mit sich bringen. Unser erstes Argument schließt an die Diskussion bedingter lokaler Extrema an:

Eigenwerte symmetrischer Matrizen à la Lagrange

Bei der Diskussion der Definitheit hatten wir das Werteverhalten von Funktionen f : ℝⁿ → ℝ der Form f (x) = 〈 x, A x 〉 mit einer symmetrischen Matrix A auf der Sphäre S^n − 1 untersucht. Wir wissen aufgrund der Kompaktheit von S^n − 1, dass bedingte Extremalstellen existieren. Die Multiplikatorregel liefert nun:

Satz (kleinster und größter Eigenwert einer symmetrischen Matrix)

Sei A  ∈  ℝ^n × n symmetrisch, und seien f, g : ℝⁿ → ℝ mit

f (x) = 〈 x, A x 〉, g(x) = ∥ x ∥² für alle x  ∈  ℝⁿ.

Weiter seien S^n − 1 = niv_g(1) und c, d  ∈  ℝ, x_c, x_d  ∈  S^n − 1 mit

f (x_c) = c = min(f|S^n − 1), f (x_d) = d = max(f|S^n − 1).

Dann ist c der kleinste und d der größte Eigenwert von A und x_c, x_d sind zugehörige normierte Eigenvektoren.

Beweis

Für alle x  ∈  S^n − 1 gilt:

grad(f)(x) = A x + A^t x = 2 Ax, grad(g)(x) = 2x.

Nach der Multiplikatorregel gibt es also λ, μ  ∈  ℝ mit

Ax_c = λx_c, Ax_d = μx_d.

Sind nun x  ∈  S^n − 1 und α  ∈  ℝ mit Ax = αx, so ist

α = α 〈 x, x 〉 = 〈 x, Ax 〉 = f (x)   ∈  [ c, d ].

Insbesondere gilt λ = c und μ = d.

Der Beweis zeigt, dass jede symmetrische Matrix A  ∈  ℝ^n × n mindestens einen reellen Eigenwert besitzt. Durch Bildung des orthogonalen Unterraums erhalten wir durch Induktion eine Orthonormalbasis aus Eigenvektoren von A. Der Fundamentalsatz der Algebra wird dabei nicht verwendet.

Gezeigt ist dieFunktion f : ℝ² → ℝ mit

f(x, y) = 〈 (x, y), A (x, y) 〉,

sowie der Einheitskreis S¹ und das Bild von S¹ unter f. Die beiden durch Pfeile dargestellten Vektoren bilden eine Orthonormalbasis des ℝ² aus Eigenvektoren von A. Sie verweisen auf lokale Maximal- und Minimalstellen von f|S¹, und die zugehörigen Werte von f sind die Eigenwerte von A.

Eigenwerte symmetrischer Matrizen à la Rayleigh

Der Einsatz der Lagrangeschen Multiplikator-Methode zur Eigenwert-Analyse symmetrischer Matrizen lässt sich vermeiden, wenn wir statt der Funktion f (x) = 〈 x, Ax 〉 den folgenden Quotienten betrachtet:

Definition (Rayleigh-Quotient)

Sei A  ∈  ℝ^n × n. Dann heißt R : ℝⁿ − { 0 } → ℝ mit

R(x) = ^{〈 x, Ax 〉}_{〈 x, x  〉} = ^{〈 x, Ax 〉}_{∥ x ∥²} für alle x  ∈  ℝⁿ, x ≠ 0,

der Rayleigh-Quotient von A.

Gilt Ax = αx für x ≠ 0, so ist R(x) = α. Der Rayleigh-Quotient liefert also den Eigenwert zu einem Eigenvektor. Weiter gilt die Homogenität

(+) R(αx) = R(x) für alle α  ∈  ℝ und x  ∈  ℝⁿ − { 0 }.

Sei S^n − 1 = { x  ∈  ℝⁿ | ∥ x ∥ = 1 }. Dann nimmt R|S^n − 1 ihre Extremwerte an. Nach (+) sind die Extrema von R|S^n − 1 globale Extrema und folglich Nullstellen des Gradienten. Wir nehmen nun an, dass A symmetrisch ist. Dann gilt:

grad(R)(x) = 2 ^{〈 x, x 〉 Ax − 〈 x, Ax 〉 x}_{〈 x, x 〉²} für alle x  ∈  ℝⁿ − { 0 }.

Ist nun x eine Extremalstelle von R, so gilt 〈 x, x 〉 Ax − 〈 x, Ax 〉 x = 0, also

Ax = ^{〈 x, Ax 〉}_{〈 x, x  〉} x = R(x) x,

sodass x ein Eigenvektor von A zum Eigenwert R(x) ist (und genauer ist R(x) der kleinste oder größte Eigenwert von A).

Der Rayleigh-Quotient

der symmetrischen

(2 x 2)-Matrix

A = $( \begin{matrix} 1 & 3 \\ 3 & - 1 \end{matrix} )$

für alle x mit

1/2 ≤ ∥ x ∥ ≤ 2.

Die Argumentation zeigt nicht nur die Diagonalisierbarkeit, sondern erlaubt es, analytische Extremwert-Methoden zur Bestimmung von Eigenvektoren und Eigenwerten symmetrischer Matrizen einzusetzen. Numerisch bedeutsam ist, dass die Anwendung des Rayleigh-Quotienten auf eine gute Approximation x_n an einen Eigenvektor x* eine sehr gute Approximation α_n = R(x_n) an α* = R(x*) liefert: Konvergiert (x_n)_n ∈ ℕ gegen x*, so konvergiert (α_n)_{n  ∈  ℕ} quadratisch gegen α*, d. h. es gibt es ein c > 0, sodass

|α_n − α*| < c ∥ x_n − x* ∥² für alle n.

Denn es gilt (Taylor-Entwicklung von R im Punkt x*)

α_n − α* = R(x_n) − R(x*) = 〈 grad(R)(x*), (x_n − x*) 〉 + O(∥ x_n − x* ∥²) = O(∥ x_n − x* ∥²).

Eine Folge (x_n)_n ∈ ℕ, die gegen einen Eigenvektor konvergiert, kann durch folgende sog. Vektoriteration definiert werden. Für ein beliebiges x₀  ∈  ℝⁿ setzen wir

x_n + 1 = ^Ax_n_{∥ Ax_n ∥} für alle n.

Man kann zeigen, dass (x_n)_n ∈ ℕ gegen einen Eigenvektor x* von A mit dem betragsmäßig größten Eigenwert α* konvergiert, falls 〈 x₀, x* 〉 ≠ 0 und α* einfach ist. Wir illustrieren die Iteration (x_n)_n ∈ ℕ und die zugehörige Folge (α_n)_{n  ∈  ℕ}, α_n = R(x_n), anhand von 2 × 2-Matrizen. Natürlich lassen sich die Eigenwerte und Eigenvektoren hier direkter bestimmen, aber das Verfahren funktioniert auch für sehr große Matrizen. Seien also

A = $( \begin{matrix} 0,25 & 1,11 \\ 1,11 & 0,3 \end{matrix} )$ , x₀ = (1, 0).

Eine Computer-Berechnung liefert (auf vier Stellen gerundet):

n	x_n	α_n = R(x_n)
1	(0,2197, 0,9756)	0,7734
5	(0,6387, 0,7695)	1,3706
10	(0,7037, 0,7104)	1,3852
15	(0,6987, 0,7154)	1,3853

Die (gerundeten) wirklichen Werte sind

x* = (0,6991, 0,7150), α* = 1,3853.

Für B = $( \begin{matrix} 0,25 & 1,11 \\ 1,11 & - 0,3 \end{matrix} )$ und x₀ = (1, 0) erhalten wir dagegen:

n	x_n	α_n = R(x_n)
10	(0,9766, −0,2152)	−0,2419
50	(0,7219, −0,6920)	−1,1224
100	(0,6289, −0,7775)	−1,1680

Dies weicht von den wirklichen Werten

x* = (−0,6162, 0,7876), α* = −1.1686

vergleichsweise weit ab, wobei die α_n wieder deutlich besser sind als die x_n. Der Grund ist, dass der Betrag des Quotienten q = |α*/β*| der beiden Eigenwerte α* > β* von B fast gleich 1 ist. Die Konvergenzgeschwindigkeit des Verfahrens ist, wie man in der numerischen linearen Algebra zeigt, O(qⁿ) für x_n und O(q²ⁿ) für α_n.