Inhalt

19.6 Normale Endomorphismen

19.6.1 Der Spektralsatz für normale Endomorphismen

Wir kommen nun im Kontext von euklidischen und unitären Vektorräumen noch einmal auf die adjungierte Abbildung zurück, die wir in Abschnitt 19.2.5 definiert hatten. Weil ein Skalarprodukt hermitesch und (weil positiv definit) nicht-ausgeartet ist, können wir diese Begriffsbildung für jeden endlichdimensionalen \(\mathbb K\)-Vektorraum \(V\) mit Skalarprodukt \((\cdot , \cdot )\) benutzen und erhalten also zu jedem Endomorphismus \(f\) von \(V\) einen eindeutig bestimmten Endomorphismus \(f^\ast \colon V\to V\), so dass

\[ (f(v), w) = (v, f^\ast (w))\quad \text{für alle}\ v,w\in V \]

gilt. Es gilt dann auch stets \((v, f(w)) = (f^\ast (v), w)\), oder mit anderen Worten: \((f^\ast )^\ast = f\).

Satz 19.69

Sei \(V\) ein \(\mathbb K\)-Vektorraum mit Skalarprodukt \(\beta \), und \(f\in \operatorname{End}_{\mathbb K}(V)\). Ist \(\mathscr B\) eine Orthonormalbasis von \(V\), so gilt für den zu \(f\) bezüglich \(\beta \) adjungierten Endomorphismus \(f^\ast \):

\[ M_{\mathscr B}^{\mathscr B}(f^\ast )=M_{\mathscr B}^{\mathscr B}(f)^\ast . \]

Beweis

Dass \(\mathscr B\) eine Orthonormalbasis ist, bedeutet, dass \(M_\mathscr B(\beta ) = E_n\) gilt. Deshalb folgt die Behauptung direkt aus der Formel, die wir für die Matrix \(M_{\mathscr B}^{\mathscr B}(f^\ast )\) ganz allgemein bewiesen haben:

\[ M_{\mathscr B}^{\mathscr B}(f^\ast ) = M_\mathscr B(\beta )^{-1} M_{\mathscr B}^{\mathscr B}(f)^\ast M_\mathscr B(\beta ). \]

Wir hatten in Abschnitt 19.2.5 definiert, dass ein Endomorphismus \(f\) selbstadjungiert heißen solle, wenn \(f=f^\ast \) gilt. Der Spektralsatz für selbstadjungierte Endomorphismen (Theorem 19.107) wird zeigen, dass jeder selbstadjungierte Endomorphismus diagonalisierbar ist und nur reelle Eigenwerte hat, und dass sogar eine Orthonormalbasis existiert, die aus Eigenvektoren besteht. Das liefert eine sehr konkrete geometrische Beschreibung dieser Eigenschaft!

In Termen von Matrizen können wir die Selbstadjungiertheit folgendermaßen beschreiben. (Und der gerade genannte Spektralsatz wird also auch zeigen, dass jede symmetrische Matrix in \(M_n(\mathbb R)\) diagonalisierbar ist.)

Satz 19.70

Sei \(V\) ein Vektorraum mit einem Skalarprodukt \(\beta \), \(\mathscr B\) eine Orthonormalbasis von \(V\) und \(f\in \operatorname{End}_{\mathbb K}(V)\). Dann sind äquivalent:

  1. der Endomorphismus \(f\) ist selbstadjungiert,

  2. es gilt \(M_{\mathscr B}^{\mathscr B}(f)=M_{\mathscr B}^{\mathscr B}(f)^\ast \), d.h. \(M_{\mathscr B}^{\mathscr B}(f)\) ist symmetrisch (im Fall \(\mathbb K=\mathbb R\)) bzw. hermitesch (im Fall \(\mathbb K=\mathbb C\)).

Beweis

Das folgt aus Satz 19.69.

Als sehr nützlich für das weitere Vorgehen wird sich der Begriff des normalen Endomorphismus erweisen, den wir nun definieren.

Definition 19.71
  1. Sei \(V\) ein \(\mathbb K\)-Vektorraum mit Skalarprodukt \((\cdot ,\cdot )\), und sei \(f\in \operatorname{End}_{\mathbb K}(V)\). Der Endomorphismus \(f\) heißt normal, wenn \(f\circ f^\ast = f^\ast \circ f\) gilt.

  2. Eine Matrix \(A\in M_{n}(\mathbb K)\) heißt normal, wenn \(AA^\ast =A^\ast A\) gilt.

Offenbar sind selbstadjungierte Endomorphismen normal. In Abschnitt 19.6.2 werden wir eine weitere wichtige Klasse von normalen Endomorphismen kennenlernen, die sogenannten Isometrien.

Lemma 19.72

Sei \(V\) ein \(\mathbb K\)-Vektorraum mit Skalarprodukt, und sei \(f\in \operatorname{End}_{\mathbb K}(V)\). Sei \(\mathscr B\) eine Orthonormalbasis von \(V\). Dann gilt: Der Endomorphismus \(f\) ist genau dann normal, wenn die Matrix \(M_{\mathscr B}^{\mathscr B}(f)\) normal ist.

Beweis

Das folgt aus Satz 19.69.

Der folgende Satz gibt eine weitere nützliche Charakterisierung der Eigenschaft, normal zu sein.

Satz 19.73

Sei \(V\) ein \(\mathbb K\)-Vektorraum mit Skalarprodukt \((\cdot ,\cdot )\), und sei \(f\in \operatorname{End}_{\mathbb K}(V)\). Dann sind äquivalent:

  1. der Endomorphismus \(f\) ist normal,

  2. für alle \(v,w\in V\) gilt:

    \[ (f(v), f(w)) = (f^\ast (v), f^\ast (w)). \]

Beweis

Wenn \(f\) normal ist, dann gilt

\[ (f(v), f(w)) = (v, f^\ast (f(w))) = (v, f(f^\ast (w)) = (f^\ast (v), f^\ast (w)) \]

für alle \(v, w\in V\).

Umgekehrt folgt aus \((f(v), f(w)) = (f^\ast (v), f^\ast (w))\), dass

\[ (v, f^\ast (f(w))) = (v, f(f^\ast (w))), \]

also

\[ (v, f^\ast (f(w)) -f(f^\ast (w))) = 0 \]

gilt. Haben wir das für alle \(v\in V\), so folgt \(f^\ast (f(w)) = f(f^\ast (w))\), weil ein Skalarprodukt nicht-ausgeartet ist.

Aus dem Satz folgt auch, dass für jeden normalen Endomorphismus \(f\colon V\to V\) und jedes \(v\in V\) gilt, dass \(\lVert f(v) \rVert = \lVert f^\ast (v)\rVert \) gilt. Mit Lemma 19.86 weiter unten folgt umgekehrt, dass aus dieser Eigenschaft die Aussage (ii) im vorherigen Satz und damit die Normalität von \(f\) folgt.

Korollar 19.74

Sei \(V\) ein \(\mathbb K\)-Vektorraum mit Skalarprodukt \((\cdot ,\cdot )\), und sei \(f\in \operatorname{End}_{\mathbb K}(V)\) normal.

  1. Es ist \(\operatorname{Ker}f = \operatorname{Ker}f^\ast \).

  2. Ein Vektor \(v\in V\) ist genau dann ein Eigenvektor von \(f\) zum Eigenwert \(\lambda \in \mathbb K\), wenn \(v\) ein Eigenvektor von \(f^\ast \) zum Eigenwert \(\overline{\lambda }\) ist. Insbesondere ist \(\lambda \in \mathbb K\) genau dann ein Eigenwert von \(f\), wenn \(\overline{\lambda }\) ein Eigenwert von \(f^\ast \) ist.

Beweis

Sei \(v\in \operatorname{Ker}(f)\). Aus dem vorherigen Satz folgt \(0 = (f(v), f(v)) = (f^\ast (v), f^\ast (v))\), also \(f^\ast (v) = 0\) und damit \(v\in \operatorname{Ker}(f^\ast )\). Die andere Inklusion folgt analog, oder indem man ausnutzt, dass \((f^\ast )^\ast = f\) ist.

Teil (2) folgt aus Teil (1), weil für jedes \(\lambda \in K\) mit \(f\) auch \(f-\lambda \, \operatorname{id}_V\) normal ist und \((f-\lambda \, \operatorname{id}_V)^\ast = f^\ast -\overline{\lambda }\, \operatorname{id}_V\) gilt (siehe Satz 19.38).

Theorem 19.75 Spektralsatz für normale Endomorphismen

Sei \(V\) ein endlichdimensionaler \(\mathbb K\)-Vektorraum mit Skalarprodukt \((\cdot ,\cdot )\), und sei \(f\in \operatorname{End}_{\mathbb K}(V)\) ein trigonalisierbarer Endomorphismus. Dann sind äquivalent:

  1. \(f\) ist normal.

  2. Es existiert eine Orthonormalbasis von \(V\), die aus Eigenvektoren von \(f\) besteht.

Insbesondere ist jeder trigonalisierbare normale Endomorphismus diagonalisierbar (über \(\mathbb K=\mathbb C\) also jeder normale Endomorphismus); der obige Satz ist aber noch präziser und gibt im trigonalisierbaren Fall eine auch geometrisch sehr greifbare Charakterisierung normaler Endomorphismen.

Die Menge der Eigenwerte eines Endomorphismus nennt man auch das Spektrum des Endomorphismus, und dementsprechend ist ein »Spektralsatz« (in der linearen Algebra) ein Ergebnis über die Diagonalisierbarkeit von Endomorphismen (unter geeigneten Voraussetzungen) bzw. über die Struktur der Menge der Eigenwerte und der Eigenräume. In der Funktionalanalysis verallgemeinert man Teile dieser Theorie auf die Situation von Endomorphismen von unendlichdimensionalen Vektorräumen (mit Skalarprodukten oder ähnlichen Strukturen) und formuliert (und beweist) dann analoge Aussagen, die auch als Spektralsätze bezeichnet werden.

Beweis

Es ist klar, dass (i) aus (ii) folgt, denn die Normalität können wir an der darstellenden Matrix von \(f\) bezüglich irgendeiner Orthonormalbasis von \(V\) überprüfen (Lemma 19.72).

Sei nun \(f\) normal (und \(V \ne 0\) – sonst ist nichts zu zeigen). Weil das charakteristische Polynom von \(f\) vollständig in Linearfaktoren zerfällt, hat \(f\) einen Eigenwert \(\lambda \in K\). Sei \(v\in V\) ein Eigenvektor zum Eigenwert \(\lambda \). Wir können \(v\) so skalieren, dass \(\lVert v\rVert = 1\).

Sei \(U = \langle v\rangle ^\perp \) das orthogonale Komplement des von \(v\) erzeugten Unterraums. Es gilt dann \(f(U) \subseteq U\). In der Tat, für \(u\in U\) haben wir \((f(u), v) = (u, f^\ast (v)) = (u, \overline{\lambda } v) = 0\), wobei wir Korollar 19.74 benutzt haben.

Also induziert \(f\) einen Endomorphismus von \(U\). Es gilt auch \(f^\ast (U)\subseteq U\), denn für \(u\in U\) ist \((v, f^\ast (u)) = (f(v), u) = (\lambda v, u) = 0\), also \(f^\ast (u)\perp v\), und das heißt genau \(f^\ast (u)\in U\). Weil natürlich \((f(u), u^\prime ) = (u, f^\ast (u^\prime ))\) für alle \(u, u^\prime \in U\) gilt, haben wir \((f_{|U})^\ast = (f^\ast )_{|U}\), und es folgt, dass \(f_{|U}\) ein normaler Endomorphismus von \(U\) ist.

Die Einschränkung \(f_{|U}\) ist außerdem wieder trigonalisierbar, denn ihr charakteristisches Polynom ist nach Lemma 16.5 ein Teiler von \(\operatorname{charpol}_f\) und zerfällt deshalb vollständig in Linearfaktoren.

Nach Induktionsvoraussetzung besitzt \(U\) eine Orthonormalbasis, die aus Eigenvektoren von \(f\) besteht. Zusammen mit dem Vektor \(v\) erhalten wir eine Orthonormalbasis von \(V\) aus Eigenvektoren von \(f\), und der Satz ist damit bewiesen.

Wir sehen insbesondere, dass Eigenvektoren eines trigonalisierbaren normalen Endomorphismus zu verschiedenen Eigenwerten zueinander orthogonal sind. Das gilt auch unabhängig von der Trigonalisierbarkeit, und wir halten diese Tatsache gesondert fest:

Lemma 19.76

Sei \(V\) ein endlichdimensionaler \(\mathbb K\)-Vektorraum mit Skalarprodukt \((\cdot , \cdot )\) und sei \(f\colon V\to V\) ein normaler Endomorphismus. Seien \(v, w\in V\) Eigenvektoren von \(f\) zu Eigenwerten \(\lambda \ne \mu \). Dann gilt \(v\perp w\).

Beweis

Es gilt

\[ (\lambda -\mu ) (v,w) = (\overline{\lambda } v,w) - (v, \mu w) = (f^\ast (v), w) - (v, f(w)) = 0, \]

also \(v\perp w\).

Ergänzung 19.77 Charakterisierungen normaler Endomorphismen

Wir geben noch einige weitere Charakterisierungen der Eigenschaft eines Endomorphismus, normal zu sein.

Sei zunächst \(V\) ein unitärer Vektorraum mit Skalarprodukt \((\cdot ,\cdot )\), und sei \(f\in \operatorname{End}_{\mathbb C}(V)\) ein Endomorphismus.

Lemma 19.78

Es gibt eindeutig bestimmte Endomorphismen \(f_h\), \(f_a\) von \(V\), so dass gilt

  1. \(f = f_h + f_a\),

  2. \(f_h^\ast = f_h\), d.h. \(f_h\) ist selbstadjungiert (man sagt auch: hermitesch),

  3. \(f_a^\ast = -f_a\), d.h. \(f_a\) ist »anti-selbstadjungiert« (oder: anti-hermitesch).

Beweis

Wir setzen

\[ f_h = \frac12 (f+f^\ast ),\quad f_a = \frac12 (f-f^\ast ). \]

Satz 19.79

Sei \(f\) ein Endomorphismus des unitären Vektorraums \(V\). Wir verwenden die Notation aus dem vorherigen Lemma. Es sind äquivalent:

  1. \(f\) ist normal,

  2. \(f_h\circ f_a = f_a\circ f_h\).

Beweis

Es ist \(f^\ast = (f_h+f_a)^\ast = f_h-f_a\). Daraus folgt die Behauptung durch eine leichte Rechnung.

Eine weitere schöne Charakterisierung im unitären Fall ist die Äquivalenz zwischen (i) und (ii) im folgenden Satz: Ein Endomorphismus \(f\) eines unitären Vektorraums ist genau dann normal, wenn für jeden \(f\)-invarianten Unterraum \(U\) auch \(U^\perp \) invariant unter \(f\) ist.

Satz 19.80

Sei \(f\) ein Endomorphismus eines unitären Vektorraums. Dann sind äquivalent:

  1. \(f\) ist normal,

  2. für jeden \(f\)-invarianten Untervektorraum \(U\subseteq V\) ist auch \(U^\perp \) ein \(f\)-invarianter Unterraum,

  3. jeder \(f\)-invariante Untervektorraum \(U\subseteq V\) ist \(f^\ast \)-invariant,

  4. es existiert ein Polynom \(p\in \mathbb C[X]\) mit \(f^\ast = p(f)\),

  5. für jedes \(g\in \operatorname{End}_\mathbb C(V)\) mit \(f\circ g=g\circ f\) gilt auch \(f^\ast \circ g=g\circ f^\ast \),

Beweisskizze

Die Implikationen (iv) \(\Rightarrow \) (v) \(\Rightarrow \) (i) und (iv) \(\Rightarrow \) (iii) sind einfach. Für jeden Endomorphismus \(f\) von \(V\) und jeden Unterraum \(U\subseteq V\) sind die Bedingungen \(f(U^\perp )\subseteq U^\perp \) und \(f^\ast (U)\subseteq U\) äquivalent; das lässt sich leicht nachrechnen. Daraus folgt die Äquivalenz von (ii) und (iii).

Unser obiger Beweis des Spektralsatzes für normale Endomorphismen zeigt, bei genauem Hinschauen, gerade, dass für jeden (trigonalisierbare) Endomorphismus mit der Eigenschaft (ii) eine Orthonormalbasis aus Eigenvektoren existiert. Das beweist (i) \(\Rightarrow \) (ii).

Schließlich folgt (i) \(\Rightarrow \) (iv) aus dem Spektralsatz: Sei \(\mathscr B\) eine Orthonormalbasis aus Eigenvektoren von \(f\), etwa \(M^\mathscr B_\mathscr B(f) = \operatorname{diag}(\lambda _1, \dots , \lambda _n)\). Dann gilt \(M^\mathscr B_\mathscr B(f^\ast ) = \operatorname{diag}(\overline{\lambda _1}, \dots , \overline{\lambda _n})\). Sei \(p\) ein Polynom mit \(p(\lambda _i) = \overline{\lambda _i}\) für alle \(i\). Dass ein solches Polynom existiert, ist ein Standardergebnis über Polynome, der sogenannte Interpolationssatz. Es gilt dann \(p(M^\mathscr B_\mathscr B(f)) = p(M^\mathscr B_\mathscr B(f^\ast ))\) und deshalb auch \(p(f)=p(f^\ast )\).

Im folgenden wollen wir ähnliche Charakterisierungen normaler Endomorphismen im Fall euklidischer Vektorräume besprechen.

Analog zur Zerlegung in einen selbstadjungierten und einen anti-selbstadjungierten Teil im unitären Fall haben wir im Fall eines euklidischen Vektorraums die folgende Zerlegung:

Lemma 19.81

Es gibt eindeutig bestimmte Endomorphismen \(f_s\), \(f_a\) von \(V\), so dass gilt

  1. \(f = f_s + f_a\),

  2. \(f_s^\ast = f_s\), d.h. \(f_s\) ist selbstadjungiert,

  3. \(f_a^\ast = -f_a\), d.h. \(f_a\) ist »anti-selbstadjungiert«.

Beweis

Wir setzen

\[ f_s = \frac12 (f+f^\ast ),\quad f_a = \frac12 (f-f^\ast ). \]

Satz 19.82

Sei \(f\) ein Endomorphismus des unitären Vektorraums \(V\). Wir verwenden die Notation aus dem vorherigen Lemma. Es sind äquivalent:

  1. \(f\) ist normal,

  2. \(f_s\circ f_a = f_a\circ f_s\).

Beweis

Es ist \(f^\ast = (f_s+f_a)^\ast = f_s-f_a\). Daraus folgt die Behauptung durch eine leichte Rechnung.

Den nächsten Satz formulieren wir zuerst für Matrizen, weil dafür die Äquivalenz zwischen (i) und (ii) leichter formulierbar ist.

Satz 19.83

Sei \(A\in M_n(\mathbb R)\). Dann sind äquivalent:

  1. \(A\) ist normal,

  2. \(A\) ist normal als Element von \(M_n(\mathbb C)\),

  3. es existiert ein Polynom \(p\in \mathbb R[X]\) mit \(A^\ast = p(A)\),

  4. für jedes \(B\in M_n(\mathbb R)\) mit \(AB = BA\) gilt auch \(A^\ast B=B A^\ast \).

(Da wir hier über \(\mathbb R\) arbeiten, könnte man natürlich überall \(A^\ast \) durch \(A^t\) ersetzen.)

Beweisskizze

Die Äquivalenz von (i) und (ii) ist klar, weil die Bedingung \(AA^\ast = A^\ast A\) in beiden Fällen dieselbe ist. Aus (ii) folgt mit Satz 19.80 auch (iv), und außerdem, dass ein Polynom \(p\in \mathbb C[X]\) mit \(A^\ast = p(A)\) existiert. Sei \(\overline{p}\) das Polynom, das aus \(p\) entsteht, indem alle Koeffizienten durch ihr komplex Konjugiertes ersetzt werden. Dann gilt \(\overline{p}(A) = \overline{p(A)} = \overline{A^\ast } = A^\ast \) (wobei wir für eine Matrix \(B\) mit \(\overline{B}\) die Matrix bezeichnen, die aus \(B\) hervorgeht, wenn auf alle Einträge die komplexe Konjugation angewendet wird). Es ist dann \(p+\overline{p}\in \mathbb R[X]\) und \(A^\ast = \frac12 (p+\overline{p})(A)\) und es folgt (iii).

Die Implikationen (iii) \(\Rightarrow \) (iv) \(\Rightarrow \) (i) sind einfach.

Mit der »Komplexifizierung« eines euklidischen Vektorraums (siehe Abschnitt 18.5.3, Ergänzung 19.68) lässt sich Punkt (ii) übertragen in die Vektorraumsprache.

Sei \(V\) ein euklidischer Vektorraum mit Skalarprodukt \(\beta \), und sei \(f\in \operatorname{End}_{\mathbb C}(V)\) ein Endomorphismus. Sei \(V_\mathbb C= V\otimes _\mathbb R\mathbb C\), sei \(f_\mathbb C\colon V_\mathbb C\to V_\mathbb C\), \(f(v\otimes a) = f(v)\otimes a\) der von \(f\) induzierte Endomorphismus von \(V_\mathbb C\). Sei \(\beta _\mathbb C\) wie in Ergänzung 19.68 das von \(\beta \) induzierte Skalarprodukt auf \(V_\mathbb C\).

Satz 19.84

Mit diesen Notationen sind äquivalent:

  1. \(f\) ist normal,

  2. \(f_\mathbb C\) ist ein normaler Endomorphismus des unitären Vektorraums \(V_\mathbb C\),

  3. es existiert ein Polynom \(p\in \mathbb R[X]\) mit \(f^\ast = p(f)\),

  4. für jedes \(g\in \operatorname{End}_\mathbb R(V)\) mit \(f\circ g=g\circ f\) gilt auch \(f^\ast \circ g=g\circ f^\ast \),

Beweis

Sobald die im Satz erwähnten Objekte erstmal konstruiert sind, folgt die Äquivalenz unmittelbar aus dem vorherigen Satz, indem man eine Basis \(\mathscr B\) von \(V\) wählt und \(A=M^\mathscr B_\mathscr B(f)\) setzt.

Die Äquivalenz von (i), (iii) und (iv) kann man auch ohne die Konstruktion der Komplexifizierung aus der Matrixversion des Satzes folgern.

Wenn \(f\) normal ist, dann gelten auch im euklidischen Fall die folgenden beiden Aussagen (vergleiche Satz 19.80)

  • für jeden \(f\)-invarianten Untervektorraum \(U\subseteq V\) ist auch \(U^\perp \) ein \(f\)-invarianter Unterraum,

  • jeder \(f\)-invariante Untervektorraum \(U\subseteq V\) ist \(f^\ast \)-invariant,

aber anders als im unitären Fall implizieren diese Eigenschaften nicht die Normalität.

Ergänzung 19.85 Alternative Beweisstrategie für den Spektralsatz

Sei \(V\) ein endlichdimensionaler \(\mathbb K\)-Vektorraum mit einem Skalarprodukt \((\cdot , \cdot )\).

Ein etwas anderer Weg, den Spektralsatz zu beweisen, besteht aus den folgenden Schritten:

  1. Ist \(f\in \operatorname{End}_K(V)\) selbstadjungiert und nilpotent, so ist \(f=0\). (Für jeden selbstadjungierten Endomorphismus \(g\) gilt \(\operatorname{Ker}(g) \perp \operatorname{Im}(g)\), also \((v,w)=0\) für alle \(v\in \operatorname{Ker}(g)\), \(w\in \operatorname{Im}(g)\), wie man unmittelbar nachrechnet, und insbesondere \(\operatorname{Ker}(g)\cap \operatorname{Im}(g) = 0\). Der einzige nilpotente Endomorphismus mit dieser Eigenschaft ist die Nullabbildung.)

  2. Ist \(f\in \operatorname{End}_K(V)\) normal und nilpotent, so ist \(f=0\) (wende Teil (1) auf \(f\circ f^\ast \) an; diese Abbildung ist jedenfalls selbstadjungiert, und ist für normales nilpotentes \(f\) ebenfalls nilpotent).

  3. Aus Teil (2) folgt: Ist \(f\in End_K(V)\) normal und \(\lambda \in \mathbb K\) ein Eigenwert von \(f\), so stimmen der Eigenraum und der verallgemeinerte Eigenraum von \(f\) zum Eigenwert \(\lambda \) überein, denn die Einschränkung von \(f-\lambda \operatorname{id}\) auf den verallgemeinerten Eigenraum ist normal (beachte, dass dieser verallgemeinerte Eigenraum \(f^\ast \)-invariant ist) und nilpotent, also nach (2) die Nullabbildung. Es folgt, dass der verallgemeinerte Eigenraum der Kern von \(f-\lambda \operatorname{id}\), also der Eigenraum von \(f\) zum Eigenwert \(\lambda \) ist.

    Ist \(f\) trigonalisierbar, so ist \(V\) die Summe der verallgemeinerten Eigenräume von \(f\). Ist \(f\) zusätzlich normal, so folgt also, dass \(f\) diagonalisierbar ist.

  4. Sind \(v, w\in V\) Eigenvektoren von \(f\) zu verschiedenen Eigenwerten \(\lambda \ne \mu \), so gilt nach Lemma 19.76 \(v\perp w\). Die Zerlegung von \(V\) als direkte Summe der Eigenräume von \(f\) ist also eine Zerlegung in »zueinander orthogonale Unterräume«. Setzen wir eine Basis von \(V\) aus Orthonormalbasen der Eigenräume zusammen, so erhalten wir eine Orthonormalbasis von \(V\), die aus Eigenvektoren von \(f\) besteht. Damit ist der Spektralsatz vollständig bewiesen.

19.6.2 Isometrien

Das folgende Lemma zeigt, dass ein Skalarprodukt auf einem euklidischen oder unitären Vektorraum durch die zugehörige Norm bereits eindeutig festgelegt ist. Vergleiche auch Ergänzung 19.58.

Lemma 19.86 Polarisationsformel
  1. Sei \(V\) ein euklidischer Vektorraum mit Skalarprodukt \((\cdot , \cdot )\) und zugehöriger Norm \(\lVert \cdot \rVert \). Dann gilt

    \[ (v,w) = \frac12\left( \lVert v+w\rVert ^2 - \lVert v\rVert ^2 - \lVert w \rVert ^2\right) = \frac14 \left(\lVert v+w\rVert ^2 - \lVert v-w\rVert ^2 \right). \]
  2. Sei \(V\) ein unitärer Vektorraum mit Skalarprodukt \((\cdot , \cdot )\) und zugehöriger Norm \(\lVert \cdot \rVert \). Dann gilt

    \[ (v,w) = \frac14 \left(\lVert v+w\rVert ^2 - \lVert v-w\rVert ^2 \right) -\frac i4 \left(\lVert v+iw\rVert ^2 - \lVert v-iw\rVert ^2 \right). \]

Beweis

Man rechnet diese Formel anhand der Definition \(\lVert v\rVert =\sqrt{(v,v)}\) unmittelbar nach. (In Abschnitt 19.1 haben wir die mittlere Formel von Teil (1) benutzt, um das Standardskalarprodukt auf \(\mathbb R^n\) zu definieren bzw. die übliche Formel zu motivieren.)

Satz 19.87

Seien \(V\) und \(W\) Vektorräume über \(\mathbb K\). Sei \((\cdot , \cdot )\) ein Skalarprodukt auf \(V\) und \(\langle \cdot ,\cdot \rangle \) ein Skalarprodukt auf \(W\). Für einen Homomorphismus \(f\colon V\rightarrow W\) sind äquivalent:

  1. Für alle \(v,v’\in V\) gilt \((v,v’) = \langle f(v), f(v’)\rangle \).

  2. Für alle \(v\in V\) gilt \(\lVert v\rVert = \lVert f(v)\rVert \). (Wir bezeichnen sowohl die Norm auf \(V\), die dem Skalarprodukt \((\cdot , \cdot )\) zugeordnet ist, als auch die Norm zu \(\langle \cdot ,\cdot \rangle \) auf \(W\) mit \(\lVert \cdot \rVert \).)

  3. Für jede Orthonormalbasis \(\mathscr B =(b_1,\dots , b_n)\) von \(V\) ist \((f(b_1),\dots , f(b_n))\) eine Orthonormalbasis von \(\operatorname{Im}f\) (mit der Einschränkung von \(\langle \cdot , \cdot \rangle \) als Skalarprodukt).

  4. Es existiert eine Orthonormalbasis \(\mathscr B =(b_1,\dots , b_n)\) von \(V\), so dass \((f(b_1),\dots , f(b_n))\) eine Orthonormalbasis von \(\operatorname{Im}f\) (mit der Einschränkung von \(\langle \cdot , \cdot \rangle \) als Skalarprodukt) ist.

Hat \(f\) diese Eigenschaften, so ist \(f\) injektiv. Ist \(f\) ein Isomorphismus mit diesem Eigenschaften, so nennt man \(f\) eine Isometrie.

Ist speziell \(V=W\) und \((\cdot , \cdot ) = \langle \cdot , \cdot \rangle \), so sind die obigen Aussagen äquivalent dazu, dass \(f\) ein Isomorphismus mit der Eigenschaft \(f^{-1} = f^\ast \) ist.

Beweis

Die Implikationen (i) \(\Rightarrow \) (ii), (i) \(\Rightarrow \) (iii) \(\Rightarrow \) (iv) \(\Rightarrow \) (i) sind einfach zu zeigen. Um (iii) zu zeigen, beachte man, dass ein Orthogonalsystem von Vektoren immer linear unabhängig ist (Lemma 19.61).

Dass (i) aus (ii) folgt, erhalten wir aus Lemma 19.86. Damit ist die Äquivalenz aller Aussagen klar. Hat \(f\) diese Eigenschaften und ist \(v\in \operatorname{Ker}(f)\), so gilt \(\lVert v\rVert = \lVert f(v)\rVert = 0\), also \(v=0\). Mithin ist \(f\) injektiv.

Um den Zusatz zu beweisen, betrachten wir nun den Fall \(V=W\), \((\cdot , \cdot ) = \langle \cdot , \cdot \rangle \). Wenn \(f\) die Bedingungen des Lemmas erfüllt, ist \(f\) ein Isomorphismus, und wir können in (i) deshalb \(v^\prime = f^{-1}(w)\) einsetzen. Dann liest sich die Bedingung als

\[ (v,f^{-1}(w)) = (f(v), w). \]

Das bedeutet genau, dass \(f^\ast = f^{-1}\) gilt.

Ist andererseits \(f\) ein Isomorphismus mit \(f^\ast = f^{-1}\) so können wir das Argument herumdrehen und Eigenschaft (i) folgern.

Bemerkung 19.88

Mit dem Begriff der Isometrie können wir das Ergebnis, dass jeder endlichdimensionale \(\mathbb K\)-Vektorraum \(V\) mit Skalarprodukt eine Orthonormalbasis besitzt, umformulieren als den folgenden Satz: Ist \(V\) ein endlichdimensionaler \(\mathbb K\)-Vektorraum (von Dimension \(n\)) mit einem Skalarprodukt, dann existiert eine Isometrie zwischen \(V\) und \(\mathbb K^n\) mit dem Standardskalarprodukt.

Dementsprechend gibt es zwischen zwei \(\mathbb K\)-Vektorräumen \(V\) und \(W\) mit Skalarprodukten genau dann eine Isometrie, wenn \(\dim V =\dim W\) gilt.

Genauso wie jeder endlichdimensionale Vektorraum isomorph ist zu einem Standardvektorraum, ist also jeder endlichdimensionale \(\mathbb K\)-Vektorraum isometrisch zu einem Standardvektorraum mit dem Standardskalarprodukt. Es gibt also bis auf Isometrie in jeder Dimension genau einen Vektorraum mit Skalarprodukt.

Üblicherweise nennt man Endomorphismen \(V\to V\), die Isometrien sind, im Fall des Grundkörpers \(\mathbb R\) orthogonale, im Fall des Grundkörpers \(\mathbb C\) unitäre Abbildungen.

Definition 19.89
  1. Sei \(V\) ein euklidischer Vektorraum. Eine Isometrie von \(V\) heißt orthogonale Abbildung.

  2. Sei \(V\) ein unitärer Vektorraum. Eine Isometrie von \(V\) heißt unitäre Abbildung.

Die Verkettung von Isometrien ist eine Isometrie, und die Umkehrabbildung einer Isometrie ist eine Isometrie; beides prüft man unmittelbar nach. Offenbar ist auch die identische Abbildung eine Isometrie für jedes Skalarprodukt. Also bilden die Isometrien eines Vektorraums mit Skalarprodukt eine Gruppe. Auch für diese Gruppe differenziert man zwischen dem reellen und dem komplexen Fall.

Definition 19.90
  1. Sei \(V\) ein euklidischer Vektorraum mit Skalarprodukt \(\beta \). Die orthogonalen Abbildungen bilden eine Untergruppe der Gruppe \(\operatorname{Aut}_\mathbb R(V)\), die wir mit \(O(V)\) bezeichnen (oder mit \(O(V, \beta )\), um die Abhängigkeit von \(\beta \) explizit zu machen), und die orthogonale Gruppe des euklidischen Vektorraums \(V\) nennen.

  2. Sei \(V\) ein unitärer Vektorraum mit Skalarprodukt \(\beta \). Die unitären Abbildungen bilden eine Untergruppe der Gruppe \(\operatorname{Aut}_\mathbb C(V)\), die wir mit \(U(V)\) bezeichnen (oder mit \(U(V, \beta )\), um die Abhängigkeit von \(\beta \) explizit zu machen), und die unitäre Gruppe des unitären Vektorraums \(V\) nennen.

Wie üblich können wir die Eigenschaften orthogonal und unitär auf Matrizen übertragen.

Definition 19.91
  1. Eine Matrix \(A\in GL_n(\mathbb R)\) heißt orthogonal, falls \(A^{-1}=A^t\).

  2. Eine Matrix \(A\in GL_n(\mathbb C)\) heißt unitär, falls \(A^{-1}=A^\ast \).

Es gilt dann also:

Lemma 19.92

Sei \(V\) ein euklidischer/unitärer Vektorraum und \(\mathscr B\) eine Orthonormalbasis. Sei \(f\colon V\rightarrow V\) ein Automorphismus. Dann sind äquivalent:

  1. \(f\) ist orthogonal/unitär,

  2. \(M_{\mathscr B}^{\mathscr B}(f)\) ist orthogonal/unitär.

Beweis

Wir haben in Satz 19.87 gesehen, dass (i) dazu äquivalent ist, dass \(f^{-1} = f^\ast \) gilt. Weil \(\mathscr B\) eine Orthonormalbasis ist, gilt \(M_{\mathscr B}^{\mathscr B}(f^\ast ) = M_{\mathscr B}^{\mathscr B}(f)^\ast \). Damit folgt die Äquivalenz zu (ii).

Mit dem Lemma oder durch eine direkte Rechnung sieht man, dass Produkte von orthogonalen/unitären Matrizen wieder orthogonal/unitär sind, dass das Inverse einer orthogonalen/unitären Matrix wieder orthogonalen/unitär ist, und dass die Einheitsmatrix diese Eigenschaft hat. Deshalb bilden die orthogonalen/unitären Matrizen eine Gruppe.

Definition 19.93
  1. Die Teilmenge \(O(n)\subset GL_n(\mathbb R)\) der orthogonalen Matrizen ist eine Untergruppe und heißt die orthogonale Gruppe.

  2. Die Teilmenge \(U(n)\subset GL_n(\mathbb C)\) der unitären Matrizen ist eine Untergruppe und heißt die unitäre Gruppe.

Mittels der üblichen Entsprechung von Endomorphismen von \(\mathbb K^n\) und Matrizen (den darstellenden Matrizen bezüglich der Standardbasis) entspricht dann die orthogonale/unitäre Gruppe des Standardvektorraums \(\mathbb K^n\) mit dem Standardskalarprodukt gerade der Gruppe \(O(n)\) bzw. \(U(n)\).

Offenbar sind orthogonale und unitäre Abbildungen und Matrizen normal.

Beispiel 19.94
  1. Wir betrachen als Beispiel den \(\mathbb R\)-Vektorraum \(\mathbb R^2\) mit dem Standardskalarprodukt. Sei \(A\in O(2)\). Wenn \(\det (A)=1\) ist, nennen wir \(A\) eine Drehmatrix und den zugehörigen Automorphismus von \(A\) eine Drehung. Vergleiche Ergänzung I.7.60, Ergänzung I.9.24, Satz I.11.27.

    Wir schreiben \(A= \begin{pmatrix} a & c \\ b & d \end{pmatrix}\) mit \(a,b,c,d\in \mathbb R\). Es gilt dann \(A^t = A^{-1}\), das bedeutet

    \[ \begin{pmatrix} a & b \\ c & d \end{pmatrix} = \begin{pmatrix} d & -c \\ -b & a \end{pmatrix}, \]

    also \(d = a\), \(c = -b\), und wir erhalten

    \[ A = \begin{pmatrix} a & -b \\ b & a \end{pmatrix}. \]

    Die Bedingung \(\det (A) = 1\) bedeutet \(a^2+b^2 = 1\). (Geometrisch bedeutet das \(\lVert Ae_1\rVert = 1\), also einfach, dass das Bild von \(e_1\) unter \(A\) auf dem Einheitskreis liegt. Da \(A\) orthogonal, also abstandserhaltend ist, ist klar, dass das gelten muss.)

    Sei \(\vartheta \in [0, 2\pi )\) die eindeutig bestimmte Zahl mit \(\cos (\vartheta ) = a\), \(\sin (\vartheta ) = b\). Es gilt dann

    \[ A = \rho _\vartheta := \begin{pmatrix} \cos (\vartheta ) & -\sin (\vartheta ) \\ \sin (\vartheta ) & \cos (\vartheta ) \end{pmatrix} \]

    und wir nennen \(A\) die Drehung um den Winkel \(\vartheta \) (gegen den Uhrzeigersinn).

    Ist \(0\le \vartheta \le \pi \), so ist \(\vartheta \) gleich dem Winkel zwischen \(e_1\) und \(Ae_1\). Ist \(\pi {\lt} \vartheta {\lt} 2\pi \), so ist der Winkel zwischen \(e_1\) und \(Ae_1\) gleich \(2\pi -\vartheta \). (Man beachte, dass der Winkel zwischen zwei Vektoren \(v, w\) immer zwischen \(0\) und \(\pi \) liegt – dieser Winkel ist »der kleinere« der beiden Winkel, die von \(v\) und \(w\) eingeschlossen werden, unabhängig von der Reihenfolge von \(v\) und \(w\).)

    Für \(\vartheta , \eta \in [0, 2\pi )\) sind die Matrizen \(\rho _\vartheta \) und \(\rho _\eta \) genau dann konjugiert, wenn \(\vartheta = \eta \) oder \(\vartheta = 2\pi -\eta \) gilt. Die Matrix \(\rho _\vartheta \) ist genau dann diagonalisierbar (über \(\mathbb R\)), wenn sie eine Diagonalmatrix ist, und das ist genau für \(\vartheta = 0\) und \(\vartheta =\pi \) der Fall: Es ist \(\rho _0=E_2\), \(\rho _\pi = -E_2\).

    Sei nun \(\det (A) = -1\). In diesem Fall folgt ähnlich wie oben, dass

    \[ A = \begin{pmatrix} a & b \\ b & -a \end{pmatrix} \]

    mit \(a,b\in \mathbb R\), \(a^2+b^2 = 1\) gilt. Das charakteristische Polynom von \(A\) ist dann \(X^2 -1\), wie man unmittelbar nachrechnet. Die Matrix \(A\) hat also die Eigenwerte \(1\) und \(-1\). Die Eigenräume zu den beiden Eigenwerten sind zueinander orthogonal. Das folgt aus dem Spektralsatz für normale Endomorphismen; in diesem Fall genügt aber auch eine einfache direkte Rechnung. Wir nennen \(A\) die Spiegelung an der Gerade \(V_1\) (dem Eigenraum von \(A\) zum Eigenwert \(1\)).

  2. Als ein weiteres Beispiel betrachten wir \(A\in O(3)\) mit \(\det (A) = 1\), also eine »Drehung« des euklidischen Vektorraums \(\mathbb R^3\) mit dem Standardskalarprodukt.

    Wir wollen zuerst zeigen, dass \(A\) einen Eigenvektor zum Eigenwert \(1\) besitzt. Es gilt

    \[ \det (A-E_3) = \det (A-AA^t) = \det (A)\det (E_3-A^t) = \det (E_3-A) = -\det (A-E_3), \]

    also \(\det (A-E_3) = 0\), wie gewünscht. Sei \(v\in \mathbb R^3\) ein Eigenvektor zum Eigenwert \(1\), das heißt \(Av=v\). Der Untervektorraum \(U = \langle v\rangle ^\perp \) ist dann \(A\)-invariant.

    Sei \(f\colon U\to U\) der von \(A\) induzierte Endomorphismus von \(U\). Die Determinante von \(A\) auf \(V = \langle v\rangle \oplus U\) ist das Produkt des Eigenwerts \(1\) von \(v\) und von \(\det (f)\). Es folgt \(\det (f) = 1\) und genauer, dass \(f\in O(U)\) ein Element der orthogonalen Gruppe von \(U\) ist, wenn wir \(U\) mit dem Skalarprodukt versehen, das durch Einschränkung des Standardskalarprodukts auf \(U\) gegeben ist. Wenn wir eine Orthonormalbasis \(b_2, b_3\) von \(U\) wählen und ohne Einschränkung \(\lVert v\rVert = 1\) annehmen, erhalten wir mit \(b_1:=v, b_2, b_3\) eine Orthonormalbasis von \(\mathbb R^3\), bezüglich derer \(A\) die darstellende Matrix \(\operatorname{diag}(1, \rho _\vartheta )\) für ein \(\vartheta \in [0, 2\pi )\) hat. Wenn man gegebenenfalls \(b_2\) und \(b_3\) vertauscht, kann man erreichen, dass \(\vartheta \in [0, \pi ]\) liegt. Siehe auch Satz 19.99 weiter unten.

Satz 19.95

Sei \(V\) ein euklidischer/unitärer Vektorraum und \(\mathscr B\) eine Orthonormalbasis. Sei \(\mathscr C\) eine weitere Basis von \(V\). Dann gilt: \(\mathscr C\) ist genau dann eine Orthonormalbasis, wenn die Basiswechselmatrix \(M_{\mathscr C}^{\mathscr B}\) orthogonal bzw. unitär ist.

Beweis

Wir schreiben \(\mathscr B=(b_1,\dots , b_n)\), \(\mathscr C= (c_1, \dots , c_n)\). Sei \(f\colon V\to V\) der Endomorphismus, der gegeben ist durch \(f(b_i)=c_i\), \(i=1,\dots , n\). Dann ist \(M^\mathscr C_\mathscr B= M^\mathscr B_\mathscr B(f)\), denn die \(j\)-te Spalte ist in beiden Fällen der Koordinatenvektor von \(c_j\) bezüglich \(\mathscr B\).

Diese Matrix ist genau dann orthogonal bzw. unitär, wenn \(f\) eine Isometrie ist, und das ist dazu äquivalent, dass mit \(\mathscr B\) auch \(\mathscr C\) eine Orthonormalbasis ist.

Satz 19.96

Sei \(V\) ein unitärer Vektorraum und sei \(f\in \operatorname{End}\mathbb C(V)\). Dann sind äquivalent:

  1. \(f\) ist eine Isometrie,

  2. es existiert eine Orthonormalbasis von \(V\), die aus Eigenvektoren von \(f\) besteht, und für alle Eigenwerte \(\lambda \) von \(f\) ist \(\lvert \lambda \rvert =1\).

Beweis

Sei \(f\) eine Isometrie. Nach dem Spektralsatz für normale Endomorphismen existiert eine Orthonormalbasis von \(V\), die aus Eigenvektoren von \(f\) besteht. Weil \(f\) eine Isometrie ist, d.h. \(f^\ast = f^{-1}\) gilt, gilt \(\overline{\lambda }=\lambda ^{-1}\), also \(\lambda \overline{\lambda } = 1\) für alle Eigenwerte \(\lambda \) von \(f\). Mit anderen Worten: Alle Eigenwerte von \(f\) haben Absolutbetrag \(1\).

Die Umkehrung ist klar.

Für euklidische Vektorräume ist die Situation etwas komplizierter, weil nicht jede orthogonale Abbildung diagonalisierbar ist. Jedenfalls müssen auch in diesem Fall alle Eigenwerte Absolutbetrag \(1\) haben.

Lemma 19.97

Seien \(V\) ein euklidischer Vektorraum und \(f\) ein orthogonaler Endomorphismus von \(V\). Ist \(\lambda \in \mathbb R\) ein Eigenwert von \(f\), so gilt \(\lambda = 1\) oder \(\lambda = -1\).

Beweis

Sei \(\lVert \cdot \rVert \) die von dem Skalarprodukt auf \(V\) induzierte Norm. Sei \(v\) ein Eigenvektor von \(f\) zum Eigenwert \(\lambda \). Es gilt dann

\[ \lVert v\rVert = \lVert f(v)\rVert = \lVert \lambda v\rVert = \lvert \lambda \rvert \lVert v\rVert , \]

das bedeutet \(\lvert \lambda \rvert = 1\).

Wir wollen nun auch für Isometrien von euklidischen Vektorräumen eine »Normalform« angeben.

Theorem 19.98 Normalform für Isometrien eines euklidischen Vektorraums

Sei \(V\) ein euklidischer Vektorraum mit Skalarprodukt \((\cdot , \cdot )\). Sei \(f\colon V\to V\) eine Isometrie. Dann existiert eine Orthonormalbasis \(\mathscr B\) von \(V\), so dass \(M^\mathscr B_\mathscr B(f)\) eine Blockdiagonalmatrix

\[ M^\mathscr B_\mathscr B(f) = \operatorname{diag}(A_1, \dots , A_m) \]

mit Blöcken der folgenden Form ist:

  • (Größe 1) \((1) \in M_1(\mathbb R)\),

  • (Größe 1) \((-1) \in M_1(\mathbb R)\),

  • (Größe 2) \(A \in M_2(\mathbb R)\) eine Drehmatrix \(\rho _\vartheta =\begin{pmatrix} \cos (\vartheta ) & -\sin (\vartheta ) \\ \sin (\vartheta ) & \cos (\vartheta ) \end{pmatrix}\) zu einem Winkel \(\vartheta \in (0, \pi )\).

Die Anzahl der Einträge, die gleich \(1\) sind, sowie die Anzahl der Einträge, die gleich \(-1\) sind, sind unabhängig von der Wahl der Basis. Die Anzahl der Blöcke der Größe \(2\) sowie die Drehwinkel, die in diesen Blöcken auftreten, sind (bis auf die Reihenfolge) unabhängig von der Wahl der Basis.

Beweis (Eindeutigkeit)

Die Eindeutigkeit ist nicht schwer zu zeigen, denn das charakteristische Polynom einer Blockdiagonalmatrix der angegebenen Form mit \(r\) Blöcken der ersten Form, \(s\) Blöcken der zweiten Form und Blöcken der Größe \(2\) zu den Drehwinkeln \(\vartheta _1,\dots , \vartheta _t\) ist

\[ (X-1)^r (X+1)^s (X^2-2\cos (\vartheta _1)X + 1) \cdot \cdots \cdot (X^2-2\cos (\vartheta _t)X + 1). \]

Wegen \(0 {\lt} \vartheta _i {\lt} \pi \) sind die Polynome der Form \(X^2-2\cos (\vartheta _1)X + 1\) irreduzibel in \(\mathbb R[X]\). Es folgt, dass wir die Anzahlen und Gestalt der Blöcke am charakteristischen Polynom von \(f\) vollständig ablesen können, und damit haben wir die Eindeutigkeitsaussage des Satzes bewiesen.

Die Existenz der angegebenen Darstellung ist schwieriger zu beweisen. Wir geben weiter unten in diesem Abschnitt einen möglichen Beweis (Ergänzung 19.100), in dem die Aussage direkt auf den Spektralsatz für normale Endomorphismen zurückgeführt wird, und in Abschnitt 19.7 einen weiteren Beweis, der vielleicht weniger geradlinig ist (es wird gewissermaßen ein Trick benutzt), der aber dafür deutlich kürzer ist, wenn man einmal den Spektralsatz für selbstadjungierte Abbildungen bewiesen hat (was wir ohnehin machen werden, aber eben erst in Abschnitt 19.7).

In der Matrixversion lautet der Satz wie folgt.

Satz 19.99 Normalform für orthogonale Matrizen

Sei \(A\in O(n)\). Dann existiert eine Matrix \(S\in O(n)\), so dass \(SAS^{-1}\) eine Blockdiagonalmatrix

\[ SAS^{-1} = \operatorname{diag}(A_1, \dots , A_m) \]

mit Blöcken der folgenden Form ist:

  • (Größe 1) \((1) \in M_1(\mathbb R)\),

  • (Größe 1) \((-1) \in M_1(\mathbb R)\),

  • (Größe 2) \(A \in M_2(\mathbb R)\) eine Drehmatrix \(\rho _\vartheta =\begin{pmatrix} \cos (\vartheta ) & -\sin (\vartheta ) \\ \sin (\vartheta ) & \cos (\vartheta ) \end{pmatrix}\) zu einem Winkel \(\vartheta \in (0, \pi )\).

Die Anzahl der Einträge, die gleich \(1\) sind, sowie die Anzahl der Einträge, die gleich \(-1\) sind, sind unabhängig von der Wahl der Matrix \(S\). Die Anzahl der Blöcke der Größe \(2\) sowie die Drehwinkel, die in diesen Blöcken auftreten, sind (bis auf die Reihenfolge) unabhängig von der Wahl von \(S\).

Es ist äquivalent, diese Form oder die vorherige zu beweisen, da wir jeder orthogonalen Abbildung durch Wahl einer Orthonormalbasis eine orthogonale Matrix zuordnen können. Wir werden nun einen Beweis erklären, der ausnutzt, dass eine orthogonale Matrix \(A\in O(n)\), als Matrix in \(M_n(\mathbb C)\) aufgefasst, in \(U(n)\) liegt, also unitär ist, und wir demzufolge Satz 19.96 anwenden können.

Ergänzung 19.100 Beweis der Normalform für orthogonale Matrizen

Beispiel 19.101

Wir betrachten noch einmal das Beispiel einer Drehmatrix

\[ A = \begin{pmatrix} a & -b \\ b & a \end{pmatrix} = \begin{pmatrix} \cos (\vartheta ) & -\sin (\vartheta ) \\ \sin (\vartheta ) & \cos (\vartheta ) \end{pmatrix} \]

mit \(a=\cos (\vartheta ),b=\sin (\vartheta )\in \mathbb R\), \(a^2+b^2 = 1\), \(\vartheta \in [0, 2\pi )\). Siehe Beispiel 19.94 (1).

Das charakteristische Polynom von \(A\) ist

\[ \operatorname{charpol}_A = X^2 - 2a X + 1 = X^2 - 2\cos (\vartheta )X + 1, \]

seine Nullstellen in \(\mathbb C\) sind \(\lambda := a-ib\) und \(\overline{\lambda } = a+ib\). Die zugehörigen Eigenräume sind

\[ V_{\lambda } = \left\langle \begin{pmatrix} 1 \\ i \end{pmatrix} \right\rangle ,\qquad V_{\overline{\lambda }} = \left\langle \begin{pmatrix} 1 \\ -i \end{pmatrix} \right\rangle ,\qquad \]

wie man unmittelbar nachrechnet. Bezeichnen wir mit \(\mathscr E\) die Standardbasis von \(\mathbb C^2\) und setzen \(\mathscr B= (b_1, b_2)\) mit

\[ b_1 = \frac{1}{\sqrt{2}} \begin{pmatrix} 1 \\ i \end{pmatrix},\qquad b_2 = \frac{1}{\sqrt{2}} \begin{pmatrix} 1 \\ -i \end{pmatrix}, \]

also

\[ S := M^\mathscr B_\mathscr E= \frac{1}{\sqrt{2}} \begin{pmatrix} 1 & 1 \\ i & -i \end{pmatrix}, \]

so ist \(\mathscr B\) eine Orthonormalbasis von \(\mathbb C^2\) und

\[ B:= M^\mathscr E_\mathscr B\, A\, M^\mathscr B_\mathscr E= S^{-1}AS = \operatorname{diag}(\lambda , \overline{\lambda }). \]

Wir erhalten durch diese explizite Rechnung das Ergebnis von Satz 19.96 in diesem speziellen Beispiel, und gleichzeitig eine Idee, wie man »in die umgekehrte Richtung gehen« kann, siehe den Beweis von Satz 19.99.

Das folgende Lemma ist ein wichtiger Baustein im Beweis von Satz 19.99 unten, weil es uns erlaubt, den zugrundeliegenden Vektorraum der betrachteten orthogonalen Abbildung in geeignete Unterräume zu zerlegen.

Lemma 19.102

Sei \(p\in \mathbb R[X]\) normiert und irreduzibel. Dann gilt \(\deg (p) = 1\), d.h. \(p=X-\alpha \) für ein \(\alpha \in \mathbb R\), oder \(\deg (p) = 2\), und in diesem Fall gilt \(p = (X-\lambda )(X-\overline{\lambda })\) für ein \(\lambda \in \mathbb C\setminus \mathbb R\).

Beweis

Wir betrachten ein irreduzibles Polynom \(p\in \mathbb R[X]\) mit \(\deg (p) {\gt} 1\). Dann hat \(p\) in \(\mathbb R\) keine Nullstelle. Aber über dem algebraisch abgeschlossenen Körper \(\mathbb C\) zerfällt \(p\) in Linearfaktoren. Ist \(\lambda \in \mathbb C\) eine Nullstelle von \(p\), so ist auch \(\overline{\lambda }\) eine Nullstelle, denn

\[ p(\overline{\lambda }) = \overline{p(\lambda )} = 0, \]

wobei wir für die erste Gleichheit benutzen, dass alle Koeffizienten von \(p\) reell sind. Wegen \(\lambda \not\in \mathbb R\) gilt \(\lambda \ne \overline{\lambda }\), und wir sehen, dass

\[ q:= (X-\lambda )(X-\overline{\lambda }) = X^2 - (\lambda +\overline{\lambda })X + \lambda \overline{\lambda } = X^2 -2 \operatorname{Re}(\lambda ) X + \lvert \lambda \rvert ^2 = X^2 - 2\operatorname{Re}(\lambda ) X + 1 \]

ein Teiler von \(p\) in \(\mathbb C[X]\) ist. Es ist \(q\in \mathbb R[X]\), wie wir an der Darstellung auf der rechten Seite sehen, und die Teilbarkeitsbeziehung (die wir ja so ausdrücken können, dass \(p\) bei Polynomdivision durch \(q\) Rest \(0\) lässt) gilt auch in \(\mathbb R[X]\). Weil \(p\) irreduzibel und normiert ist, folgt, dass \(p = q\) ist.

Wir benötigen auch noch das folgende Lemma, das als eine Variante des Spektralsatzes betrachtet werden kann.

Lemma 19.103

Sei \(V\) ein endlichdimensionaler \(\mathbb K\)-Vektorraum mit Skalarprodukt, sei \(f\colon V\to V\) ein normaler Endomorphismus und sei \(\lambda \in \mathbb K\) eine Nullstelle der charakteristischen Polynoms von \(f\). Dann stimmen algebraische und geometrische Vielfachheit von \(\lambda \) überein, d. h. der Eigenraum \(V_\lambda \) hat Dimension \(\operatorname{mult}_\lambda (\operatorname{charpol}_f)\).

Beweis

Man kann vorgehen wie in unserem Beweis des Spektralsatzes für normale Endomorphismen (Theorem 19.75).

Beweis von Satz 19.99

Nach Lemma 19.102 können wir das charakteristische Polynom von \(A\) in \(\mathbb C[X]\) zerlegen als

\[ (X-1)^r (X+1)^s (X-\lambda _1)(X-\overline{\lambda _1}) \cdot \cdots \cdot (X-\lambda _t)(X-\overline{\lambda _t}) \]

für \(r,s,t\ge 0\), \(\lambda _i\in \mathbb C\setminus \mathbb R\), so dass alle \(\lambda _i\) negativen Imaginärteil haben. Diese Zerlegung ist bis auf die Reihenfolge von \(\lambda _1, \dots , \lambda _t\) eindeutig bestimmt.

Sei \(f\colon \mathbb R^n\to \mathbb R^n\) die orthogonale Abbildung \(v\mapsto Av\). Die Behauptung ist dazu äquivalent, dass eine Orthonormalbasis \(\mathscr B\) existiert, so dass \(M^\mathscr B_\mathscr B(f)\) eine Blockdiagonalmatrix der angegebenen Form ist. Wir können dann \(S\) als die Basiswechselmatrix \(M^\mathscr E_\mathscr B\) definieren, wobei \(\mathscr E\) die Standardbasis bezeichne.

Wir betrachten nun wieder die Zerlegung des charakteristischen Polynoms von \(A\) in Linearfaktoren in \(\mathbb C[X]\). Seien \(V_1\) und \(V_{-1}\) die Eigenräume zu den Eigenwerten \(1\) und \(-1\). Aus Lemma 19.103 folgt \(\dim (V_1) = r\) und \(\dim (V_{-1}) = s\). Seien \(v_1,\dots , v_r\) bzw. \(w_1,\dots , w_s\) eine Orthonormalbasis von \(V_1\) bzw. \(V_{-1}\).

Sei \(f_\mathbb C\colon \mathbb C^n\to \mathbb C^n\) die unitäre Abbildung \(v\mapsto Av\). Die Vektoren \(v_1,\dots , v_r\), die per Definition eine \(\mathbb R\)-Basis des \(\mathbb R\)-Vektorraums \(V_1 = V_1(f)\) bilden, bilden dann auch eine \(\mathbb C\)-Basis des \(\mathbb C\)-Vektorraums \(V_1(f_\mathbb C)\), denn es gilt \(\dim _\mathbb CV_1(f_\mathbb C) = r\) und \(v_1,\dots , v_r\) sind auch über \(\mathbb C\) linear unabhängig. Entsprechendes gilt für \(V_{-1}(f_\mathbb C)\).

Wir bezeichnen für \(v\in \mathbb C^n\) mit \(\overline{v}\) den Vektor, der aus \(v\) hervorgeht, indem alle Einträge durch ihr komplex Konjugiertes ersetzt werden. Dann ist \(v=\overline{v}\) äquivalent zu \(v\in \mathbb R^n\). Es gilt \(\lVert \overline{v}\rVert = \lVert v\rVert \), und \(v\perp w\) ist äquivalent zu \(\overline{v}\perp \overline{w}\) (wobei wir \(\mathbb C^n\) mit dem Standardskalarprodukt versehen).

Ist \(v\in \mathbb C^n\) ein Eigenvektor von \(f_\mathbb C\) zum Eigenwert \(\lambda \), so folgt

\[ f_\mathbb C(\overline{v}) = A\overline{v} =\overline{Av} = \overline{\lambda v} = \overline{\lambda }\, \overline{v}, \]

weil \(A\) nur reelle Einträge hat. Also ist \(\overline{v}\) ein Eigenvektor von \(f_\mathbb C\) zum Eigenwert \(\overline{\lambda }\).

Angesichts der obigen Zerlegung des charakteristischen Polynoms und des Spektralsatzes, angewandt auf die trigonalisierbare normale Abbildung \(f_\mathbb C\), können wir nun die \(\mathbb C\)-Basis \(v_1,\dots , v_r, w_1,\dots , w_s\) von \(V_1(f_\mathbb C)\oplus V_{-1}(f_\mathbb C)\) durch Vektoren \(z_1, \overline{z_1}, \dots , z_t,\overline{z_t} \in \mathbb C^n\) zu einer Orthonormalbasis von \(\mathbb C^n\) ergänzen, wobei für alle \(j\) der Vektor \(z_j\) ein Eigenvektor von \(f_\mathbb C\) zum Eigenwert \(\lambda _j\) sei (und folglich \(\overline{z_j}\) ein Eigenvektor zum Eigenwert \(\overline{\lambda _j}\) ist).

Wir fixieren nun \(j\in \{ 1, \dots , t\} \) und schreiben \(z:= z_j\), \(\lambda :=\lambda _j\). Seien \(x, y\in \mathbb R^n\) mit \(z = x^\prime +iy^\prime \), wir zerlegen also \(z\) (eintragsweise) in Real- und Imaginärteil, und

\[ x = \sqrt{2}\, x^\prime ,\quad y = \sqrt{2}\, y^\prime . \]

Offenbar gilt dann \(\langle z, \overline{z}\rangle _\mathbb C= \langle x, y\rangle _\mathbb C\) (wobei der Index \(\langle -\rangle _\mathbb C\) anzeigen soll, dass hier der von den angegebenen Vektoren erzeugte \(\mathbb C\)-Untervektorraum von \(\mathbb C^n\), also die Menge aller Linearkombinationen mit Koeffizienten in \(\mathbb C\) gemeint ist) und als Basiswechselmatrizen haben wir

\[ M^{(z, \overline{z})}_{(x, y)} = \frac{1}{\sqrt{2}} \begin{pmatrix} 1 & 1 \\ i & -i \end{pmatrix},\qquad M^{(x, y)}_{(z, \overline{z})} = \frac{1}{\sqrt{2}} \begin{pmatrix} 1 & -i \\ 1 & i \end{pmatrix} \quad (=(M^{(z, \overline{z})}_{(x, y)})^{-1} = (M^{(z, \overline{z})}_{(x, y)})^\ast ) \]

(vergleiche Beispiel 19.101).

Weil die Basiswechselmatrizen unitär sind, folgt \(\lVert x\rVert = \lVert y\rVert = 1\) und \(x\perp y\) (diese Eigenschaften kann man natürlich auch leicht direkt nachrechnen), und damit, dass es sich bei \(x,y\) ebenfalls um eine Orthonormalbasis des zweidimensionalen Vektorraums \(\langle z, \overline{z}\rangle _\mathbb C= \langle x, y\rangle _\mathbb C\) handelt.

Als darstellende Matrix von \(f_{\mathbb C|\langle x,y \rangle _\mathbb C}\) bezüglich der Basis \(x,y\) erhalten wir damit, wenn wir \(\lambda = a-ib\) mit \(a,b\in \mathbb R\), \(a^2+b^2=1\), \(b {\lt} 0\), schreiben,

\[ \frac{1}{\sqrt{2}} \begin{pmatrix} 1 & 1 \\ i & -i \end{pmatrix} \begin{pmatrix} \lambda & 0 \\ 0 & \overline{\lambda } \end{pmatrix} \frac{1}{\sqrt{2}} \begin{pmatrix} 1 & -i \\ 1 & i \end{pmatrix} = \begin{pmatrix} a & -b \\ b & a \end{pmatrix} = \rho _\vartheta \]

mit \(\vartheta \in (0, \pi )\), so dass \(a = \cos (\vartheta )\). Da \(b {\gt} 0\) und \(\vartheta \in (0,\pi )\) sind, gilt dann auch \(b = \sin (\vartheta )\).

Sei \(U = \langle x, y\rangle \cap \mathbb R^n\) der von \(x\) und \(y\) erzeugte \(\mathbb R\)-Untervektorraum von \(\mathbb R^n\). Dann ist \(U\) ein \(f\)-invarianter Unterraum mit \(\mathbb R\)-Basis \(x, y\), und die darstellende Matrix von \(f_{|U}\) (als \(\mathbb R\)-Vektorraum-Homomorphismus) bezüglich dieser Basis ist ebenfalls \(\rho _\vartheta \).

Indem wir dieses Argument für alle \(j\) durchführen, konstruieren wir eine Orthonormalbasis \(x_1, y_1, \dots , x_t, y_t\) von \((V_1(f)\oplus V_{-1}(f))^\perp \), so dass \(\mathscr B=(v_1, \dots , v_r, w_1, \dots , w_s, x_1, y_1, \dots , x_t, y_t)\) eine Orthonormalbasis von \(\mathbb R^n\) ist, für die \(M^\mathscr B_\mathscr B(f)\) genau die gewünschte Form hat.

Ergänzung 19.104

Der Grund, dass wir den Satz zuerst in der Matrizenversion bewiesen haben, ist, dass es damit einfacher ist, vom reellen Vektorraum \(\mathbb R^n\) zu einem komplexen Vektorraum überzugehen.

Mit der Technik der Erweiterung der Skalare (Abschnitt 18.5.3) kann man aber auch ohne diesen »Umweg« arbeiten, vergleiche auch Ergänzung 19.68. Siehe Ergänzung 19.77 für eine ähnliche Situation, wo man mit dieser Methode Aussagen über reelle Vektorräume durch Zurückführung auf den komplexen Fall beweisen kann.

Beispiel 19.105

Wir wollen anhand des Satzes über die Normalform orthogonaler Abbildungen bzw. Matrizen die Elemente der orthogonalen Gruppe \(O(3)\) analysieren, ähnlich wie wir es in Beispiel 19.94 (1) auf direktem Wege für \(O(2)\) getan haben, vergleiche auch Teil (2) des vorgenannten Beispiels.

Sei also \(A\in O(3)\), d.h. \(A\) ist eine invertierbare \((3\times 3)\)-Matrix über \(\mathbb R\) mit \(A^{-1}= A^t\). Wir unterscheiden wieder die beiden Fälle \(\det (A) = 1\) und \(\det (A) = -1\).

Fall 1: \(\det (A) = 1\). Es muss mindestens einen Block der Größe \(1\) geben, weil \(A\) ungerade Größe hat. Weil Drehmatrizen \(\rho _\vartheta \) (für alle \(\vartheta \in [0, 2\pi )\)) Determinante \(1\) haben, können wir \(A\) durch ein \(S\in O(3)\) in eine Matrix der Form

\[ S^{-1} A S = \operatorname{diag}(1, \rho _\vartheta ) \]

konjugieren. Wir lassen hier die Fälle \(\vartheta = 0\) (also \(A=E_3\)) und \(\vartheta = \pi \) (also \(A\) konjugiert zu \(\operatorname{diag}(1,-1,-1)\)) zu. Dies sind die beiden Fälle, in denen \(A\) (mit \(\det (A)=1\)) diagonalisierbar ist, mit anderen Worten die Matrizen, die eine Normalform haben, die aus »\(3\) Blöcken der Größe \(1\)« besteht.

Sei \(v = S e_1\) die erste Spalte von \(S\); es gilt dann also \(Av=v\). Sei \(U=\langle v\rangle ^\perp \). Dann werden unter der Abbildung \(\mathbf f_A\colon \mathbb R^3\to \mathbb R^3\), \(x\mapsto Ax\), alle Elemente von \(\langle v\rangle \) auf sich selbst abgebildet. Der Unterraum \(U\) ist \(\mathbf f_A\)-invariant und wenn wir \(U\) als euklidischen Vektorraum (mit der Einschränkung des Standardskalarprodukts von \(\mathbb R^3\) auf \(U\)) betrachten, ist \(\mathbf f_{A|U}\) eine Drehung um den Winkel \(\vartheta \).

Wir nennen \(\mathbf f_A\) eine Drehung von \(\mathbb R^3\) mit Drehachse \(\langle v\rangle \), und dementsprechend \(A\) eine Drehmatrix.

Fall 2: \(\det (A) = -1\). In diesem Fall existiert \(S\in O(3)\) mit

\[ S^{-1} AS = \operatorname{diag}(-1, \rho _\vartheta ),\quad \vartheta \in [0,\pi ]. \]

Wir schreiben \(b_i = Se_i\), \(i=1, 2, 3\). Die Vektoren \(b_i\) bilden eine Orthonormalbasis von \(\mathbb R^3\), weil \(S\) eine orthogonale Matrix ist.

Der Fall \(\vartheta = 0\) bedeutet, dass \(A\) konjugiert ist zur Diagonalmatrix \(\operatorname{diag}(-1, 1, 1)\). Sei dann \(U = \langle b_2, b_3\rangle = \langle b_1\rangle ^\perp \). Alle Elemente von \(U\) werden unter \(\mathbf f_A\) auf sich selbst abgebildet. Jedes Element der Gerade \(\langle b_1\rangle \) wird auf sein Negatives abgebildet. Wir nennen in diesem Fall \(\mathbf f_A\) die Spiegelung an der Ebene \(U\).

Im Fall \(\vartheta =\pi \) ist \(A\) konjugiert zu \(\operatorname{diag}(-1, -1, -1)\), also sogar \(A=E_3\). Dann ist \(A\) die Punktspiegelung im Ursprung.

Diese beiden Fälle sind (für \(\det (A)=-1\)) diejenigen, in denen \(A\) diagonalisierbar ist, also eine Normalform im Sinne des Satzes hat, die aus drei Blöcken der Größe \(1\) besteht.

Es verbleibt der Fall \(0 {\lt} \vartheta {\lt} \pi \), in dem \(A\) nicht diagonalisierbar ist. Es gilt dann

\[ A = \operatorname{diag}(-1, 1, 1) \operatorname{diag}(1, \rho _\vartheta ) = \operatorname{diag}(1, \rho _\vartheta ) \operatorname{diag}(-1, 1, 1), \]

wir können dementsprechend \(\mathbf f_A\) als Verkettung einer Spiegelung (in der Ebene \(\langle b_2, b_3\rangle \)) und einer Drehung (mit Drehachse \(\langle b_1\rangle \)) schreiben, und diese beiden kommutieren miteinander. Wir nennen \(\mathbf f_A\) in diesem Fall eine Drehspiegelung.

In ähnlicher Weise kann man eine Normalform für beliebige normale Endomorphismen von euklidischen Vektorräumen angeben (also sozusagen eine Version des Spektralsatzes für normale Endomorphismen, in der auf die Voraussetzung der Trigonalisierbarkeit verzichtet wird). Man kann dann natürlich – wie wir schon bei den Isometrien gesehen haben – im allgemeinen keine Diagonalform erreichen, sondern »nur« eine Blockmatrix mit Blöcken der Größe \(1\) und \(2\). Siehe zum Beispiel  [ Lo2 ] Kapitel VIII.5 oder  [ Wa1 ] Satz 7.94. Vergleiche auch Abschnitt 17.7.1 über die »Jordansche Normalform« über \(\mathbb R\).

Ergänzung 19.106

Sei \(V\) ein euklidischer Vektorraum. Eine Spiegelung ist eine von \(\operatorname{id}_V\) verschiedene Isometrie \(f\colon V\to V\), so dass ein Untervektorraum \(U\subset V\) mit \(\dim (U) = \dim (V)-1\) existiert, so dass \(f(u)=u\) für alle \(u\in U\) gilt. Es gilt dann \(U = \langle v\rangle ^\perp \) für einen Eigenvektor von \(f\) zum Eigenwert \(-1\).

Es folgt leicht aus dem Satz über die Normalform von orthogonalen Abbildungen, dass sich jedes Element der orthogonalen Gruppe \(O(V)\) als Produkt von Spiegelungen schreiben lässt. (Vergleiche Beispiel 19.105.) Es ist aber auch nicht schwer, dieses Ergebnis direkt zu beweisen. Genauer kann man zeigen, dass man jedes Element von \(O(V)\) als Produkt von höchstens \(\dim (V)\) vielen Spiegelungen ausdrücken kann.