Inhalt

19.7 Die Hauptachsentransformation

19.7.1 Der Spektralsatz für selbstadjungierte Endomorphismen

In diesem Abschnitt wollen wir den Spektralsatz für normale Endomorphismen \(f\) eines Vektorraums mit Skalarprodukt in dem speziellen Fall, dass \(f\) sogar selbstadjungiert ist, dass also \(f=f^\ast \) gilt, noch weiter verbessern. In der Tat sind selbstadjungierte Endomorphismen auch im Fall \(\mathbb K=\mathbb R\) immer trigonalisierbar, wie der folgende Spektralsatz für selbstadjungierte Abbildungen zeigt.

Theorem 19.107 Spektralsatz für selbstadjungierte Abbildungen

Sei \(V\) ein endlichdimensionaler \(\mathbb K\)-Vektorraum mit einem Skalarprodukt und sei \(f\in \operatorname{End}_{\mathbb K}(V)\) selbstadjungiert.

Dann existiert eine Orthonormalbasis von \(V\), die aus Eigenvektoren von \(f\) besteht, und alle Eigenwerte von \(f\) sind reell.

Beweis

Wir betrachten zuerst den Fall \(\mathbb K=\mathbb C\). Nach dem Spektralsatz für normale Endomorphismen existiert eine Orthonormalbasis \(\mathscr B\) von \(V\), die aus Eigenvektoren von \(f\) besteht. Die darstellende Matrix \(M^\mathscr B_\mathscr B(f)\) ist dann eine hermitesche Diagonalmatrix, und folglich sind alle Diagonaleinträge – also die Eigenwerte von \(f\) – reell.

Im Fall \(\mathbb K=\mathbb R\) argumentieren wir wie folgt. Sei \(\mathscr C\) eine Orthonormalbasis von \(V\) und sei \(A= M^\mathscr C_\mathscr C(f)\). Dies ist eine symmetrische Matrix in \(M_n(\mathbb R)\) (mit \(n=\dim V\)). Wir können \(A\) auch als hermitesche Matrix in \(M_n(\mathbb C)\) betrachten und den Fall \(\mathbb K=\mathbb C\) auf diese Matrix (bzw. den Endomorphismus \(v\mapsto Av\) von \(\mathbb C^n\)) anwenden. Das zeigt, dass alle Nullstellen (in \(\mathbb C\)) des charakteristischen Polynoms der Matrix \(A\) in \(\mathbb R\) liegen, oder mit anderen Worten, dass dieses Polynom im Ring \(\mathbb R[X]\) vollständig in Linearfaktoren zerfällt. Es folgt, dass \(A\) auch über \(\mathbb R\) trigonalisierbar ist. Die Aussage des Satzes folgt also aus dem Spektralsatz für normale Endomorphismen.

Insbesondere sehen wir auch, dass das charakteristische Polynom einer hermiteschen Matrix in \(M_n(\mathbb C)\) ein Polynom in \(\mathbb R[X]\) ist.

Ergänzung 19.108

Der Kern des Spektralsatzes für selbstadjungierte Endomorphismen ist die Existenz eines Eigenvektors \(v\). Hat man diesen, so kann man das orthogonale Komplement \(\langle v\rangle ^\perp \) betrachten und induktiv weiterarbeiten. Wir geben hierfür noch einen weiteren, ganz anderen Beweis, für den man nicht mit den komplexen Zahlen arbeiten muss, allerdings ein bisschen Analysis benötigt, wie sie in der Vorlesung Analysis 2 behandelt wird.

Wir formulieren den Beweis für eine symmetrische Matrix \(A\in M_n(\mathbb R)\). Sei \(\beta \colon \mathbb R^n\times \mathbb R^n\to \mathbb R\) die durch \(A\) gegebene Bilinearform,

\[ \beta (v,w) = v^tAw, \]

und sei \(q\colon \mathbb R^n\to \mathbb R\) definiert durch \(q(v) = \beta (v,v)\). (Dies ist die zu \(\beta \) gehörige »quadratische Form«, siehe Abschnitt 19.3.) Wir betrachten die Funktion

\[ f\colon \mathbb R^n\setminus \{ 0\} \to \mathbb R,\quad f(v) = q\left(\frac{v}{\lVert v\rVert }\right) = \frac{1}{\lVert v\rVert ^2} q(v). \]

(Die Norm \(\lVert \cdot \rVert \) ist hier bezüglich des Standardskalarprodukts zu verstehen.) Offenbar handelt es sich um eine differenzierbare Funktion. Insbesondere ist die Funktion \(f\) stetig und nimmt daher auf der kompakten Menge \(S^{n-1} = \{ v\in \mathbb R^n;\ \lVert v\rVert = 1\} \) ihr Minimum an, d.h. es gibt \(v_0\in S^{n-1}\) mit \(f(v_0) \le f(v)\) für alle \(v\in S^{n-1}\). Da \(f(v) = f(av)\) für alle \(v\in \mathbb R^n\setminus \{ 0\} \), \(a\in \mathbb R^\times \) gilt, folgt, dass \(f\) (nun wieder als Funktion auf ganz \(\mathbb R^n\setminus \{ 0\} \) betrachtet) in \(v_0\) ein lokales Minimum hat. Folglich verschwinden alle partiellen Ableitungen \(\frac{\partial f}{\partial x_i}\) in \(v_0\).

Wir schreiben nun \(A=(a_{ij})_{i,j}\) und betrachten für \(v=(v_1,\dots , v_n)^t\) die Gleichung

\[ \sum _{i,j=1}^n a_{ij}v_i v_j = q(v) = \lVert v\rVert ^2 f(v) = (v_1^2 + \cdots + v_n^2) f(v) \]

und bilden auf beiden Seiten die partielle Ableitung nach \(v_k\) und werten sie aus im Punkt \(v_0=(v_{0, 1}, \dots , v_{0,k})^t\) (wo die partiellen Ableitungen von \(f\) verschwinden). Wir erhalten, weil \(A\) symmetrisch ist,

\[ 2 \sum _{i=1}^n a_{ik}v_{0,k} = 2v_{0,k} f(v_0),\quad k=1,\dots , n, \]

zusammengefasst also

\[ Av_0 = f(v_0) v_0. \]

Das bedeutet, dass \(v_0\) ein Eigenvektor von \(A\) ist, und zwar zum Eigenwert \(f(v_0)\).

Wir sehen sogar noch etwas mehr, denn ist \(\lambda \) irgendein Eigenwert von \(A\) und \(v\) ein Eigenvektor zu diesem Eigenwert mit \(\lVert v\rVert =1\), so gilt

\[ \lambda = \lambda \lVert v\rVert ^2 = \lambda \, v^t v = v^t Av = f(v) \ge f(v_0). \]

Das zeigt, dass \(f(v_0)\) der kleinste Eigenwert von \(A\) ist.

Wir formulieren in den folgenden beiden Korollaren noch zwei Varianten des Spektralsatzes.

Korollar 19.109

Sei \(A\in M_{n}(\mathbb K)\) eine hermitesche Matrix. Dann existiert eine Matrix \(S\in GL_n(\mathbb K)\) mit \(S^{-1} = S^\ast \), so dass \(S^{-1}AS = S^\ast A S\) eine Diagonalmatrix mit reellen Einträgen ist.

Beweis

Wir betrachten den durch \(A\) definierten Endomorphismus \(v\mapsto Av\) von \(\mathbb K^n\). Dieser ist selbstadjungiert bezüglich des Standardskalarprodukts. Aus Satz 19.107 folgt die Existenz einer Orthonormalbasis \(\mathscr B\) die aus Eigenvektoren von \(A\) besteht, und dass alle Eigenwerte reell sind. Sei \(S:=M^\mathscr B_\mathscr E\) die Basiswechselmatrix zwischen \(\mathscr B\) und der Standardbasis \(\mathscr E\). Dann gilt die Aussage des Korollars.

Korollar 19.110 Hauptachsentransformation

Sei \(V\) ein endlichdimensionaler \(\mathbb K\)-Vektorraum mit Skalarprodukt \((\cdot ,\cdot )\). Sei \(\beta \) eine hermitesche Sesquilinearform auf \(V\). Dann existiert eine Orthonormalbasis \(\mathscr B = (b_1,\dots , b_n)\) von \(V\), so dass \(M_{\mathscr B}(\beta )\) eine Diagonalmatrix mit reellen Einträgen ist.

Insbesondere ist dann also \(\mathscr B\) eine Orthonormalbasis für \((\cdot , \cdot )\) und gleichzeitig eine »Orthogonalbasis« für \(\beta \), d.h. es gilt \(\beta (b_i,b_j)=0\) für alle \(i\ne j\).

Beweis

Sei \(\mathscr C\) eine Orthonormalbasis von \(V\) und \(A=M_\mathscr C(\beta )\) die Strukturmatrix von \(\beta \), eine hermitesche Matrix, auf die wir den Spektralsatz in der Form von Korollar 19.109 anwenden können.

Wir erhalten eine orthogonale Matrix \(S\), so dass \(S^\ast A S\) eine Diagonalmatrix mit reellen Einträgen ist. Wir interpretieren \(S\) als Basiswechselmatrix: Sei \(\mathscr B\) die eindeutig bestimmte Basis von \(V\) mit \(S=M^\mathscr B_\mathscr C\). Die Basiswechselformel für die Strukturmatrix von Sesquilinearformen zeigt dann, dass \(M_\mathscr B(\beta ) = S^\ast A S\) ist, und weil \(\mathscr B\) und \(\mathscr C\) Orthonormalbasen sind, ist der durch \(S\) gegebene Endomorphismus eine Isometrie, also \(S\) eine orthogonale Matrix (vergleiche Satz 19.95).

In der Situation dieses Korollars nennt man die eindimensionalen Unterräume \(\langle b_i\rangle \subseteq V\), \(i=1, \dots , n\) auch die Hauptachsen von \(\beta \). Wenn alle Eigenwerte von \(M_\mathscr B(\beta )\) verschieden sind, dann sind die Hauptachsen bis auf die Reihenfolge eindeutig bestimmt als die Eigenräume dieser Matrix. Wie der Name Hauptachsentransformation andeutet, lässt sich dieses Korollar auch schön geometrisch interpretieren. Wir kommen darauf in Abschnitt 19.7.3 noch einmal zurück.

Mit dem Spektralsatz für selbstadjungierte Endomorphismen können wir auch die Normalform für orthogonale Abbildungen beweisen.

Beweis von Theorem 19.98

Sei \(V\ne 0\) ein euklidischer Vektorraum mit Skalarprodukt \((\cdot , \cdot )\) und sei \(f\colon V\to V\) eine orthogonale Abbildung.

Die Eindeutigkeitsaussage des Satzes hatten wir bereits begründet. Für die Existenzaussage führen wir Induktion nach \(n=\dim V\). Im Fall \(n=1\) folgt die Aussage direkt aus Lemma 19.97, das sagt, dass als Eigenwerte einer orthogonalen Abbildung nur \(1\) und \(-1\) in Frage kommen. Den Fall \(n=2\) haben wir in Beispiel 19.94 (1) untersucht, und dort die entsprechende Darstellung hergeleitet.

Sei nun \(n {\gt} 2\). Der Kern des Beweises ist die folgende Behauptung.

Behauptung. Es existiert ein \(f\)-invarianter Untervektorraum \(0\ne U\subseteq V\) mit \(\dim (U) \le 2\).

Begründung. Wenn \(f\) einen Eigenvektor besitzt, ist die Sache klar, aber das wird im allgemeinen nicht der Fall sein. Wir betrachten die Abbildung \(g := f+f^\ast \). Diese ist selbstadjungiert und besitzt nach dem Spektralsatz für selbstadjungierte Endomorphismen, Satz 19.107, einen Eigenvektor \(v\) zu einem Eigenwert \(\lambda \in \mathbb R\).

Wir zeigen, dass \(U:=\langle v, f(v)\rangle \) ein \(f\)-invarianter Unterraum ist. Offenbar genügt es dafür, nachzuweisen, dass \(f^2(v)\in U\) ist. In der Tat folgt aus \(f^\ast = f^{-1}\), dass

\[ f^2(v) = f(f(v) + f^\ast (v)-f^\ast (v)) = f(g(v)) - f(f^\ast (v)) = \lambda f(v)-v\in U \]

gilt. Damit ist die Behauptung bewiesen.

Wir können \(U\) mit der Einschränkung des auf \(V\) gegebenen Skalarprodukts nach \(U\) als euklidischen Vektorraum betrachten. Die Einschränkung \(f_{|U}\) ist dann eine orthogonale Abbildung \(U\to U\). Dann besitzt \(U\) eine Orthonormalbasis, so dass die darstellende Matrix von \(f_{|U}\) die gewünschte Form hat. In der Tat, ist \(\det (f_{|U})\), so ist die Abbildung bezüglich einer geeigneten Orthonormalbasis durch eine Drehmatrix \(\rho _\vartheta \) mit \([0, 2\pi )\) darstellbar. Ist \(\vartheta = 0\), so handelt es sich um die Einheitsmatrix \(E_2\), die wir im Kontext des Satzes als zwei Blöcke \(1\) der Größe \(1\) betrachten. Ist \(\vartheta = \pi \), so haben wir \(-E_2\), also zwei Blöcke \(-1\) der Größe \(1\). Ist \(\pi {\lt} \vartheta {\lt} 2\pi \), so vertauschen wir die beiden Basisvektoren und bekommen als neue Matrix die Matrix \(\rho _{2\pi -\vartheta }\). Es bleibt dann nur der Fall \(0 {\lt} \vartheta {\lt} \pi \), in welchem wir gerade einen Block der Größe \(2\) von ger gewünschten Form bekommen.

Das orthogonale Komplement \(U^\perp \) ist ebenfalls \(f\)-invariant, denn für \(u\in U\), \(u^\prime \in U^\perp \) ist \((u, f(u^\prime )) = (f^{-1}(u), u^\prime ) = 0\) (da \(f^{-1}(u)\in U\) ist). Auch auf \(U^\perp \) erhalten wir durch Einschränkung des Skalarprodukts auf \(V\) ein Skalarprodukt, und \(f_{|U^\perp }\) ist dann orthogonal. Per Induktion können wir annehmen, dass \(U^\perp \) eine Orthonormalbasis der gewünschten Art hat. Durch Zusammensetzen erhalten wir eine Orthonormalbasis von \(V\), bezüglich der \(f\) die angegebene Blockdiagonalform hat.

19.7.2 Der Trägheitssatz von Sylvester

Wir erhalten aus dem Spektralsatzes ein weiteres Kriterium für die positive Definitheit einer hermiteschen Sesquilinearform geben, das man manchmal als das Eigenwertkriterium bezeichnet.

Korollar 19.111

Sei \(V\) ein endlichdimensionaler \(\mathbb K\)-Vektorraum, \(\mathscr B\) eine Basis von \(V\) und \(\beta \) eine hermitesche Sesquilinearform. Dann sind äquivalent:

  1. Die Form \(\beta \) ist positiv definit.

  2. Alle Eigenwerte der Matrix \(M_{\mathscr B}(\beta )\) liegen in \(\mathbb R_{{\gt} 0}\).

Beweis

Wenn \(\beta \) positiv definit und \(v\in \mathbb K^n\) ein Eigenvektor von \(M_{\mathscr B}(\beta )\) ist, so gilt für \(v^\prime := c_\mathscr B^{-1}(v)\), dass

\[ 0 {\lt} \beta (v^\prime ,v^\prime ) = v^\ast M_\mathscr B(\beta ) v = \lambda v^\ast v, \]

und wegen \(v^\ast v {\gt} 0\) folgt \(\lambda {\gt} 0\).

Für die Umkehrung verwenden wir den Spektralsatz. Die Matrix \(M_{\mathscr B}(\beta )\) ist hermitesch, folglich diagonalisierbar, und genauer existiert eine orthogonale bzw. unitäre Matrix \(S\), so dass \(S^\ast M_\mathscr B(\beta ) S = S^{-1} M_{\mathscr B}(\beta ) S\) eine Diagonalmatrix ist. Aus der zweiten Darstellung und der Voraussetzung folgt, dass alle Einträge dieser Diagonalmatrix in \(\mathbb R_{{\gt} 0}\) liegen. Aus der ersten Darstellung folgt, dass diese Diagonalmatrix die Strukturmatrix von \(\beta \) bezüglich einer Basis von \(V\) ist. Es ist dann klar, dass \(\beta \) positiv definit ist, vergleiche Beispiel 19.50.

Von dem vorstehenden Korollar lassen sich leicht auch Varianten für positiv semidefinite Formen, negativ definite Formen usw. angeben. Der sogenannte Trägheitssatz von Sylvester (nach James Joseph Sylvester, 1814–1897), den wir als nächstes beweisen, präzisiert die Situation noch weiter (und das Eigenwertkriterium ergibt sich daraus erneut).

\includegraphics[width=15cm]{sylvester1}

\includegraphics[width=15cm]{sylvester2}

Abbildung 19.1 Die ersten und letzten Zeilen aus der Arbeit von Sylvester, in der er den Trägheitssatz beweist und benennt (Law of inertia) – die Zahlen \(k_+\), \(k_-\), \(k_0\) sind so träge, dass sie sich bei Basiswechsel nicht verändern.

Theorem 19.112 Sylvesterscher Trägheitssatz

Sei \(V\) ein endlichdimensionaler \(\mathbb K\)-Vektorraum, \(n=\dim V\) und \(\beta \) eine hermitesche Sesquilinearform auf \(V\). Sei \(\mathscr B\) eine Basis von \(V\), und seien \(k_+\), \(k_-\) bzw. \(k_0\) die Anzahlen der Eigenwerte von \(M_{\mathscr B}(\beta )\), die positiv, negativ bzw. \(=0\) sind, jeweils gezählt mit der Vielfachheit der entsprechenden Nullstelle des charakteristischen Polynoms.

  1. Es existiert eine Basis \(\mathscr C\) von \(V\), so dass

    \[ M_{\mathscr C}(\beta ) = \operatorname{diag}(1,\dots , 1, -1,\dots , -1, 0, \dots , 0) \]

    (mit \(k_+\) Einträgen \(=1\), \(k_-\) Einträgen \(=-1\) und \(k_0\) Einträgen \(=0\)) ist.

  2. Es ist \(k_++k_-+k_0=n\), die Zahlen \(k_+\), \(k_-\) und \(k_0\) sind unabhängig von der Wahl der Basis \(\mathscr B\) und lassen sich folgendermaßen charakterisieren:

    • \(k_+ = \max \{ \dim (U);\ U\subseteq V\ \text{Unterraum, so dass}\ \beta _{|U\times U}\ \text{positiv definit}\} =: m_+\),

    • \(k_- = \max \{ \dim (U);\ U\subseteq V\ \text{Unterraum, so dass}\ \beta _{|U\times U}\ \text{negativ definit}\} =: m_-\),

    • \(k_0 = \dim V_0\), wobei \(V_0 = \{ w\in V;\ \text{für alle}\ v\in V: \beta (v,w)=0\} \) der sogenannte Nullraum von \(\beta \) ist.

Das Tripel \((k_+, k_-, k_0)\in \mathbb N^3\) nennen wir die Signatur oder den Signaturtyp von \(\beta \).

Beweis

Sei zunächst \(\mathscr B\) irgendeine Basis von \(V\) und sei \(A= M_{\mathscr B}(\beta )\). Die Matrix \(A\) ist hermitesch, und nach dem Spektralsatz für selbstadjungierte Endomorphismen liegt das charakteristische Polynom von \(A\) in \(\mathbb R[X]\) und zerfällt über \(\mathbb R\) vollständig in Linearfaktoren. Das zeigt bereits, dass \(k_+ + k_- + k_0=n\) gilt.

Wir wenden Korollar 19.110 an und sehen damit, dass eine Matrix \(S\in GL_n(\mathbb K)\) mit \(S^{-1}=S^\ast \) existiert, so dass \(D:= S^{-1}AS = S^\ast AS\) Diagonalgestalt hat. Wir betrachten \(S\), ähnlich wie in einigen der vorherigen Beweise, als Basiswechselmatrix \(S = M^\mathscr C_\mathscr B\) für eine (eindeutig bestimmte) Basis \(\mathscr C=(c_1,\dots , c_n)\) von \(V\). Dann ist \(D = M_{\mathscr C}(\beta )\) und diese Matrix hat wegen \(D=S^{-1}AS\) dieselben Eigenwerte wie \(A\).

Indem wir \(c_i\) ersetzen durch \(\frac{1}{\sqrt{\lvert \beta (c_i, c_i)\rvert }} c_i\), können wir erreichen, dass \(\beta (c_i, c_i)\in \{ 0, 1, -1\} \) für alle \(i=1, \dots , n\) gilt. Wenn wir die \(c_i\) gegebenenfalls noch geeignet vertauschen, bekommen wir Aussage (1) des Satzes.

Wir wollen noch die Beschreibung der Signatur \((k_+, k_-, k_0)\) aus Teil (2) zeigen; daraus folgt insbesondere die Unabhängigkeit von der Wahl der Basis. Jedenfalls ist \(k_0 = \dim (\operatorname{Ker}(A))\) und das Inverse \(c_\mathscr B^{-1}\) des Koordinatenisomorphismus induziert einen Isomorphismus

\[ \operatorname{Ker}(A) \cong \{ w\in V;\ \text{für alle}\ v\in V: \beta (v,w)=0 \} , \]

die Dimension dieses Raums ist also unabhängig von \(\mathscr B\).

Wir sehen aus den vorstehenden Überlegungen auch, dass es einen Unterraum \(U\subseteq V\) der Dimension \(k_+\) gibt, für den die Einschränkung \(\beta _{|U\times U}\) positiv definit ist (nämlich den von \(c_1, \dots , c_{k_+}\) erzeugten Unterraum, wo \(\mathscr C=(c_1,\dots , c_n)\) wie in (1) gewählt sei. Entsprechendes gilt für \(k_-\), wir erhalten also die Abschätzungen \(k_+\le m_+\) und \(k_-\le m_-\).

Seien nun \(U_+\subseteq V\) ein Unterraum, so dass die Einschränkung \(\beta _{|U_+\times U_+}\) positiv definit ist, und \(U_-\) ein Unterraum, so dass die Einschränkung von \(\beta \) negativ definit ist.

Aus der folgenden Behauptung folgt dann wegen \(k_+ + k_- + k_0 = n\), dass \(k_+ = m_+\) und \(k_-=m_-\) gelten muss.

Behauptung. Die Summe \(U_+ + U_- + V_0\) ist eine direkte Summe.

Begründung. Wir zeigen die folgenden beiden Aussagen; daraus folgt die Behauptung.

  1. \(U_- \cap V_0 = 0\),

  2. \(U_+ \cap (U_- + V_0)\) = 0.

Aussage (a) ist klar, weil die Einschränkung von \(\beta \) auf \(U_-\) negativ definit ist, aber die Einschränkung auf \(V_0\) die Nullabbildung \(V_0\times V_0\to \mathbb K\) ist.

Für Aussage (b) können wir analog argumentieren, weil die Einschränkung von \(\beta \) auf \(U_+\) positiv definit, die Einschränkung auf \(U_- + V_0\) aber negativ semidefinit ist.

Manchmal bezeichnet man in der Situation des Trägheitssatzes auch die Differenz \(k_+ - k_-\) als die Signatur von \(\beta \). Ist \(\beta \) nicht-ausgeartet, d.h. \(k_0=0\), so bestimmt die Signatur in diesem Sinne den Signaturtyp wegen \(k_++k_-=n\) vollständig.

Wir erhalten durch den Trägheitssatz einen neuen Beweis (und eine wesentlich präzisere Version) von Korollar 19.111.

Bemerkung 19.113

Wir können den Trägheitssatz auch als Klassifikationsergebnis von Sesquilinearformen bis auf Basiswechsel, bzw. äquivalent von hermiteschen Matrizen bis auf Äquivalenz betrachten:

  1. Sei \(V\) ein \(n\)-dimensionaler \(\mathbb K\)-Vektorraum. Wir nennen Sesquilinearformen \(\beta \) und \(\gamma \) auf \(V\) äquivalent, wenn Basen \(\mathscr B\) und \(\mathscr C\) von \(V\) existieren, so dass \(M_\mathscr B(\beta ) = M_\mathscr C(\gamma )\) ist. (Das ist genau dann der Fall, wenn ein Automorphismus \(f\colon V\to V\) existiert mit \(\gamma (v,w) = \beta (f(v), f(w))\) für alle \(v, w\in V\).) Dies definiert eine Äquivalenzrelation auf der Menge der Sesquilinearformen auf \(V\).

    Aus dem Trägheitssatz folgt dann: Zwei hermitesche Sesquilinearformen sind genau dann äquivalent, wenn sie denselben Signaturtyp haben.

  2. Sei \(n\in \mathbb N\). Wir nennen (Definition 19.23) Matrizen \(A, B\in M_n(\mathbb K)\) (hermitesch) kongruent, wenn \(S\in GL_n(\mathbb K)\) mit \(B=S^\ast AS\) existiert. Diese Relation ist eine Äquivalenzrelation auf \(M_n(\mathbb K)\). Zu \(A\in M_n(\mathbb K)\) haben wir die zugehörige Sesquilinearform \((v,w)\mapsto v^\ast Aw\).

    Aus dem Trägheitssatz folgt dann: Hermitesche Matrizen \(A\), \(B\) sind genau dann (hermitesch) kongruent, wenn die zugehörigen Sesquilinearformen denselben Signaturtyp haben. Zu jeder hermiteschen Matrix gibt es genau eine dazu (hermitesch) kongruente Matrix der Form \(\operatorname{diag}(1,\dots , 1, -1,\dots , -1, 0, \dots 0)\).

19.7.3 Quadriken

Wir wollen in diesem Abschnitt das oben bewiesene Ergebnis über die »Hauptachsentransformation« mit etwas mehr geometrischem Inhalt füllen.

Definition 19.114

Eine Quadrik in \(\mathbb R^n\) ist eine Teilmenge der Form

\[ Q(A, b, c) = \{ x\in \mathbb R^n;\ x^tAx + b^tx + c = 0 \} \]

für \(A\in M_n(\mathbb R)\), \(A\ne 0\), \(b\in \mathbb R^n\), \(c\in \mathbb R\).

Wenn man \(A=(a_{ij})_{i,j}\), \(b=(b_1,\dots , b_n)^t\) und \(x = (x_1,\dots , x_n)^t\) schreibt, dann kann man die Gleichung, als deren Lösungsmenge \(Q(A,b,c)\) definiert wird, explizit machen als

\[ \sum _{i,j=1}^n a_{ij}x_i x_j + \sum _{i=1}^n b_ix_i + c = 0, \]

es handelt sich also um eine Polynomgleichung vom Grad \(2\) in den Unbestimmten \(x_1,\dots , x_n\). Solche (und allgemeinere) Polynomgleichungen werden ausführlich in der algebraischen Geometrie studiert. Während wir lineare Polynomgleichungen (also solche vom Grad \(1\)) und sogar Gleichungssysteme von linearen Gleichungen von Anfang an auch als Kernthema der linearenr Algebra kennengelernt haben, können wir mit der Theorie der Bilinearformen auch quadratische Gleichungen wie die obige untersuchen.

Indem wir \(a_{ij}\) und \(a_{ji}\) beide durch \(\frac{a_{ij}+a_{ji}}{2}\) ersetzen, können wir \(A\) durch eine symmetrische Matrix ersetzen, ohne die Gleichung zu verändern, durch die die Quadrik \(Q(A, b, c)\) definiert wird. Wir wollen daher von nun an immer annehmen, dass \(A\) symmetrisch ist.

Um die Diskussion etwas zu vereinfachen und weitere Fallunterscheidungen zu vermeiden, wollen wir außerdem annehmen, dass \(A\) invertierbar ist.

Beispiel 19.115

Betrachten wir als konkretes Beispiel den Fall \(n=2\) und

\[ A = \begin{pmatrix} 7 & 2 \\ 2 & 4 \end{pmatrix},\quad b= \frac23 \begin{pmatrix} 23 \\ 10 \end{pmatrix},\quad c= \frac{70}{9} \]

Die Quadrik \(Q(A, b, c) = Q\left( \begin{pmatrix} 7 & 2 \\ 2 & 4 \end{pmatrix}, \frac23 \begin{pmatrix} 23 \\ 10 \end{pmatrix} , \frac{70}{9} \right)\) ist unten dargestellt.

\begin{tikzpicture} [scale=2]
           \clip (-1.5, -1.5) rectangle + (3, 3);
                \draw[->, gray, thick] (-5, 0) -- (1.5, 0);
                \draw[->, gray, thick] (0, -8.5) -- (0, 1.5);

                \foreach \x in {-8, -6, -4, -2, -1, 1, 2, 4, 6, 8}{
                    \draw[gray] (\x, -0.07) -- (\x, 0.07) node[black, below, yshift=-.4cm] {\x};
                };
                \foreach \x in {-4, -2, -1, 1, 2, 4}{
                    \draw[gray] (-0.07, \x) -- (0.07, \x) node[black, left, xshift=-.4cm] {\x};
                };

            \draw[cm={(cos(-26.565), -sin(-26.565), sin(-26.565), cos(-26.565),
                (-1,-0.333)}, ultra thick, blue] circle (0.3536 and 0.5774);
            % node[left, yshift=43] {$Q$};
            % \draw[dotted] (0,0) -- (10, -20);
            % \draw[dotted] (0,0) -- (15, 7.5);
            % \fill[red] (0.4472, -0.8944) circle (.3mm) node[black, above right] {$v_1$};
            % \fill[red] (0.8944, 0.4472) circle (.3mm) node[black, above left] {$v_2$};
        \end{tikzpicture}

Sei \(S\in O(n)\) eine orthogonale Matrix, so dass \(D:=S^{t}AS\) eine Diagonalmatrix ist. Solch ein \(S\) existiert nach dem Spektralsatz für selbstadjungierte Endomorphismen, und indem wir gegebenenfalls \(S\) durch das Produkt \(S\, \operatorname{diag}(-1, 1, \dots , 1)\) ersetzen, können wir zusätzlich annehmen, dass \(\det (S)=1\) gilt, dass also \(S\) eine Drehung ist.

Dann induziert die Drehung \(\mathbb R^n\to \mathbb R^n\), \(x\mapsto S^tx\) eine Bijektion

\[ Q(A, b, c) \to Q(S^{t}AS,S^tb,c). \]

Durch eine geeignete (von \(A\) abhängige) Drehung können wir also die gegebene Quadrik \(Q(A,b,c)\) transformieren in eine Quadrik \(Q(D,b,c)\) (für ein anderes \(b\) als vorher), wobei \(D=S^tAS=\operatorname{diag}(d_1,\dots , d_n)\) eine Diagonalmatrix ist. Weil wir vorausgesetzt hatten, dass \(A\) invertierbar ist, sind alle \(d_i\ne 0\).

Die Translation \(x = (x_i)_i^t\mapsto (x_i+\frac{b_i}{2d_i})_i^t = x + \frac12 D^{-1}b\) schränkt sich ein zu einer Bijektion

\[ Q(D, b, c)\to Q\left(D, 0, c-\sum _{i=0}^n \frac{b_i^2}{4d_i}\right) = Q\left(D, 0, c - (\frac12 b^t)D^{-1}(\frac12 b)\right). \]

Diese Translation ist (für \(b\ne 0\)) keine lineare Abbildung, schon weil der Ursprung nicht auf sich selbst abgebildet wird. Geometrisch handelt es sich aber um eine sehr einfache Art von Abbildung, eben eine Translation (oder: Verschiebung). Durch diese Verschiebung erreichen wir, dass die verschobene Quadrik die besonders einfache Form \(Q(D, 0, c)\) für eine Diagonalmatrix \(D\) (allerdings mit einem anderen \(c\) als vorher) hat.

Beispiel 19.116

Wir setzen jetzt Beispiel 19.115 fort und führen die Hauptachsentransformation wie oben beschrieben durch. Indem man die Eigenwerte und Eigenräume der Matrix \(A = \begin{pmatrix} 7 & 2 \\ 2 & 4 \end{pmatrix}\) bestimmt, sieht man, dass

\[ S^tAS = \begin{pmatrix} 3 & 0 \\ 0 & 8 \end{pmatrix}\quad \text{für}\ S= \frac{1}{\sqrt{5}} \begin{pmatrix} 1 & 2 \\ -2 & 1 \end{pmatrix}\ \text{ist.} \]

Die durch \(S^t\) gegebene Drehung (eine Drehung um den Drehwinkel \(\vartheta \) mit \(\cos (\vartheta ) = \frac{1}{\sqrt{5}}\), also eine Drehung um ungefähr \(63^\circ \)) bildet \(Q(A, b, c)\) bijektiv ab auf \(Q\left(\operatorname{diag}(3,8), \frac{2}{3\sqrt{5}} \begin{pmatrix} 3 \\ 56 \end{pmatrix}, \frac{70}{9} \right)\). Diese Quadrik ist in der folgenden Abbildung dargestellt; wir haben die ursprünglich gegebene Ellipse durch eine Drehung um den Ursprung so gedreht, dass die Symmetrieachsen parallel zu den Koordinatenachsen sind.

\begin{tikzpicture} [scale=2]
           \clip (-1.5, -1.5) rectangle + (3, 3);
                \draw[->, gray, thick] (-5, 0) -- (1.5, 0);
                \draw[->, gray, thick] (0, -8.5) -- (0, 1.5);

                \foreach \x in {-8, -6, -4, -2, -1, 1, 2, 4, 6, 8}{
                    \draw[gray] (\x, -0.07) -- (\x, 0.07) node[black, below, yshift=-.4cm] {\x};
                };
                \foreach \x in {-4, -2, -1, 1, 2, 4}{
                    \draw[gray] (-0.07, \x) -- (0.07, \x) node[black, left, xshift=-.4cm] {\x};
                };

            \draw[cm={(1,0,0,1, (-0.1491,-1.043)}, ultra thick, blue] circle (0.5774 and 0.3536);
                % node[left, xshift=-18, yshift=25] {$Q$};
            % \draw[dotted] (0,0) -- (10, -20);
            % \draw[dotted] (0,0) -- (15, 7.5);
            % \fill[red] (0.4472, -0.8944) circle (.3mm) node[black, above right] {$v_1$};
            % \fill[red] (0.8944, 0.4472) circle (.3mm) node[black, above left] {$v_2$};
        \end{tikzpicture}

Durch eine Verschiebung können wir nun diese Quadrik bijektiv auf die Quadrik

\[ Q(\operatorname{diag}(3,8), 0, -1) = \{ (x,y)^t\in \mathbb R^2;\ 3x^2 + 8y^2 = 1 \} \]

abbilden, siehe die folgende Abbildung.

\begin{tikzpicture} [scale=2]
           \clip (-1.5, -1.5) rectangle + (3, 3);
                \draw[->, gray, thick] (-5, 0) -- (1.5, 0);
                \draw[->, gray, thick] (0, -8.5) -- (0, 1.5);

                \foreach \x in {-8, -6, -4, -2, -1, 1, 2, 4, 6, 8}{
                    \draw[gray] (\x, -0.07) -- (\x, 0.07) node[black, below, yshift=-.4cm] {\x};
                };
                \foreach \x in {-4, -2, -1, 1, 2, 4}{
                    \draw[gray] (-0.07, \x) -- (0.07, \x) node[black, left, xshift=-.4cm] {\x};
                };

            \draw[ultra thick, blue] circle (0.5774 and 0.3536);
            % node[left, xshift=-18, yshift=25] {$Q$};
        \end{tikzpicture}

Die Symmetrieachsen (die Hauptachsen) dieser Ellipse sind die Koordinatenachsen des Standard-Koordinatensystems von \(\mathbb R^2\).

Statt erst zu drehen und dann zu verschieben, kann man natürlich auch erst das »Zentrum« der gegebenen Quadrik in den Ursprung verschieben, d.h. eine Translation anwenden, die die gegebene Quadrik abbildet auf eine, für die der Vektor \(b\) der Nullvektor ist. Im hier gegebenen Beispiel erhält man durch diese Verschiebung die Quadrik \(Q\left( \begin{pmatrix} 7 & 2 \\ 2 & 4 \end{pmatrix}, 0, -1 \right)\), die in der folgenden Abbildung zusammen mit ihren Hauptachsen und den Spalten \(v_1\), \(v_2\) der Matrix \(S\) gezeigt wird.

\begin{tikzpicture} [scale=2]
           \clip (-1.5, -1.5) rectangle + (3, 3);
                \draw[->, gray, thick] (-5, 0) -- (1.5, 0);
                \draw[->, gray, thick] (0, -8.5) -- (0, 1.5);

                \foreach \x in {-8, -6, -4, -2, -1, 1, 2, 4, 6, 8}{
                    \draw[gray] (\x, -0.07) -- (\x, 0.07) node[black, below, yshift=-.4cm] {\x};
                };
                \foreach \x in {-4, -2, -1, 1, 2, 4}{
                    \draw[gray] (-0.07, \x) -- (0.07, \x) node[black, left, xshift=-.4cm] {\x};
                };

            \draw[cm={(cos(-26.565), -sin(-26.565), sin(-26.565), cos(-26.565),
                (0,0)}, ultra thick, blue] circle (0.3536 and 0.5774);
            % node[left, xshift=-28, yshift=15] {$Q$};
            \draw[dotted] (0,0) -- (10, -20);
            \draw[dotted] (0,0) -- (15, 7.5);
            \fill[red] (0.4472, -0.8944) circle (.3mm) node[black, above right] {$v_1$};
            \fill[red] (0.8944, 0.4472) circle (.3mm) node[black, above left] {$v_2$};
        \end{tikzpicture}

Wir kommen noch einmal auf den allgemeinen Fall zurück. Quadriken der einfachen Form \(Q(D, 0, c)\) für eine Diagonalmatrix \(D\), wie wir sie als Ergebnis der oben beschriebenen Methode erhalten haben, kann man (für nicht zu großes \(n\)) recht konkret beschreiben.

Wir wollen das hier für \(n=2\) tun. Dazu schreiben wir \(D=\operatorname{diag}(d_1, d_2)\), \(d_1, d_2\ne 0\). Wegen \(Q(D, 0, c) = Q(-D, 0, -c)\) können wir außerdem annehmen, dass \(d_1 {\gt} 0\) gilt.

Fall 1: \(d_1, d_2 {\gt} 0\). Für \(c {\lt} 0\) ist \(Q(D, 0, c)\) die Ellipse

\[ \{ x = (x_1, x_2)^t\in \mathbb R^2;\ d_1 x_1^2 + d_2 x_2^2 = -c \} . \]

Falls \(d_1\ne d_2\) gilt, dann hat diese Menge genau zwei Symmetrieachsen (die Hauptachsen der Ellipse), und zwar die beiden Koordinatenachsen. Die Scheitelpunkte der Ellipse sind die Schnittpunkt mit den Hauptachsen, also die vier Punkte \((\pm \sqrt{-\frac{c}{d_1}}, 0)^t\) und \((0, \pm \sqrt{-\frac{c}{d_2}})^t\). Im speziellen Fall \(D= dE_2\) ist \(Q(D, 0, c)\) ein Kreis (mit dem Ursprung als Mittelpunkt und Radius \(\sqrt{-cd^{-1}}\)). In diesem Fall ist jede Ursprungsgerade eine Symmetrieachse.

Für \(c {\gt} 0\) ist \(Q(D, 0, c) =\emptyset \) und \(Q(D, 0, 0)\) besteht nur aus dem Ursprung.

Fall 2: \(d_1 {\gt} 0\), \(d_2 {\lt} 0\). Für \(c\ne 0\) ist \(Q(D, 0, c)\) eine Hyperbel. In diesem Fall kann man die Gleichung \(d_1 x_1^2 + d_2 x_2^2 = -c\) umschreiben als

\[ (\sqrt{d_1}x_1- \sqrt{-d_2}x_2)(\sqrt{d_1}x_1+\sqrt{-d_2}x_2) = -c. \]

Wenn man \(X_1 = \sqrt{d_1}x_1- \sqrt{-d_2}x_2\), \(X_2 = \sqrt{d_1}x_1+\sqrt{-d_2}x_2\) setzt, so erkennt man die »übliche« Hyperbelgleichung \(X_1 X_2 = -c\) bzw. \(X_2 = -\frac{c}{X_1}\).

\begin{tikzpicture} [scale=2]
        \newcommand\tikzhyperbola[6][thick]{%
        \draw [#1, rotate around={#2: (0, 0)}, shift=#3]
            plot [variable = \t, samples=1000, domain=-#6:#6] ({#4 / cos( \t )}, {#5 * tan( \t )});
        \draw [#1, rotate around={#2: (0, 0)}, shift=#3]
            plot [variable = \t, samples=1000, domain=-#6:#6] ({-#4 / cos( \t )}, {#5 * tan( \t )});
        }
           \clip (-2.5, -2.5) rectangle + (5, 5);
                \draw[->, gray, thick] (-5, 0) -- (2.3, 0);
                \draw[->, gray, thick] (0, -8.5) -- (0, 2.3);

                \foreach \x in {-8, -6, -4, -2, -1, 1, 2, 4, 6, 8}{
                    \draw[gray] (\x, -0.07) -- (\x, 0.07) node[black, below, yshift=-.4cm] {\x};
                };
                \foreach \x in {-4, -2, -1, 1, 2, 4}{
                    \draw[gray] (-0.07, \x) -- (0.07, \x) node[black, left, xshift=-.4cm] {\x};
                };

            \coordinate (center) at (0,0);
            \tikzhyperbola[blue, ultra thick]{0}{(center)}{1cm}{1cm}{70}
            \tikzhyperbola[red, ultra thick]{90}{(center)}{1cm}{1cm}{70}

            \draw[black, ultra thick] (-3,-3) -- (3,3);
            \draw[black, ultra thick] (-3,3) -- (3,-3);
        \end{tikzpicture}

Diese Abbildung zeigt die Hyperbel \(Q(\operatorname{diag}(1,-1), 0, -1) = \{ (x,y)^t\in \mathbb R^2;\ x^2-y^2 = 1\} \) (in Blau), die Hyperbel \(Q(\operatorname{diag}(1,-1), 0, 1) = \{ (x,y)^t\in \mathbb R^2;\ x^2-y^2 = -1\} \) (in Rot) und die »ausgeartete« Quadrik \(Q(\operatorname{diag}(1,-1), 0, 0)\) (eine Vereinigung von zwei Geraden, in Schwarz).

Die Symmetrieachsen (die Hauptachsen) der Hyperbel sind die Koordinatenachsen, die Scheitelpunkte der Hyperbel, also die Schnittpunkt mit den Koordinatenachsen sind im Fall \(c {\gt} 0\) die beiden Punkte \((0, \pm \sqrt{-\frac{c}{d_2}})^t\) und im Fall \(c {\lt} 0\) die beiden Punkte \((\pm \sqrt{-\frac{c}{d_1}}, 0)^t\).

Für \(c=0\) ist \(Q(D, 0, 0)\) die Vereinigung zweier Geraden, die sich im Ursprung schneiden. Auch in diesem Fall sind die Koordinatenachsen die Symmetrieachsen dieser Quadrik. Diese beiden Geraden sind die Asymptoten der Hyperbeln \(Q(D, 0, c)\) (für dasselbe \(D\) und \(c\ne 0\)).

In ähnlicher Weise kann man den Fall analysieren, dass \(A\) nicht invertierbar ist, und eine ähnliche »Klassifikation« für \(n=3\) durchführen, siehe zum Beispiel Wikipedia oder die unten angegebenen Referenzen.

Als Schlussbemerkung sei noch hinzugefügt, dass die Theorie noch durchsichtiger wird, wenn man diese Quadriken im »projektiven Raum« betrachtet (siehe zum Beispiel  [ Fi-AG ] , Kapitel 3.5). Es lohnt sich also, später noch einmal zu diesem Thema zurückzukehren.

Ergänzung 19.117 Kegelschnitte

An diese Stelle passt auch gut eine Diskussion des klassischen Begriffs des Kegelschnitts, die wir für den Moment aber sehr kurz halten.

\includegraphics[width=6.75cm]{cyclopedia1} \includegraphics[width=7.5cm]{cyclopedia2}

Abbildung 19.2 Titelblatt und die Seite mit Kegelschnitten (conic sections oder einfach conics) der Cyclopaedia,einer 1728 erschienenen Enzyklopädie von Ephraim Chambers. Bildquelle: Wikipedia / public domain

Dazu betrachten wir den folgenden Kegel in \(\mathbb R^3\):

\[ C=\{ (x,y,z)\in \mathbb R^3;\ x^2 + y^2 = z^2 \} . \]

Definieren wir die Bilinearform \(\beta \) auf \(\mathbb R^3\) durch \(\beta (v,w) = v^tBw\) mit

\[ B = \operatorname{diag}(1,1,-1), \]

so ist \(C\) genau die Menge aller \(v\in \mathbb R^3\), für die \(\beta (v,v) = 0\) gilt.

Unter einem Kegelschnitt verstehen wir dann einen Durchschnitt der Form \(C\cap E\), wobei \(E\subseteq \mathbb R^3\) eine affine Ebene, also eine Nebenklasse eines zweidimensionalen Untervektorraums \(U\) ist.

Schreiben wir \(U=\operatorname{Ker}(\lambda )\) für eine Linearform \(\lambda \colon \mathbb R^3\to \mathbb R\), so hat \(E\) die Form

\[ E = \{ v\in \mathbb R^3;\ \lambda (v) = d\} \]

für ein (von \(E\) abhängiges) \(d\in \mathbb R\). Explizit ist dann der Kegelschnitt \(C\cap E\) gegeben als

\[ C \cap E = \{ v\in \mathbb R^3;\ \beta (v, v) = 0,\ \lambda (v) = d. \} \]

Das Ziel der Theorie der Kegelschnitte ist eine geometrische Beschreibung und Klassifikation dieser Teilmengen von \(\mathbb R^3\).

Sei \(p\in E\cap U^\perp \) (dieser Punkt ist (warum?) eindeutig bestimmt, d.h. \(E\cap U^\perp \) enthält genau ein Element). Dann ist

\[ E\to U,\quad v\mapsto v-p, \]

eine Bijektion, die \(E\cap C\) abbildet auf

\[ \{ u\in U;\ \beta (u+p, u+p) = 0 \} = \{ u\in U;\ \beta (u,u) = -\beta (p,p)\} . \]

Wir können den Kegelschnitt \(E\cap C\) also mit einer Quadrik in dem zweidimensionalen euklidischen Vektorraum \(U\) identifizieren und die Theorie der Quadriken anwenden.

Sei zunächst \(\beta (p,p)\ne 0\). Wenn dann \(\beta _{|U\times U}\) Signaturtyp \((2,0,0)\) hat, so liegt eine Ellipse vor, ist der Signaturtyp \((1,1,0)\), so handelt es sich um eine Hyperbel. Außerdem kann der Fall einer Parabel auftreten, wenn \(\beta _{|U\times U}\) ausgeartet ist (diesen Fall hatten wir in der Diskussion von Quadriken ausgeschlossen). Wenn \(\beta (p,p)=0\) ist, können weitere »ausgeartete« Fälle auftreten: Dann kann \(E\cap C\) aus zwei sich schneidenden Geraden, aus einer einzigen Geraden oder nur aus einem einzigen Punkt (dem Ursprung) bestehen.