Inhalt

19.9 Ergänzungen *

Auch zum Thema »Bilinearformen« gäbe es noch eine Menge mehr zu sagen … Hier sind einige Beispiele (zum Teil nur sehr skizzenhaft).

19.9.1 Alternierende Bilinearformen

Sei \(K\) ein Körper.

Definition 19.133

Sei \(V\) ein \(K\)-Vektorraum. Eine Bilinearform \(\beta \colon V\times V\to K\) heißt alternierend, wenn \(\beta (v,v)=0\) für alle \(v\in V\) gilt.

Es folgt dann, dass \(\beta (v,w)=\beta (w,v)\) für alle \(v,w\in V\) ist. Gilt \(1\ne -1\) in \(K\), so gilt auch die Umkehrung.

Die Klassifikation alternierender Bilinearformen ist unabhängig vom Grundkörper und ist insofern einfacher als die Klassifikation von symmetrischen Bilinearformen.

Satz 19.134

Sei \(V\) ein endlichdimensionaler \(K\)-Vektorraum und sei \(\beta \) eine alternierende Bilinearform auf \(V\). Dann existiert eine Basis \(\mathscr B\) von \(V\), so dass die Strukturmatrix von \(\beta \) bezüglich \(\mathscr B\) eine Blockdiagonalmatrix der Form

\[ \operatorname{diag}\left( \begin{pmatrix} 0 & 1 \\ -1 & 0 \end{pmatrix}, \dots , \begin{pmatrix} 0 & 1 \\ -1 & 0 \end{pmatrix}, 0, \dots , 0 \right) \]

ist.

Wir lassen den (nicht sehr schwierigen) Beweis hier aus.

Insbesondere sehen wir, dass \(\beta \) nur dann nicht-ausgeartet sein kann, wenn \(V\) gerade Dimension hat. Das ist für Körper, in denen \(1\ne -1\) gilt, auch leicht dadurch zu zeigen, dass man die Determinante der Strukturmatrix von \(\beta \) bezüglich einer beliebigen Basis betrachtet.

Sei \(V\) ein endlichdimensionaler \(K\)-Vektorraum mit einer nicht-ausgearteten alternierenden Bilinearform \(\beta \). Dann heißt die Gruppe der »Isometrien«, also der Automorphismen von \(V\), die \(\beta \) erhalten, die symplektische Gruppe von \((V, \beta )\):

\[ \text{Sp}(V, \beta ) = \{ f\in \operatorname{Aut}_K(V);\ \beta (f(v), f(w)) = \beta (v,w) \text{für alle}\ v, w\in V\} . \]

Analog kann man eine Matrixversion der symplektischen Gruppe definieren, indem man eine nicht-ausgeartete alternierende Bilinearform auf dem Standardvektorraum \(K^n\) betrachtet.

19.9.2 Die Hornsche Vermutung

Seien \(A\in M_n(\mathbb C)\) eine hermitesche Matrix. Wir wissen (Spektralsatz für selbstadjungierte Endomorphismen, Korollar 19.109), dass \(A\) diagonalisierbar mit reellen Eigenwerten ist, und wir schreiben \(\alpha _1 \ge \cdots \ge \alpha _n\) für die Eigenwerte von \(A\), absteigend angeordnet und mit der Vielfachheit, wie sie im charakteristischen Polynom auftreten, so dass wir jeder hermiteschen Matrix der Größe \(n\times n\) ein absteigend geordnetes \(n\)-Tupel von reellen Zahlen zuordnen.

Die Hornsche Vermutung (nach A. Horn, Eigenvalues of sums of Hermitian matrices, Pacific Journal Math. 12 (1962), 225–241) betrifft die Frage, zu welchen Tupeln \(\alpha _1 \ge \cdots \ge \alpha _n\), \(\beta _1\ge \cdots \ge \beta _n\) und \(\gamma _1 \ge \cdots \ge \gamma _n\) es hermitesche Matrizen \(A\), \(B\) und \(C\) mit den jeweiligen Eigenwerten und mit \(A+B = C\) gibt.

Aus \(A+B=C\) folgt \(\operatorname{Spur}(A) + \operatorname{Spur}(B)= \operatorname{Spur}(C)\) und damit

\[ \sum _{i=1}^n \alpha _i + \sum _{i=1}^n \beta _i = \sum _{i=1}^n \gamma _i. \]

Diese Gleichung hängt offenbar nicht davon ab, dass die Matrizen hermitesch sind. (Ohne die Voraussetzung, dass \(A\), \(B\) und \(C\) hermitesch seien, kann man aber außer der Summengleichheit nicht viel darüber sagen, wie die Eigenwerte einer Summe von zwei Matrizen mit den Eigenwerten der Summanden zusammenhängen.)

Im hermiteschen Fall kann man die Menge der Tupel der obigen Form ganz präzise durch Ungleichungen an die Zahlen \(\alpha _i\), \(\beta _i\), \(\gamma _i\) beschreiben. Es ist zum Beispiel nicht sehr schwer zu sehen, dass \(\gamma _1 \le \alpha _1 + \beta _1\) gelten muss. Allgemeiner muss

\[ \gamma _{i+j-1} \le \alpha _i + \beta _j\quad \text{für alle}\ i, j\ \text{mit}\ i+j-1\le n \]

gelten, wie Hermann Weyl 1912 zeigen konnte.

Aber diese Ungleichungen reichen noch nicht aus. A. Horn gab in der oben genannten Arbeit eine Menge von Ungleichungen an, von der er vermutete, dass sie genau die Menge aller Tupel mit den obigen Eigenschaften beschreibt. Der Beweis dieser Vermutung konnte erst 1999 von Knutson und Tao, aufbauend auf Resultaten von Klyachko, Totaro und anderen, abgeschlossen werden. Die dabei verwendeten Methoden gehen weit über die lineare Algebra hinaus.

Eine umfangreiche Übersicht und weitere Literaturverweise finden Sie in dem folgenden Artikel. Allerdings ist der Beweis selbst, wie gesagt, erst mit wesentlich weitergehenden Kenntnissen zugänglich. Diese Ergänzung ist also so zu betrachten, dass ein mathematisches Problem vorgestellt wird, das mit den Methoden diese Vorlesung formuliert werden kann und schon seit über 100 Jahren untersucht wird (auch weil es auch an anderer Stelle relevant ist), das aber erst relativ kürzlich und unter Benutzung von schwierigen Ergebnissen, die über das typische Mathematikstudium hinausgehen, bewiesen wurde. Vielleicht können/mögen Sie dieses Beispiel als Motivation dafür mitnehmen, noch mehr Mathematik zu lernen.

W. Fulton, Eigenvalues, invariant factors, highest weights, and Schubert calculus, Bull. Amer. Math. Soc. 37, no. 3 (2000), 209–249.
https://www.ams.org/journals/bull/2000-37-03/S0273-0979-00-00865-X/

19.9.3 Die Moore-Penrose-Inverse

Sei \(A\in M_{m\times n}(\mathbb C)\) eine Matrix mit Singulärwertzerlegung \(A = V\Sigma W^\ast \). Wir schreiben wie oben

\[ \Sigma = \begin{pmatrix} \operatorname{diag}(\sigma _1,\dots , \sigma _r) & 0 \\ 0 & 0 \end{pmatrix} \in M_{m\times n}(\mathbb C) \]

und definieren

\[ \Sigma ^\dagger = \begin{pmatrix} \operatorname{diag}(\sigma _1^{-1},\dots , \sigma _r^{-1}) & 0 \\ 0 & 0 \end{pmatrix} \in M_{n\times m}(\mathbb C). \]

Man beachte, dass \(\Sigma ^\dagger \) eine \((n\times m)\)-Matrix ist, also dieselbe Größe hat wie \(\Sigma ^t\).

Dann kann man zeigen (siehe Satz 19.135), dass

\[ A^\dagger := W\Sigma ^\dagger V^\ast \in M_{n\times m}(\mathbb C) \]

unabhängig von der Wahl der Singulärwertzerlegung von \(A\) ist. Die Matrix \(A^\dagger \) heißt die Moore-Penrose-Inverse der Matrix \(A\). Wenn \(A\) quadratisch und invertierbar ist, so gilt offenbar \(\Sigma ^\dagger =\Sigma ^{-1}\) und es folgt \(A^\dagger =A^{-1}\). Wie die Bezeichnung suggeriert, handelt es sich also um eine Verallgemeinerung der inversen Matrix auf nicht-invertierbare und sogar nicht-quadratische Matrizen. Wir sehen an der Definition, dass \(A^\dagger \) nur reelle Zahlen als Einträge hat, sofern \(A\in M_{m\times n}(\mathbb R)\) ist.

Man kann die Moore-Penrose-Inverse auch durch die folgenden Bedingungen charakterisieren:

Satz 19.135

Sei \(A\in M_{m\times n}(\mathbb C)\). Dann existiert genau eine Matrix \(B\in M_{n\times m}(\mathbb C)\) mit den folgenden Eigenschaften:

  1. \(ABA=A\),

  2. \(BAB=B\),

  3. \(AB\) ist hermitesch,

  4. \(BA\) ist hermitesch.

Diese Matrix \(B\) ist die oben definierte Moore-Penrose-Inverse \(A^\dagger \).

Wir lassen den Beweis aus.

Im Kontext von linearen Gleichungssystemen hat die Moore-Penrose-Inverse die folgende Bedeutung. Wir betrachten ein lineares Gleichungssystem \(Ax = b\) mit \(A\in M_{m\times n}(\mathbb C)\) und \(b\in \mathbb C^m\). Für invertierbares \(A\) ist \(x = A^{-1}b\) die eindeutig bestimmte Lösung für dieses Gleichungssystem. Im allgemeinen ist das Gleichungssystem genau dann lösbar, wenn \(b\) im Bild von \(A\) liegt. In der Praxis ist man daran interessiert, einerseits in dem Fall, dass das gegebene lineare Gleichungssystem nicht lösbar ist, durch geeignete Abänderung von \(b\) zu einem lösbaren Gleichungssystem überzugehen. Andererseits möchte man auf möglichst natürliche Art und Weise aus der Lösungsmenge eine Lösung auswählen, auch wenn die Lösungsmenge mehr als ein Element enthält (und folglich unendlich ist). Die Moore-Penrose-Inverse ist eine Möglichkeit, diese Aufgabe zu lösen. Und zwar setzen wir

\[ b^\prime := AA^\dagger b. \]

Dann ist \(b^\prime \) im Bild von \(A\) und \(b^\prime = b\), sofern \(b\) im Bild von \(A\) liegt (wegen Eigenschaft (a) im vorherigen Satz). Also ist das lineare Gleichungssystem \(Ax = b^\prime \) lösbar, und in der Tat sehen wir direkt die Lösung \(x = A^\dagger b\). Im Fall, dass \(A\) invertierbar ist, ist das wegen \(A^\dagger = A^{-1}\) tatsächlich die eindeutig bestimmte Lösung des ursprünglich gegebenen Gleichungssystems. Der folgende Satz charakterisiert die Vektoren \(AA^\dagger b\) und \(A^\dagger b\) mithilfe der zum Standardskalarprodukt auf \(\mathbb C^m\) bzw. \(\mathbb C^n\) gehörigen Norm.

Satz 19.136

Seien \(A\in M_{m\times n}(\mathbb C)\) und \(b\in \mathbb C^m\). Sei \(A^\dagger \) die Moore-Penrose-Inverse von \(A\). Dann gilt \(b^\prime := AA^\dagger b \in \operatorname{Im}(A)\), und für alle \(c\in \operatorname{Im}(A)\) gilt

\[ \lVert b-b^\prime \rVert \le \lVert b - c\rVert , \]

der Vektor \(b^\prime \) mininiert also unter allen Vektoren im Bild von \(A\) den Abstand zu \(b\).

Außerdem gilt für alle \(y\in \mathbb C^n\) mit \(\lVert b - Ay\rVert = \lVert b-b^\prime \rVert \), dass

\[ \lVert A^\dagger b \rVert \le \lVert y\rVert , \]

der Vektor \(A^\dagger b\) hat also die kleinstmögliche Norm für einen Vektor, dessen Bild unter \(A\) minimalen Abstand zu \(b\) hat.

Für einen Beweis siehe  [ LM ] Satz 19.7.

19.9.4 Bildkompression mit der Singulärwertzerlegung

Wir skizzieren, wie die Singulärwertzerlegung zur Bildkompression verwendet werden kann. Auch wenn sie dafür letztlich oft nicht das Verfahren der Wahl ist, illustriert das die Möglichkeit, Daten in Matrixform mit der Singulärwertzerlegung strukturell zu zerlegen bzw. zu »analysieren« und dann zum Beispiel zu komprimieren, sehr eindrücklich.

\includegraphics[width=7cm]{svd-image-compression/buecher}

Abbildung 19.3 Das Originalfoto

Wir betrachten (ähnlich wie in Ergänzung LA1.5.63) ein Schwarz-Weiß-Bild mit der Auflösung von \(512\times 512\) Pixeln, in dem jeder Pixel, also jeder Bildpunkt, durch einen Grauwert zwischen \(0\) und \(255\) beschrieben ist.

Aus diesen Grauwerten erhalten wir eine Matrix \(A\in M_{512}(\mathbb R)\), deren Singulärwertzerlegung \(A=V\Sigma W^\ast \) wir bilden können. Wenn wir von der Diagonalmatrix \(\Sigma \) nur die ersten \(k\) Einträge behalten und den Rest auf Null setzen, erhalten wir eine »Approximation« der Matrix \(A\) (vergleiche Ergänzung 19.123) durch eine Matrix vom Rang \(k\). Um diese abzuspeichern, benötigen wir nur die ersten \(k\) Zeilen von \(V\), die ersten \(k\) Spalten von \(W\) und die ersten \(k\) Einträge auf der Diagonale von \(\Sigma \), insgesamt also nur \(512(2k+1)\) Zahlen. (Wir lassen hier allerdings unter den Tisch fallen, dass es sich bei diesen Zahlen nicht um natürliche Zahlen zwischen 0 und 255 handelt, die man direkt in einem Byte abspeichern kann, sondern um reelle Zahlen, für die man eine geeignet gute Approximation abspeichern muss.)

\includegraphics[width=7cm]{svd-image-compression/comp1} \includegraphics[width=7cm]{svd-image-compression/comp2}

\includegraphics[width=7cm]{svd-image-compression/comp3} \includegraphics[width=7cm]{svd-image-compression/comp4}

Abbildung 19.4 Das Ergebnis, wenn (von links oben nach rechts unten) nur die ersten 4 bzw. nur die ersten 25 bzw. nur die ersten 60 bzw. nur die ersten 100 Singulärwerte behalten werden.

Die Grundstruktur dieses speziellen Fotos mit den senkrechten Buchrücken kann schon mit nur 4 Singulärwerten »wiedererkennbar« gespeichert werden. Um dieselbe Druckqualität wie beim Originalbild zu erreichen, braucht man aber deutlich mehr Singulärwerte und das Verfahren ist (je nach Foto) dem Verfahren mit dem Haar-Wavelet, Ergänzung LA1.5.63, oder anderen Verfahren, unterlegen.