Inhalt

19.8 Die Singulärwertzerlegung und die Polarzerlegung

19.8.1 Die Singulärwertzerlegung

Eine weitere wichtige Folgerung aus dem Spektralsatz für selbstadjungierte Endomorphismen ist die sogenannte Singulärwertzerlegung für komplexe oder reelle Matrizen, die insbesondere auch dann sehr nützlich ist, wenn konkrete Berechnungen mit (großen) Matrizen gemacht werden sollen. In der Numerik wird die Theorie noch weiter entwickelt, wir wollen das Thema aber hier als eine weitere schöne Anwendung des Spektralsatzes anreißen. Auch abseits der Nützlichkeit für Berechnungen trägt der Satz zum strukturellen Verständnis beiträgt.

Satz 19.118 Singulärwertzerlegung

Sei \(A\in M_{m\times n}(\mathbb K)\). Dann existieren Matrizen \(V\in GL_m(\mathbb K)\) und \(W\in GL_n(\mathbb K)\) mit \(V^{-1} = V^\ast \), \(W^{-1} = W^\ast \) und eine (Block-)Matrix

\[ \Sigma = \begin{pmatrix} \Sigma _r & 0 \\ 0 & 0 \end{pmatrix} \in M_{m\times n}(\mathbb R), \]

wobei \(\Sigma _r = \operatorname{diag}(\sigma _1, \dots , \sigma _r)\), \(\sigma _i\in \mathbb R\) mit \(\sigma _1\ge \cdots \ge \sigma _r {\gt} 0\) und \(r = \operatorname{rg}(A)\) ist, so dass

\[ A= V\, \Sigma \, W^\ast \]

gilt.

Dabei ist die Matrix \(\Sigma \) eindeutig durch \(A\) bestimmt. Die Zahlen \(\sigma _i\) heißen die Singulärwerte von \(A\).

Es ist in diesem Kontext üblich, die orthogonalen bzw. unitären Matrizen im Satz mit \(V\) und \(W\) zu bezeichnen, so dass wir von unserer gewohnten Konvention, dass \(V\) und \(W\) Vektorräume bezeichnen, in diesem Abschnitt abweichen.

Beweis für \(m=n\), \(A\in GL_n(\mathbb K)\)

Wir geben zuerst den Beweis in dem übersichtlicheren Fall, dass \(m=n\) und \(A\) invertierbar ist. Der allgemeine Fall ist ein bisschen schwieriger und von der Notation her etwas schwerer zu durchdringen. Sei also \(A \in GL_n(\mathbb K)\).

Wir beginnen mit der Eindeutigkeitsaussage. Ist \(A = V\Sigma W^\ast \) wie im Satz, so ist \(\Sigma ^2 = W^{-1}(A^\ast A)W\) konjugiert zu der hermiteschen (und daher diagonalisierbaren) Matrix \(A^\ast A\), also sind die Diagonaleinträge von \(\Sigma \) die Quadratwurzeln der Eigenwerte von \(A^\ast A\) und sind daher durch \(A\) eindeutig bestimmt.

Wir sehen hier auch schon einen Ansatz für den Existenzbeweis. Die Matrix \(A^\ast A\) ist hermitesch, und die zugehörige Sesquilinearform \(\beta \), \((v, w)\mapsto v^\ast (A^\ast A) w\), ist positiv semidefinit:

\[ v^\ast (A^\ast A) v = (Av)^\ast \, (Av) \ge 0. \]

Weil \(A\) und damit auch \(A^\ast A\) invertierbar ist, ist \(\beta \) nicht-ausgeartet, also positiv definit (Korollar 19.54). Nach dem Spektralsatz (in der Form von Korollar 19.110) existiert eine orthogonale bzw. unitäre Matrix \(W\), so dass \(D := W^\ast (A^\ast A)W\) eine Diagonalmatrix \(D=\operatorname{diag}(d_1, \dots , d_n) \in GL_n(\mathbb R)\) mit positiven Einträgen auf der Diagonale ist. Indem wir gegebenenfalls noch mit einer Permutationsmatrix konjugieren und \(W\) entsprechend abändern, können wir annehmen, dass diese Werte absteigend angeordnet sind. (Man beachte, dass alle Permutationsmatrizen orthogonal sind.) Wir definieren \(\sigma _i := \sqrt{d_i}\in \mathbb R_{{\gt} 0}\) und

\[ \Sigma = \operatorname{diag}(\sigma _1, \dots , \sigma _n). \]

Es gilt dann also \(\Sigma ^2 = D\).

Wir setzen jetzt \(V = AW\Sigma ^{-1}\). Dann gilt \(A = V\, \Sigma \, W^\ast \) nach Definition von \(V\) und außerdem (wegen \(W^\ast A^\ast = DW^{-1}A^{-1}\))

\[ V^\ast = (AW\Sigma ^{-1})^\ast = \Sigma ^{-1} W^\ast A^\ast = \Sigma ^{-1} \Sigma ^2 W^{-1} A^{-1} = V^{-1}. \]

Die Existenz der gesuchten Zerlegung ist damit auch bewiesen.

Bevor wir den Beweis im allgemeinen Fall geben, notieren wir noch ein einfaches Lemma.

Lemma 19.119

Sei \(A\in M_{m\times n}(\mathbb K)\). Dann gilt \(\operatorname{rg}(A^\ast A) = \operatorname{rg}(A)\).

Beweis

Wegen der Dimensionsformel genügt es, \(\operatorname{Ker}(A^\ast A)=\operatorname{Ker}(A)\) zu zeigen. Die Inklusion \(\supseteq \) ist dabei offensichtlich. Wenn andererseits \(A^\ast Av = 0\) gilt, dann folgt \((Av)^\ast (Av) = v^\ast A^\ast A v = 0\), also \(Av =0\), weil das Standardskalarprodukt nicht-ausgeartet ist. Damit ist die Gleichheit bewiesen.

Beweis von Satz 19.118

Auch für nicht-quadratisches \(A\) ist die quadratische Matrix \(A^\ast A\) hermitesch und positiv semi-definit, wie man leicht mit derselben Rechnung wie im quadratischen Fall überprüft.

Die Eindeutigkeit von \(\Sigma \) können wir dann ähnlich wie in dem vorher behandelten Fall beweisen, denn aus \(A=V\Sigma W^\ast \) (für \(V\), \(W\), \(\Sigma \) mit den Eigenschaften, die im Satz angegeben wurden) folgt \(W\Sigma ^\ast \Sigma W^{-1} = W\Sigma ^\ast V^\ast V \Sigma W^\ast = A^\ast A\). Die Matrix \(\Sigma ^\ast \Sigma \) ist eine Diagonalmatrix in \(M_n(\mathbb R)\), deren erste \(r\) Einträge die Zahlen \(\sigma _i^2\) sind; die anderen Einträge sind \(=0\). Die Rechnung zeigt, dass diese Zahlen genau die Eigenwerte der Matrix \(A^\ast A\) sind, sie sind also durch \(A\) festgelegt. Damit sind \(\sigma _1, \dots , \sigma _r\) als die Quadratwurzeln der positiven Eigenwerte von \(A^\ast A\) bestimmt.

Auch den Existenzbeweis beginnen wir ähnlich wie vorher: Wir können nach Korollar 19.110 und Lemma 19.119

\[ W^\ast (A^\ast A)W = \Sigma ^\ast \Sigma \]

für

\[ \Sigma = \begin{pmatrix} \operatorname{diag}(\sigma _1,\dots , \sigma _r) & 0 \\ 0 & 0 \end{pmatrix} \in M_{m\times n}(\mathbb R) \]

in der im Satz angegebenen Form (und für \(r=\operatorname{rg}(A)\)) schreiben. Wie im vorherigen Fall können wir erreichen, dass \(\sigma _1\ge \cdots \ge \sigma _r\) gilt, und nehmen an, dass das der Fall ist.

Schreiben wir \(S_1, \dots , S_n\in \mathbb K^m\) für die Spalten von \(AW\) und schreiben wir die obige Definition von \(\Sigma \) um als

\[ (AW)^\ast (AW) = \operatorname{diag}(\sigma _1^2, \dots , \sigma _r^2, 0, \dots , 0), \]

so sehen wir, dass gilt:

  1. \(S_i^\ast S_j = 0\) für alle \(i\ne j\),

  2. \(S_i^\ast S_i = \sigma _i^2 \ne 0\) für \(i=1, \dots , r\),

  3. \(S_i^\ast S_i = 0\), also \(S_i=0\) für \(i=r+1, \dots , n\).

Aus (a) und (b) folgt, dass \(b_1:=\frac{1}{\sigma _1} S_1,\dots , b_r:=\frac{1}{\sigma _r} S_r\) ein Orthonormalsystem in \(\mathbb K^m\) bilden. Wir ergänzen dieses zu einer Orthonormalbasis \(\mathscr B=(b_1,\dots , b_m)\) von \(\mathbb K^m\) und definieren \(V\) als die (invertierbare) Matrix mit den Spalten \(b_1,\dots , b_m\). Es gilt dann \(V^{-1} = V^\ast \), weil \(\mathscr B\) eine Orthonormalbasis ist.

Behauptung. Es gilt \(A=V\Sigma W^\ast \).

Begründung. Es ist äquivalent zu zeigen, dass \(AW = V\Sigma \) ist. Für die ersten \(r\) Spalten folgt das aus der Definition von \(V\). Die letzten \(n-r\) Spalten beider Matrizen sind Null nach (c) bzw. nach Definition von \(\Sigma \).

Beispiel 19.120

Wir berechnen als einfaches Beispiel eine Singulärwertzerlegung der Matrix

\[ A = \begin{pmatrix} \frac45 & -3 \\ \frac35 & 4 \end{pmatrix} \]

Es ist dann

\[ A^\ast A = \begin{pmatrix} 1 & 0 \\ 0 & 25 \end{pmatrix}. \]

Dies ist bereits eine Diagonalmatrix, so dass wir für \(W\) eine Permutationsmatrix wählen können, die die Einträge in absteigende Reihenfolge bringt, im hier gegebenen Fall also

\[ W = \begin{pmatrix} 0 & 1 \\ 1 & 0 \end{pmatrix}. \]

Dann setzen wir

\[ \Sigma = \operatorname{diag}(5, 1) \]

und

\[ V = AW\Sigma ^{-1} = \begin{pmatrix} \frac45 & -3 \\ \frac35 & 4 \end{pmatrix} \begin{pmatrix} 0 & 1 \\ 1 & 0 \end{pmatrix} \begin{pmatrix} \frac15 & 0 \\ 0 & 1 \end{pmatrix} = \frac15 \begin{pmatrix} -3 & 4 \\ 4 & 3 \end{pmatrix}. \]

Damit erhalten wir

\[ A = \frac15 \begin{pmatrix} -3 & 4 \\ 4 & 3 \end{pmatrix} \begin{pmatrix} 5 & 0 \\ 0 & 1 \end{pmatrix} \begin{pmatrix} 0 & 1 \\ 1 & 0 \end{pmatrix} \]

als eine Singulärwertzerlegung der Matrix \(A\). Eine andere Möglichkeit wäre, \(W= \begin{pmatrix} 0 & -1 \\ 1 & 0 \end{pmatrix}\) zu setzen. Weil \(A\) invertierbar ist, ist \(V\) eindeutig bestimmt, sobald \(W\) gewählt wurde.

Bemerkung 19.121

Es ist nützlich, die Singulärwertzerlegung mit dem Satz über die Smith-Normalform (Satz I.7.37) zu vergleichen, den wir folgendermaßen formulieren können: Für jeden Körper \(K\) und jede Matrix \(A\in M_{m\times n}(K)\) existieren invertierbare Matrizen \(V\in M_m(K)\) und \(W\in M_n(K)\) mit

\[ A = V\, \begin{pmatrix} E_r & 0 \\ 0 & 0 \end{pmatrix} W^{-1}. \]

Dieses Ergebnis gilt also über jedem Körper, und die Normalform ist einfacher, als diejenige, die wir aus der Singulärwertzerlegung erhalten.

Die Singulärwertzerlegung gilt über \(\mathbb R\) und über \(\mathbb C\), ist aber dort eine wesentlich stärkere Aussage, weil \(V\) und \(W\) orthogonale bzw. unitäre Matrizen sind. Stellt man sich diese Matrizen als Basiswechselmatrizen vor, so brauchen wir also nur einen Basiswechsel von der Standardbasis zu einer Orthonormalbasis von \(\mathbb K^n\) durchzuführen. Sowohl rechnerisch als auch geometrisch ist das wesentlich einfacher.

Dass die erhaltene »Normalform«, also die Matrix \(\Sigma \), in diesem Fall komplizierter ist als im Fall der Smith-Normalform ist eher ein Vorteil als ein Nachteil, weil \(\Sigma \) noch mehr Informationen über \(A\) enthält als nur den Rang von \(A\). Diesen Aspekt wollen wir im Folgenden noch etwas weiter beleuchten.

Im folgenden Lemma könnten wir über einem beliebigen Körper (mit einer Involution \(\sigma \)) arbeiten, es wird aber speziell in der Situation der Singulärwertzerlegung nützlich sein, daher formulieren wir es für den Fall der reellen bzw. komplexen Zahlen.

Lemma 19.122

Seien \(m,n\in \mathbb N\). Seien \(V\in M_m(\mathbb K)\), \(W\in M_n(\mathbb K)\) und \(\Sigma = \begin{pmatrix} \Sigma _r & 0 \\ 0 & 0 \end{pmatrix}\in M_{m\times n}(\mathbb K)\) mit \(\Sigma _r = \operatorname{diag}(\sigma _1,\dots , \sigma _r)\), \(\sigma _i\in \mathbb K\).

Wir bezeichnen mit \(v_1, \dots , v_n\) die Spalten von \(V\) und mit \(w_1,\dots , w_n\) die Spalten von \(W\).

Dann gilt

\[ V\Sigma W^\ast = \sum _{j=1}^r \sigma _j v_j w_j^\ast . \]

Beweis

Der Beweis ist eine einfache Rechnung (und vielleicht ist es einfacher, die Rechnung selbst zu machen, als den Beweis hier durchzugehen).

Wir schreiben \(V=(v_{ij})_{i,j}\), \(W=(w_{jk})_{j,k}\) und setzen \(\sigma _j = 0\) für \(j {\gt} r\). Der Eintrag in Zeile \(i\) und Spalte \(k\) des Produkts \(V\Sigma W^\ast \) ist dann

\[ \sum _{j=1}^n v_{ij} \sigma _j \overline{w_{kj}} = \sum _{j=1}^r v_{ij} \sigma _j \overline{w_{kj}}. \]

Andererseits ist \(v_j = (v_{1j}, \dots , v_{mj})^t\), \(w_j=(w_{1j}, \dots , w_{nj})^t\), also \(w_j^\ast = (\overline{w_{1j}}, \dots , \overline{w_{nj}})\), und damit

\[ v_j w_j^\ast = (v_{ij}\overline{w_{kj}})_{ik} \in M_{m\times n}(\mathbb K). \]

Insgesamt folgt damit die Behauptung.

Sei nun \(A = V\Sigma W^\ast \) eine Matrix vom Rang \(r\) wie im Satz über die Singulärwertzerlegung. Seien \(\sigma _i\) die Singulärwerte von \(A\). Wie im Lemma bezeichnen wir mit \(v_j\) bzw. \(w_j\) die Spalten von \(V\) und \(W\) und erhalten dann

\[ A = \sum _{j=1}^r \sigma _j v_j w_j^\ast . \]

Die Matrizen \(\sigma _j v_j w_j^\ast \in M_{m\times n}(\mathbb K)\) haben alle Rang \(=1\) (denn alle Spalten sind Vielfache von \(v_j\), und mindestens eine Spalte ist \(\ne 0\), weil weder \(v_j\) noch \(w_j\) noch \(\sigma _j\) verschwinden). Wir können also mittels der Singulärwertzerlegung die Matrix \(A\) in einer ganz speziellen Weise als Summe von Matrizen vom Rang \(1\) schreiben.

Andererseits hat für \(k\le r\) die Summe

\[ \sum _{j=1}^k \sigma _j v_j w_j^\ast \]

Rang \(k\), wie man sieht, wenn man wieder Lemma 19.122 anwendet und das obige Argument »rückwärts« durchgeht. Sie kann folglich als Approximation von \(A\) durch eine Matrix vom Rang \(k\) betrachtet werden (jedenfalls, wenn man an den Fall denkt, dass nur Summanden wegfallen, für die \(\sigma _j\) »klein« ist). In der Tat kann man zeigen, dass dies in einem geeigneten Sinne die beste Approximation von \(A\) durch eine Matrix vom Rang \(k\) ist, siehe die folgende Ergänzung 19.123. Für die Praxis bedeutet das, dass die Singulärwertzerlegung eine nützliche Methode zur Datenkompression ist: Wenn \(A\in M_{m\times n}(\mathbb K)\) eine Matrix ist (die nicht zufällig sehr viele Nullen enthält oder eine andere offensichtliche Struktur hat), muss man \(mn\) Zahlen abspeichern, um die durch \(A\) gegebene Information vollständig abzuspeichern. Wenn es genügt, diese Information »näherungsweise« zu behalten, d.h. wenn man \(A\) durch die oben gegebene Approximation für ein geeignet gewähltes \(k\) ersetzt, so muss man nur noch die Zahlen und Vektoren speichern, die in die Summe \(\sum _{j=1}^k \sigma _j v_j w_j^\ast \) eingehen, also nur \(k(m+n+k)\) Zahlen abspeichern. Siehe Abschnitt 19.9.4.

Ergänzung 19.123

Um die Tatsache zu präzisieren, dass man aus der Singulärwertzerlegung die »beste« Approximation einer Matrix \(A\) durch eine Matrix vom Rang \(k\le r\) erhält, betrachten wir auf dem Raum \(M_{m\times n}(\mathbb K)\) die sogenannte Spektralnorm, die für \(A\in M_{m\times n}(\mathbb K)\) definiert ist durch

\[ \lVert A\rVert _2 := \sup _{x\in \mathbb K^n\setminus \{ 0\} } \frac{\lVert Ax\rVert }{\lVert x\rVert } = \sup _{x\in \mathbb K^n,\ \lVert x\rVert = 1} \lVert Ax\rVert , \]

wobei im Zähler bzw. Nenner im Term in der Mitte die Norm auf \(\mathbb K^m\) bzw. auf \(\mathbb K^n\) verwendet werde, die durch das jeweilige Standardskalarprodukt induziert wird. Weil die Menge \(\{ x\in \mathbb K^n;\ \lVert x\rVert = 1\} \) eine kompakte Teilmenge von \(\mathbb K^n\) ist, wird das Supremum an einem Punkt dieser Teilmenge angenommen, es handelt sich also in beiden Fällen um ein Maximum.

Es ist leicht zu zeigen, dass die Abbildung \(M_{m\times n}(\mathbb K)\to \mathbb R_{\ge 0}\), \(A\mapsto \lVert A\rVert _2\), die Eigenschaften einer Norm auf dem \(\mathbb K\)-Vektorraum \(M_{m\times n}(\mathbb K)\) hat (vergleiche Ergänzung 19.58), es gilt also

  1. \(A = 0\quad \Leftrightarrow \quad \lVert A\rVert _2 = 0\) für alle \(A\in M_{m\times n}(\mathbb K)\),

  2. \(\lVert a A\rVert _2 = \lvert a\rvert \, \lVert A\rVert _2\) für alle \(a\in \mathbb K\),

  3. \(\lVert A+B\rVert _2 \le \lVert A\rVert _2 + \lVert B\rVert _2\) für alle \(A,B\in M_{m\times n}(\mathbb K)\).

Eine Diagonalmatrix \(D=\operatorname{diag}(d_1,\dots , d_n)\) hat die Spektralnorm \(\lVert D\rVert _2 = \max _i \lvert d_i\rvert \), wie man leicht anhand der Definition zeigt. Analog verhält es sich für Matrizen der Form, die die Matrix \(\Sigma \) in der Singulärwertzerlegung hat.

Das nächste Lemma zeigt, dass die Spektralnorm »unitär invariant« ist, sich also nicht verändert, wenn man eine Matrix von links und/oder rechts mit einer unitären Matrix multipliziert.

Lemma 19.124

Seien \(A\in M_{m\times n}(\mathbb K)\) und seien \(V\in GL_m(\mathbb K)\), \(W\in GL_n(\mathbb K)\) orthogonale bzw. unitäre Matrizen, d.h. es gelte \(V^{-1}=V^\ast \), \(W^{-1}= W^\ast \).

Dann ist \(\lVert A\rVert _2 = \lVert VAW\rVert _2\).

Beweis

Wir lassen den (einfachen) Beweis aus.

Als Folgerung sehen wir: Hat \(A\in M_{m\times n}(\mathbb K)\), \(A\ne 0\), die Singulärwertzerlegung \(A=V\Sigma W^\ast \) und sind \(\sigma _1\ge \cdots \ge \sigma _r\) die Singulärwerte von \(A\), so gilt \(\lVert A\rVert _2 = \lVert \Sigma \rVert _2 = \sigma _1\). Wenn wir die Beschreibung der Singulärwerte als der Quadratwurzeln der positiven Eigenwerte der Matrix \(A^\ast A\) verwenden, sehen wir: Für jede Matrix \(A\) ist \(\lVert A\rVert _2^2\) der größte Eigenwert der positiv semidefiniten hermiteschen Matrix \(A^\ast A\). (Damit kann man auch das obige Kompaktheitsargument umgehen und einen anderen Beweis dafür geben, dass das Supremum in der Definition der Spektralnorm immer angenommen wird.)

Satz 19.125

Sei \(A\in M_{m\times n}(\mathbb K)\) mit Singulärwertzerlegung \(A=V\Sigma W^\ast \), und sei \(r=\operatorname{rg}(A)\). Sei \(k\le r\) und

\[ A_k = \sum _{j=1}^k \sigma _j v_j w_j^\ast , \]

wobei wie oben mit \(v_j\) bzw. \(w_j\) die Spalten von \(V\) bzw. \(W\) bezeichnet werden.

Dann gilt

\[ \lVert A - A_k \rVert _2 \le \lVert A-B\rVert _2 \]

für alle \(B\in M_{m\times n}(\mathbb K)\) mit \(\operatorname{rg}(B)=k\).

Beweis

Mit Lemma 19.124 folgt

\[ \lVert A-A_k\rVert _2 = \lVert V^\ast (A-A_k)W\rVert _2 = \left\lVert \begin{pmatrix} \operatorname{diag}(0, \dots , 0, \sigma _{k+1}, \dots , \sigma _r) & 0 \\ 0 & 0 \end{pmatrix} \right\rVert _2 = \sigma _{k+1}. \]

Für \(k=r\) gilt \(A_k=A\), und dann ist die Aussage klar. Sei \(k {\lt} r\) und \(B\in M_{m\times n}(\mathbb K)\) vom Rang \(k\), also \(\dim (\operatorname{Ker}(B)) = n-k\). Sei

\[ U = \langle w_1,\dots , w_{k+1}\rangle \subseteq \mathbb K^n, \]

dies ist ein Untervektorraum der Dimension \(k+1\). Aus Dimensionsgründen folgt \(U\cap \operatorname{Ker}(B) \ne 0\), es gibt also einen Vektor \(v\ne 0\) in diesem Durchschnitt. Indem wir \(v\) geeignet skalieren, können wir \(\lVert v\rVert = 1\) annehmen.

Schreiben wir \(v = \sum _{i=1}^{k+1} a_i w_i\), so haben wir \(w_j^\ast v = a_{j}\) für \(j = 1,\dots , k\), weil die \(w_j\) eine Orthonormalbasis bilden. Damit ergibt sich

\[ \lVert A-B\rVert _2 \ge \lVert (A-B)v\rVert = \lVert Av \rVert = \left\lVert \sum _{j=1}^r \sigma _j v_j w_j^\ast v\right\rVert = \left\lVert \sum _{j=1}^{k+1} \sigma _j a_j v_j \right\rVert . \]

Weil \(v_1,\dots , v_m\) eine Orthonormalbasis sind, gilt weiter

\[ \left\lVert \sum _{j=1}^{k+1} \sigma _j a_j v_j \right\rVert = \sqrt{\sum _{j=1}^{k+1} (\sigma _j a_j)^2} \ge \sigma _{k+1} \sqrt{\sum _{j=1}^{k+1} a_j^2} = \sigma _{k+1}\, \lVert v\rVert = \sigma _{k+1} = \lVert A-A_k\rVert _2, \]

und der Beweis ist abgeschlossen.

19.8.2 Die Polarzerlegung

Ist \(z\in \mathbb C^\times \), so existieren eindeutig bestimmte Zahlen \(p\in \mathbb R_{{\gt} 0}\) und \(u\in \mathbb C\) mit \(\lvert u \rvert = 1\) und \(z = pu\) (nämlich \(p = \lvert z\rvert \), \(u = p^{-1}z\)). Die Zahl \(u\) lässt sich mithilfe der (komplexen) Exponentialfunktion \(\exp \colon \mathbb C\to \mathbb C\) als \(u = \exp (i\varphi )\) für eine eindeutig bestimmte Zahl \(\varphi \in [0, 2\pi )\) schreiben. Die Darstellung \(z=p\exp (i\varphi )\) nennt man die Darstellung von \(z\) in Polarkoordinaten. Wenn man auch \(p=0\) zulässt, kann man natürlich auch \(z=0\) in dieser Form schreiben; allerdings ist dann \(u\) nicht eindeutig bestimmt. Siehe Bemerkung I.11.43.

Analog zu der Darstellung komplexer Zahlen durch Polarkoordinaten haben wir die folgende Polarzerlegung für Matrizen über den reellen oder komplexen Zahlen. (Man kann wie im Fall der Singulärwertzerlegung auch für die Polarzerlegung eine Variante für nicht-quadratische Matrizen angeben, aber wir verzichten darauf, um die Darstellung einfacher zu halten.)

Wir nennen (siehe Definition 19.51) eine hermitesche Matrix \(A\in M_n(\mathbb K)\) positiv definit, wenn \(v^\ast A v {\gt} 0\) für alle \(v\ne 0\) gilt, und positiv semidefinit, wenn \(v^\ast A v \ge 0\) für alle \(v\) gilt, also wenn die hermitesche Sesquilinearform \(\beta \) mit \(M_{\mathscr E}(\beta )=A\) die entsprechende Eigenschaft hat. (Hier sei \(\mathscr E\) die Standardbasis von \(\mathbb K^n\).)

Satz 19.126 Polarzerlegung

Seien \(n\in \mathbb N\) und \(A\in M_n(\mathbb K)\).

  1. Es existieren eine orthogonale bzw. unitäre Matrix \(U\in GL_n(\mathbb K)\) und eine eindeutig bestimmte positiv semidefinite hermitesche Matrix \(P\in M_n(\mathbb K)\) mit \(A=UP\).

  2. Ist \(A\) invertierbar, so ist auch \(U\) eindeutig bestimmt, und \(P\) ist sogar positiv definit.

Beweis

Sei \(A = V\Sigma W^\ast \) eine Singulärwertzerlegung von \(A\). Wir setzen dann \(U=VW^\ast \) und \(P=W \Sigma W^\ast \). Dann gilt \(A = UP\), \(U\) ist orthogonal bzw. unitär und \(P\) ist positiv semi-definit. Ist \(A\) invertierbar, so ist \(\Sigma \) eine Diagonalmatrix, deren Einträge sämtlich positiv sind, also eine positiv definite Matrix, und das gilt dementsprechend auch für \(P\).

Wir müssen noch die Eindeutigkeit von \(P\) (und im invertierbaren Fall von \(U\)) begründen.

Ist \(A=UP\), so folgt \(A^\ast A = P^\ast U^\ast UP = P^2\), also ist \(P^2\) durch \(A\) eindeutig festgelegt. Die Eindeutigkeitsaussage für \(P\) folgt daher aus dem folgenden Lemma 19.127. Ist \(A\) invertierbar, so ist auch \(P\) invertierbar, und dann ist auch \(U = AP^{-1}\) eindeutig bestimmt.

Es bleibt noch das Lemma über die »Quadratwurzel« einer positv semidefiniten Matrix nachzutragen.

Lemma 19.127

Sei \(Q\in M_n(\mathbb K)\) eine positiv semidefinite hermitesche Matrix. Dann existiert eine eindeutig bestimmte positiv semidefinite hermitesche Matrix \(P\in M_n(\mathbb K)\) mit \(P^2 = Q\).

Beweis

Es existiert eine orthogonale bzw. unitäre Matrix \(S\), so dass \(D:=S^\ast Q S\) eine Diagonalmatrix ist (Korollar 19.110). Weil \(Q\) und damit \(D\) positiv semidefinit ist, sind alle Diagonaleinträge von \(D\) nicht-negative reelle Zahlen. Es ist dann klar, dass eine Diagonalmatrix \(D^\prime \) mit \((D^\prime )^2 = D\) existiert, und wir können \(P:=SD^\prime S^\ast \) setzen.

Nun kommen wir zur Eindeutigkeit. Sei \(P^2 = Q\) für eine positiv semidefinite hermitesche Matrix \(P\in M_n(\mathbb K)\). Sei \(S\) eine orthogonale bzw. unitäre Matrix, so dass \(S^{-1}PS\) eine Diagonalmatrix ist. Betrachten wir \(S\) als Basiswechselmatrix zwischen der Standardbasis und einer Orthonormalbasis \(\mathscr B\), so werden die Eigenräume von \(P\) jeweils von gewissen Vektoren der Basis \(\mathscr B\) erzeugt. Nun ist auch \(S^{-1}QS\) eine Diagonalmatrix, und weil für nicht-negative reelle Zahlen \(\lambda , \mu \) gilt, dass die Bedingungen \(\lambda = \mu \) und \(\lambda ^2=\mu ^2\) äquivalent sind, sehen wir, dass jeder Eigenraum von \(Q\) auch ein Eigenraum von \(P\) ist, und genauer gilt

\[ V_\lambda (P) = V_{\lambda ^2}(Q) \]

für alle \(\lambda \in \mathbb R\) (wobei wir \(V_\lambda \) als den Nullraum betrachten, wenn \(\lambda \) kein Eigenwert der betrachteten Matrix ist). Da die Matrix \(P\) als hermitesche Matrix diagonalisierbar ist, ist \(P\) durch diese Bedingungen eindeutig festgelegt.

(Auf die Voraussetzung, dass \(P\) positiv semidefinit und hermitesch sei, kann man für die Eindeutigkeitsaussage nicht verzichten!)

Dieses Lemma kann man für invertierbares \(A\) auch benutzen, um direkt die Existenz der Polarzerlegung zu beweisen. In der Tat, ist \(A\in GL_n(\mathbb K)\), so ist \(Q:=A^\ast A\) hermitesch und positiv definit, nach dem Lemma also von der Form \(P^2\) für eine positiv semidefinite hermitesche Matrix \(P\). Für \(U:=AP^{-1}\) gilt dann \(A=UP\) und

\[ U^\ast = (P^{-1})^\ast A^\ast = P^{-1} QA^{-1} = PA^{-1} = U^{-1} \]

also ist \(U\) orthogonal bzw. unitär.

Wenn \(A=UP\) die Polarzerlegung von \(A\) ist, dann ist \(\det (A) = \det (U)\det (P)\) die Polarzerlegung der komplexen Zahl \(\det (A)\) (denn \(\det (P)\in \mathbb R_{\ge 0}\) und \(\det (U)\) ist eine komplexe Zahl mit Absolutbetrag \(1\).

Ergänzung 19.128 Polarzerlegung und »nächste« unitäre Matrix

Ist \(z\in \mathbb C^\times \) eine komplexe Zahl mit Polarzerlegung \(z=up\), \(\lvert u\rvert = 1\), \(p\in \mathbb R_{{\gt} 0}\), dann ist \(u\) diejenige komplexe Zahl mit Absolutbetrag \(1\), die den kleinsten Abstand zu \(z\) hat, und \(-u\) die komplexe Zahl mit Absolutbetrag \(1\), die den größten Abstand zu \(z\) hat.

Eine ähnliche Aussage gilt für die Polarzerlegung von komplexen Matrizen. Recht leicht ist sie für die sogenannte Frobenius-Norm von Matrizen zu beweisen, die folgendermaßen definiert ist.

Definition 19.129

Unter der Frobenius-Norm \(\lVert A\rVert _F\) einer Matrix \(A=(a_{ij})_{i,j}\in M_{m\times n}(\mathbb K)\) verstehen wir die Zahl

\[ \lVert A\rVert _F:=\sqrt{\sum _{i=1}^m\sum _{j=1}^n \lvert a_{ij}\rvert ^2}\in \mathbb R_{\ge 0}. \]

Die Frobenius-Norm ist die Norm, die dem Standardskalarprodukt auf dem Vektorraum \(M_{m\times n}(K) = K^{mn}\) zugeordnet ist; wir betrachten hier also \((m\times n)\)-Matrizen als Vektoren mit \(mn\) Einträgen und die zugehörige euklidische Norm. Eine einfache Rechnung zeigt:

Lemma 19.130

Sei \(A\in M_{m\times n}(\mathbb K)\). Dann gilt

\[ \lVert A\rVert _F = \operatorname{Spur}(A^\ast A). \]

Daraus (oder einfach aus der ursprünglichen Definition) folgt, dass die Frobenius-Norm einer Diagonalmatrix \(D=\operatorname{diag}(d_1,\dots , d_n)\) gegeben ist durch \(\lVert D\rVert _F = \sqrt{\sum _{i=1}^n \lvert d_i\rvert ^2}\). Außerdem erhalten wir, dass die Frobenius-Norm unitär invariant ist.

Korollar 19.131

Seien \(A\in M_{m\times n}(\mathbb K)\), \(S\in GL_m(\mathbb K)\), \(T\in GL_n(\mathbb K)\) mit \(SS^\ast = E_m\), \(TT^\ast = E_n\). Dann gilt

\[ \lVert A\rVert _F = \lVert SAT\rVert _F. \]

Damit können wir den angekündigten Satz über die Approximationseigenschaft des Faktors \(U\) in der Polarzerlegung \(A=UP\) einer Matrix \(A\) formulieren und beweisen.

Satz 19.132

Sei \(A\in M_n(\mathbb K)\) mit Polarzerlegung \(A=UP\), \(U\in GL_n(\mathbb K)\), \(UU^\ast =E_n\), \(P\in M_n(\mathbb K)\) hermitesch und positiv semidefinit.

Dann gilt für jedes \(T\in GL_n(\mathbb K)\) mit \(TT^\ast = E_n\):

\[ \lVert A-U\rVert _F \le \lVert A-T\rVert _F \le \lVert A+U\rVert _F. \]

Beweis

Die Matrix \(P\) ist hermitesch, es existiert also \(S\in GL_n(\mathbb K)\), \(S^\ast S=E_n\), so dass \(D:=S^\ast PS\) eine Diagonalmatrix in \(M_n(\mathbb R)\) ist. Weil \(P\) positiv semidefinit ist, sind die Einträge von \(D\) alle nicht-negativ.

Weil die Frobenius-Norm unitär invariant ist, gilt

\[ \lVert A-U\rVert _F = \lVert UP-U\rVert _F = \lVert US^\ast DS -U\rVert _F = \lVert D - SS^\ast \rVert _F = \lVert D - E_n \rVert _F \]

und analog

\[ \lVert A-T\rVert _F = \lVert D-SU^\ast TS^\ast \rVert _F,\quad \lVert A+U\rVert _F = \lVert D+E_n\rVert _F. \]

Die Matrix \(SU^\ast TS^\ast \) ist als Produkt von unitären (bzw. orthogonalen) Matrizen wieder unitär (bzw. orthogonal). Es genügt also nun zu zeigen, dass für jedes \(V\in GL_n(\mathbb K)\) mit \(V^\ast V=E_n\) gilt:

\[ \lVert D-E_n\rVert _F \le \lVert D-V \rVert _F \le \lVert D+E_n\rVert _F. \]

Schreiben wir \(D=\operatorname{diag}(d_1, \dots , d_n)\) und \(V=(v_{ij})_{i,j}\), so haben wir

\begin{align*} \lVert D+V \rVert _F & = \operatorname{Spur}((D-V)^\ast (D-V)) \\ & = \operatorname{Spur}(D^\ast D) - \operatorname{Spur}(V^\ast D + D V) + \operatorname{Spur}(V^\ast V)\\ & = \lVert D\rVert _F + \operatorname{Spur}(V^\ast D + D V) + \lVert E_n \rVert _F, \end{align*}

weil die Spurabbildung linear ist, \(D^\ast =D\) gilt und \(V^\ast V=E_n\) ist. Im letzten Ausdruck dieser Gleichungskette hängt nur der mittlere Term noch von \(V\) ab, und wir wollen diesen Term für die Fälle \(E_n\), \(V\) und \(-E_n\) vergleichen. Weil für alle Matrizen \(M, M^\prime \) gilt, dass \(\operatorname{Spur}(MM^\prime )=\operatorname{Spur}(M^\prime M)\) ist, haben wir außerdem

\[ \operatorname{Spur}(V^\ast D + D V) = \operatorname{Spur}(D(V^\ast + V)) = \sum _{i=1}^n (2d_i \operatorname{Re}(v_{ii})). \]

Wenn wir für \(V\) die Einheitsmatrix bzw. das Negative der Einheitsmatrix einsetzen, ist \(v_{ii}=1\) bzw. \(v_{ii}=-1\). Wir sehen so, dass es genügt, die Abschätzung

\[ -2d_i \le 2d_i \operatorname{Re}(v_{ii}) \le 2d_i, \]

zu beweisen. Für \(d_i=0\) ist das offensichtlich. Ist \(d_i {\gt} 0\), so können wir durch \(2 d_i\) teilen und erhalten die äquivalente Aussage

\[ -1 \le \operatorname{Re}(v_{ii}) \le 1, \]

die aus \(\lVert (v_{1i}, \dots , v_{ni})^t\rVert = 1\) folgt (denn die Spalten einer orthogonalen bzw. unitären Matrix bilden eine Orthonormalbasis und haben insbesondere Norm \(=1\)).

In der Arbeit

K. Fan, A. Hoffmann, Some metric inequalities in the space of matrices, Proc. Amer. Math. Soc. 6 (1955), 111–116,
https://doi.org/10.1090/S0002-9939-1955-0067841-7

wird bewiesen, dass diese Approximationseigenschaft des unitären Faktors in der Polarzerlegung sogar für jede Norm \(\lVert \cdot \rVert \) auf \(M_n(\mathbb C)\) gilt, die unitär invariant ist, für die also \(\lVert A \rVert =\lVert SAT\rVert \) für alle \(A\in M_n(\mathbb C)\) und alle \(S, T\in U(n)\) gilt. Insbesondere hat auch die Spektralnorm \(\lVert \cdot \rVert _2\) aus Ergänzung 19.123 diese Eigenschaft (Lemma 19.124).