行列のノルムは、利用法によって様々に定義される。単純に \(m\times n\) 行列を \(mn\) 次元のベクトルとみなして \(\ell^p\) ノルムを考える場合もあるが、それ以外のものもある。
以下で定義されるノルムを作用素ノルムと呼ぶ。
\[\|A\| = \sup_{\|x\|=1} \|Ax\| = \sup_{x \not = 0} \frac{\|Ax\|}{\|x\|}\]$\sup$ は $\max$ ともできる。 通常のノルムの性質の他に以下が成立する。
特にベクトル上のノルムとして $\ell^2$-ノルムを用いた正方行列(つまり $m=n$)に対する作用素ノルムは スペクトルノルムとも呼ばれ、次の事実が追加で成立する。
特異値の計算が必要なので、スペクトルノルムの計算はそれほど容易ではない。
注 これらの事実自体は $\ell^2$ ノルムであれば $m \not = n$ でも成立することが下の証明からわかる。
これはユニタリー行列はノルムを保存する、つまり \(\|Vx\| = \|x\|, \|U^*x\| = \|x\|\) であることと作用素ノルムの定義よりわかる。
まずは $\mathbb{C}$-係数の場合の $A^*A$ の固有値に関する等式を示す。 \(A^*A\) は半正定値対称行列なので、対角化可能。\(\exists U \in U(n, \mathbb{C})\) s.t.
\[U^* A^* A U = \begin{bmatrix} \lambda_1 \\ & \ddots \\ && \lambda_n \end{bmatrix}\]ただし、$\lambda_1, \ldots, \lambda_n \geq 0$ は \(A^*A\) の固有値、が成り立つ。 この右辺の行列を $\Lambda$ とおく。ここでは話を簡単にするため、$\lambda_1$ が最大固有値であるとする(それ以外の場合でもインデックスを調整すれば同様)。
すると、次の2つが成り立つ。
一つ目の不等式は \(x = \;^t[x_1, \ldots, x_n]\) と置くと、
\[x^* \Lambda x = \sum_{i=1}^n \lambda_i x_i^2 \leq \sum_{i=1}^n \lambda_1 x_i^2 = \lambda_1 \|x\|^2\]となるためOK。2つ目の等式は \(\hat{x}^* \Lambda \hat{x} = \lambda_1\) より明らか。 よって、
\[\|A U x\|^2 = x^* U^*A^*A U x = x^* \Lambda x\]よって \(\|A U\| = \sqrt{\lambda_1}\) である。事実1より \(\|A\| = \|AU\| = \sqrt{\lambda_1}\) である。
特異値についてはここまで示した事実を使うと簡単に示せる。
特異値を $\sigma_1 \geq \cdots \geq \sigma_n \geq 0$ とすると、$\exists U, V \in U(n, \mathbb{C})$ s.t.
\[U^*AV = \begin{bmatrix} \sigma_1 \\ & \ddots \\ && \sigma_n \end{bmatrix}\]すると、
\[V^*A^*AV = (V^*A^*U)(U^* A V) = (U^*A V)^* (U^*A V) = \begin{bmatrix} \sigma_1 \\ & \ddots \\ && \sigma_n \end{bmatrix}^2 = \begin{bmatrix} \sigma_1^2 \\ & \ddots \\ && \sigma_n^2 \end{bmatrix}\]となり、\(A^*A\) の最大固有値 = \(\sigma_1^2\) = 最大特異値の二乗、となるため上の事実を用いれば \(\|A\|\) が最大特異値と一致することがわかる。
実の場合は実直交群と転置を用いればよい。
これは、$A$ の特異値と $A^*$ の特異値が等しいことからすぐわかる。
\(m\times n\) 行列 $A$ を \(mn\) 次元のベクトルとみなしたときの \(\ell^2\) ノルム、すなわち \(A = (A_{ij})_{i=1,\ldots, m, j=1,\ldots,m}\) としたときの
\[\sqrt{\sum_{i=1}^m\sum_{j=1}^n A_{ij}^2}\]をフロベニウスノルムと呼び、\(\|A\|_\mathrm{F}\) と表す。 実は、フロベニウスノルムは次の内積による内積空間である。
\[\left<A, B\right> = \mathrm{tr}(A^*B)\]この右辺は次のような表現を持つ。
\[\mathrm{tr}(A^*B) = \sum_{i=1}^m \sum_{j=1}^n A_{ij}^* B_{ij}\]フロベニウスノルムは以下のような別表現がある。
\[\begin{aligned} & \sqrt{\mathrm{tr}(A^*A)} \\ & \sqrt{\sum_{i=1}^{\min\{m,n\}} \sigma_i^2} \end{aligned}\]ただし、$\sigma_1,\ldots,$ は $A$ の特異値である。
また、フロベニウスノルムは次の劣乗法性を持つ。
最初に
\[\mathrm{tr}(A^*B) = \sum_{i=1}^m \sum_{j=1}^n A_{ij}^* B_{ij}\]を示そう。この右辺は行列を $mn$ 次元ベクトルをみなしたときの $\ell^2$-内積であるので、 この空間が \((A, B) \mapsto \mathrm{tr}(A^*B)\) による内積空間であること、および \(\|A\| = \sqrt{\mathrm{tr}(A^*A)}\) がわかる。
\(A=(A_{ij})\)、\(B = (B_{ij})\) とすると、
\[(A^* B)_{ij} = \sum_{k=1}^m (A^*)_{ik} B_{kj} = \sum_{k=1}^m A_{ki}^* B_{kj}\]であるので、
\[\mathrm{tr}(A^*B) = \sum_{l=1}^n (A^* B)_{ll} = \sum_{l=1}^n \sum_{k=1}^m A_{kl}^* B_{kl}\]となり目的の等式が示される。この等式はまれに活用される。
特異値の等式を示す。\(r = \min\{m, n\}\)、特異値を \(\sigma_1, \ldots, \sigma_r\) とすると、 \(\exists U, V\) s.t.
\[U^*AV = \begin{bmatrix} \sigma_1 && \\ & \ddots && O \\ && \sigma_r \end{bmatrix}\]が成り立つ(これは横長の行列の場合、縦長は下に0がくる)。 よって、
\[A^* A = \begin{bmatrix} \sigma_1^2 \\ & \ddots \\ && \sigma_r^2 \\ &&& O \end{bmatrix}\]であるので、\(\mathrm{tr}(A^* A) = \sum_{i=1}^r \sigma_i^2\) となりこれの平方根を取ると目的の等式が得られる。
\(A\) を $\ell \times m$ 行列、\(B\) を $m \times n$ 行列とする。それぞれの行列を、
\[A = \begin{bmatrix} a_1^* \\ \vdots \\ a_\ell^* \end{bmatrix}, B = \begin{bmatrix} b_1 & \cdots & b_n \end{bmatrix}\]と横ベクトルを縦に並べたもの、縦ベクトルを横に並べたもの、として表現する (\(a_i, b_i \in \mathbb{K}^m\) である)。
すると、
\[AB = \begin{bmatrix} a_1^*b_1 & \cdots & a_1^* b_n \\ \vdots && \vdots \\ a_m^*b_1 & \cdots & a_m^* b_n \\ \end{bmatrix}\]となるため、
\[\|AB\|_\mathrm{F}^2 = \sum_{i=1}^\ell \sum_{j=1}^n |a_i^* b_j|^2\]が成立する。一方、\(m\) 次元ベクトル空間上の内積 \(a_i^* b_j\) に対するコーシー・シュワルツの不等式より \(|a_i^* b_j| \leq \|a_i\| \|b_j\|\) であるので、
\[\sum_{i=1}^\ell \sum_{j=1}^n |a_i^* b_j|^2 \leq \sum_{i=1}^\ell \sum_{j=1}^n \|a_i\|^2\|b_j\|^2 = \sum_{i=1}^\ell \|a_i\|^2 \cdot \sum_{j=1}^n \|b_j\|^2 = \|A\|_\mathrm{F}^2 \|B\|_\mathrm{F}^2\]よって不等式 \(\|AB\|_\mathrm{F}^2 \leq \|A\|_\mathrm{F}^2 \|B\|_\mathrm{F}^2\) が得られ、これの両辺の平方根を取ると目的の不等式が得られる。
有限次元ベクトル空間上のノルムはすべて同値なので、 上で挙げたノルムの収束は互いに同値である。
また、$\ell^2$ ノルム空間は完備であるので、他のノルムでも完備である。
そのため、以下のようなことがすべての行列ノルムで成立する。
証明1
\[S_n = \sum_{k=1}^n A_k\]と置くと、$m < n$ に対し
\[\|S_n - S_m\| = \|\sum_{k=m+1}^n A_k\| \leq \sum_{k=m+1}^n \|A_k\|\]が成立し、\(\sum_{n=1}^{\infty} \|A_n\| < \infty\) より \(\sum_{k=m+1}^n \|A_k\| \to 0\) for \(m, n \to \infty\) であるので \((S_n)_{n \geq 1}\) はコーシー列。行列ノルム空間の完備性より収束がわかる。
不等式は、有限和に関する不等式
\[\|\sum_{k=1}^{n} A_k\| \leq \sum_{k=1}^{n} \|A_k\|\]の両辺の $n \to \infty$ を取ればよい。