行列のノルム

行列のノルムは、利用法によって様々に定義される。単純に $m\times n$ 行列を $mn$ 次元のベクトルとみなして $\ell^p$ ノルムを考える場合もあるが、それ以外のものもある。

作用素ノルム

以下で定義されるノルムを作用素ノルムと呼ぶ。

\[\|A\| = \sup_{\|x\|=1} \|Ax\| = \sup_{x \not = 0} \frac{\|Ax\|}{\|x\|}\]

$\sup$ は $\max$ ともできる。通常のノルムの性質の他に以下が成立する。

$\|Ax\| \leq \|A\| \|x\|$ for all $A$: matrix, $x$: vector
$\|AB\| \leq \|A\| \|B\|$ for all $A, B$: matrix

特にベクトル上のノルムとして $\ell^2$-ノルムを用いた正方行列(つまり $m=n$)に対する作用素ノルムは スペクトルノルムとも呼ばれ、次の事実が追加で成立する。

$U, V \in U(n, \C)$ (実の時は $O(n, \mathbb{R})$) のとき、$\|U^*A V\| = \|A\|$
$\|A\| = \sqrt{(A^*A\text{の}最大固有値)} = (A\text{の最大特異値})$.
$\|A^*\| = \|A\|$ for all $A$: matrix

特異値の計算が必要なので、スペクトルノルムの計算はそれほど容易ではない。

注これらの事実自体は $\ell^2$ ノルムであれば $m \not = n$ でも成立することが下の証明からわかる。

証明1

これはユニタリー行列はノルムを保存する、つまり $\|Vx\| = \|x\|, \|U^*x\| = \|x\|$ であることと作用素ノルムの定義よりわかる。

証明2

まずは $\mathbb{C}$-係数の場合の $A^*A$ の固有値に関する等式を示す。 $A^*A$ は半正定値対称行列なので、対角化可能。$\exists U \in U(n, \mathbb{C})$ s.t.

\[U^* A^* A U = \begin{bmatrix} \lambda_1 \\ & \ddots \\ && \lambda_n \end{bmatrix}\]

ただし、$\lambda_1, \ldots, \lambda_n \geq 0$ は $A^*A$ の固有値、が成り立つ。この右辺の行列を $\Lambda$ とおく。ここでは話を簡単にするため、$\lambda_1$ が最大固有値であるとする(それ以外の場合でもインデックスを調整すれば同様)。

すると、次の2つが成り立つ。

$x^* \Lambda x \leq \lambda_1 \|x\|^2$ for all $x \in \mathbb{C}^n$
$\hat{x} = \ ^t[1, 0, \ldots, 0]$ と置くと、$\hat{x}^* \Lambda \hat{x} = \lambda_1 \|\hat{x}\|^2$

一つ目の不等式は $x = \;^t[x_1, \ldots, x_n]$ と置くと、

\[x^* \Lambda x = \sum_{i=1}^n \lambda_i x_i^2 \leq \sum_{i=1}^n \lambda_1 x_i^2 = \lambda_1 \|x\|^2\]

となるためOK。2つ目の等式は $\hat{x}^* \Lambda \hat{x} = \lambda_1$ より明らか。よって、

\[\|A U x\|^2 = x^* U^*A^*A U x = x^* \Lambda x\]

よって $\|A U\| = \sqrt{\lambda_1}$ である。事実1より $\|A\| = \|AU\| = \sqrt{\lambda_1}$ である。

特異値についてはここまで示した事実を使うと簡単に示せる。

特異値を $\sigma_1 \geq \cdots \geq \sigma_n \geq 0$ とすると、$\exists U, V \in U(n, \mathbb{C})$ s.t.

\[U^*AV = \begin{bmatrix} \sigma_1 \\ & \ddots \\ && \sigma_n \end{bmatrix}\]

すると、

\[V^*A^*AV = (V^*A^*U)(U^* A V) = (U^*A V)^* (U^*A V) = \begin{bmatrix} \sigma_1 \\ & \ddots \\ && \sigma_n \end{bmatrix}^2 = \begin{bmatrix} \sigma_1^2 \\ & \ddots \\ && \sigma_n^2 \end{bmatrix}\]

となり、$A^*A$ の最大固有値 = $\sigma_1^2$ = 最大特異値の二乗、となるため上の事実を用いれば $\|A\|$ が最大特異値と一致することがわかる。

実の場合は実直交群と転置を用いればよい。

証明3

これは、$A$ の特異値と $A^*$ の特異値が等しいことからすぐわかる。

フロベニウスノルム

$m\times n$ 行列 $A$ を $mn$ 次元のベクトルとみなしたときの $\ell^2$ ノルム、すなわち $A = (A_{ij})_{i=1,\ldots, m, j=1,\ldots,m}$ としたときの

\[\sqrt{\sum_{i=1}^m\sum_{j=1}^n A_{ij}^2}\]

をフロベニウスノルムと呼び、$\|A\|_\mathrm{F}$ と表す。実は、フロベニウスノルムは次の内積による内積空間である。

\[\left<A, B\right> = \mathrm{tr}(A^*B)\]

この右辺は次のような表現を持つ。

\[\mathrm{tr}(A^*B) = \sum_{i=1}^m \sum_{j=1}^n A_{ij}^* B_{ij}\]

フロベニウスノルムは以下のような別表現がある。

\[\begin{aligned} & \sqrt{\mathrm{tr}(A^*A)} \\ & \sqrt{\sum_{i=1}^{\min\{m,n\}} \sigma_i^2} \end{aligned}\]

ただし、$\sigma_1,\ldots,$ は $A$ の特異値である。

また、フロベニウスノルムは次の劣乗法性を持つ。

$\|AB\|_\mathrm{F} \leq \|A\|_\mathrm{F} \|B\|_\mathrm{F}$ for all $A, B$: matrix

内積について

最初に

\[\mathrm{tr}(A^*B) = \sum_{i=1}^m \sum_{j=1}^n A_{ij}^* B_{ij}\]

を示そう。この右辺は行列を $mn$ 次元ベクトルをみなしたときの $\ell^2$-内積であるので、この空間が $(A, B) \mapsto \mathrm{tr}(A^*B)$ による内積空間であること、および $\|A\| = \sqrt{\mathrm{tr}(A^*A)}$ がわかる。

$A=(A_{ij})$、$B = (B_{ij})$ とすると、

\[(A^* B)_{ij} = \sum_{k=1}^m (A^*)_{ik} B_{kj} = \sum_{k=1}^m A_{ki}^* B_{kj}\]

であるので、

\[\mathrm{tr}(A^*B) = \sum_{l=1}^n (A^* B)_{ll} = \sum_{l=1}^n \sum_{k=1}^m A_{kl}^* B_{kl}\]

となり目的の等式が示される。この等式はまれに活用される。

別表現の証明

特異値の等式を示す。$r = \min\{m, n\}$、特異値を $\sigma_1, \ldots, \sigma_r$ とすると、 $\exists U, V$ s.t.

\[U^*AV = \begin{bmatrix} \sigma_1 && \\ & \ddots && O \\ && \sigma_r \end{bmatrix}\]

が成り立つ(これは横長の行列の場合、縦長は下に0がくる)。よって、

\[A^* A = \begin{bmatrix} \sigma_1^2 \\ & \ddots \\ && \sigma_r^2 \\ &&& O \end{bmatrix}\]

であるので、$\mathrm{tr}(A^* A) = \sum_{i=1}^r \sigma_i^2$ となりこれの平方根を取ると目的の等式が得られる。

劣乗法性について

$A$ を $\ell \times m$ 行列、$B$ を $m \times n$ 行列とする。それぞれの行列を、

\[A = \begin{bmatrix} a_1^* \\ \vdots \\ a_\ell^* \end{bmatrix}, B = \begin{bmatrix} b_1 & \cdots & b_n \end{bmatrix}\]

と横ベクトルを縦に並べたもの、縦ベクトルを横に並べたもの、として表現する ($a_i, b_i \in \mathbb{K}^m$ である)。

すると、

\[AB = \begin{bmatrix} a_1^*b_1 & \cdots & a_1^* b_n \\ \vdots && \vdots \\ a_m^*b_1 & \cdots & a_m^* b_n \\ \end{bmatrix}\]

となるため、

\[\|AB\|_\mathrm{F}^2 = \sum_{i=1}^\ell \sum_{j=1}^n |a_i^* b_j|^2\]

が成立する。一方、$m$ 次元ベクトル空間上の内積 $a_i^* b_j$ に対するコーシー・シュワルツの不等式より $|a_i^* b_j| \leq \|a_i\| \|b_j\|$ であるので、

\[\sum_{i=1}^\ell \sum_{j=1}^n |a_i^* b_j|^2 \leq \sum_{i=1}^\ell \sum_{j=1}^n \|a_i\|^2\|b_j\|^2 = \sum_{i=1}^\ell \|a_i\|^2 \cdot \sum_{j=1}^n \|b_j\|^2 = \|A\|_\mathrm{F}^2 \|B\|_\mathrm{F}^2\]

よって不等式 $\|AB\|_\mathrm{F}^2 \leq \|A\|_\mathrm{F}^2 \|B\|_\mathrm{F}^2$ が得られ、これの両辺の平方根を取ると目的の不等式が得られる。

ノルムの同値性、完備性

有限次元ベクトル空間上のノルムはすべて同値なので、上で挙げたノルムの収束は互いに同値である。

また、$\ell^2$ ノルム空間は完備であるので、他のノルムでも完備である。

そのため、以下のようなことがすべての行列ノルムで成立する。

$\sum_{n=1}^{\infty} \|A_n\| < \infty$ ならば、$\sum_{n=1}^{\infty} A_n$ は収束し、 $\|\sum_{k=1}^{\infty} A_k\| \leq \sum_{k=1}^{\infty} \|A_k\|$ が成立する。(絶対収束する無限級数の収束性)

証明1

\[S_n = \sum_{k=1}^n A_k\]

と置くと、$m < n$ に対し

\[\|S_n - S_m\| = \|\sum_{k=m+1}^n A_k\| \leq \sum_{k=m+1}^n \|A_k\|\]

が成立し、$\sum_{n=1}^{\infty} \|A_n\| < \infty$ より $\sum_{k=m+1}^n \|A_k\| \to 0$ for $m, n \to \infty$ であるので $(S_n)_{n \geq 1}$ はコーシー列。行列ノルム空間の完備性より収束がわかる。

不等式は、有限和に関する不等式

\[\|\sum_{k=1}^{n} A_k\| \leq \sum_{k=1}^{n} \|A_k\|\]

の両辺の $n \to \infty$ を取ればよい。

参考文献

https://ja.wikipedia.org/wiki/%E8%A1%8C%E5%88%97%E3%83%8E%E3%83%AB%E3%83%A0