$\mathbb{R}$-確率変数で、二乗可積分、つまり $E[|X|^2] < \infty$ であるものの集合は、
\[\left<X, Y\right> = E[XY]\]という内積で内積空間となる。a.s. で等しい確率変数は同じものであるとみなすと、この空間は完備(つまりヒルベルト空間)となる。 この空間は $L^2(\Omega, \mathcal{F}, P)$ と表す。
$\mathcal{G}$ を $\mathcal{F}$ の部分σ-代数とし、確率変数を $\mathcal{G}$-可測なものに制限した $L^2(\Omega, \mathcal{G}, P)$ を考えよう。すると $L^2(\Omega, \mathcal{G}, P)$ は $L^2(\Omega, \mathcal{F}, P)$ の閉部分空間となる。
証明
部分空間になることは自明なので、閉であることを示せばよい。すなわち $X_n \in L^2(\Omega, \mathcal{F}, P)$ が $X$ に $L^2$ で収束するとき、$X$ も $L^2(\Omega, \mathcal{F}, P)$ に含まれることを示せばよい。 $X$ が二乗可積分であることは明らかなので、$\mathcal{G}$-可測であることを示せばよい。
ここで、次の2つの定理より上の事実が言える。
ここでは部分σ-代数が確率変数 $Y$ で生成される場合を考える。すると、$X - E[X \mid Y]$ は $L^2(\Omega, \sigma(Y), P)$ の任意の元と直交する。つまり $X - E[X \mid Y] \in L^2(\Omega, \sigma(Y), P)^{\perp}$。
証明 $Z \in L^2(\Omega, \sigma(Y), P)$ とする。すると\(\mathcal{G}\)-可測な確率変数の条件付き期待値の定理を用いて
\[E[(X - E[X \mid Y])Z \mid Y] = Z E[X - E[X \mid Y] \mid Y] = Z (E[X \mid Y] - E[E[X \mid Y] \mid Y]) = Z(E[X \mid Y] - E[X \mid Y]) = 0\]よって、
\[E[E[(X - E[X \mid Y])Z \mid Y]] = E[(X - E[X \mid Y])Z]\]であり、この左辺は0であるので、右辺が0であることがわかる。
ドゥーブ・ディンキンの補題より、 $f(Z) = E[X \mid Z]$ となるボレル可測関数 $f$ が存在する。
実は、この関数は以下の期待二乗誤差を最小化する関数である。
\[f = \argmin_{\phi:\mathbb{R} \to \mathbb{R}, Borel可測} E[(X - \phi(Z))^2]\]これは、内積空間の視点から言うと、$X$ の $L^2(\Omega, \sigma(Z), P)$ への直交射影は $E[X \mid Z]$ であることを意味する。 統計的推定の視点から言うと、$Z$ という情報から $X$ を推定する場合、その推定の善し悪しを期待二乗誤差で測ることとすると $E[X \mid Z]$ が最適であることを意味する。
証明
これは、以下の不等式を示せばよい。
\[E[(X - \phi(Z))^2] \geq E[(X - f(Z))^2]\]右辺は $E[(X - E[X\mid Z])^2]$ であるので、
\[E[(X - \phi(Z))^2] \geq E[(X - E[X\mid Z])^2]\]を示せばよい。そこで、
\[\begin{aligned} E[(X - \phi(Z))^2] &= E[\left((X - E[X\mid Z]) + (E[X \mid Z] -\phi(Z))\right)^2] \\\\ & = E[(X - E[X\mid Z])^2] + 2E[(X - E[X\mid Z])(E[X \mid Z] -\phi(Z))] + E[(E[X \mid Z] -\phi(Z))^2] \ \cdots (a)\\\\ & = E[(X - E[X\mid Z])^2] + E[(E[X \mid Z] -\phi(Z))^2] \ \cdots (b) \\\\ & \geq E[(X - E[X\mid Z])^2] \end{aligned}\]ここで(a)と(b)の等号は、 $E[X \mid Z] -\phi(Z)$ は $\sigma(Z)$-可測であるので、上で示した直交性を用いると第2項が0であることがわかる。