Geometry of Projection

矩阵形式的样本回归方程写作

Y=Xβ^+e

考虑自变量矩阵分块 X=[X1,,Xk] ,其中 Xj 为第 j 个自变量向量,每个自变量向量的维数都为 n,因此 Xb 可以表示 k 个向量在 n 维空间的张成空间,即 span(X1,,Xk)Rn;Linear Projection 即在张成空间内找到一个距离 Y 距离最近的向量定义为 Y^。换言之,设定 Yspan(X) 上的投影为 Y^(这是因为投影的距离最近),也就是向量 Xβ^ ,二者的距离为 |e|

根据立体几何原理,e 应当垂直于整个张成空间,因此

XTe=0k×1XT(YXβ^)=0XTY=XTXβ^β^=(XTX)1(XTY)

这里相当于为 Moment Estimation 赋予了一种几何意义。

Projection Matrix

定义投影矩阵

PX(XTX)1XT

显然,投影矩阵对 X 有类似×1的效果

PX=X(XTX)1XTX=X

事实上,投影矩阵对任意 Z=XΓ 有类似×1 的效果

PZ=X(XTX)1XTXΓ=Z

特别地

PY=X(XTX)1XTY=Xβ^=Y^Pe=P(YXβ^)=Y^Xβ^=0

总之,投影的矩阵的几何意义是给出任意一个向量在 span(X) 的投影向量,若作用在本就处于张成空间内的向量自然就有还原效果。

投影矩阵的重要性质:对称幂等

投影矩阵的迹:

Tr(P)=Tr(X(XTX)1XT)=Tr((XTX)1XTX)=Tr(Ik)=k

(refer Trace Operator)
投影矩阵的迹表示了投影的维度,大小取决于 span(X) 的维度

Annihilator Matrix

定义消除矩阵

MInP=InX(XTX)1XT

显然,消除矩阵对 X 有类似 ×0 的效果

MX=(InP)X=XPX=XX=0

事实上,消除矩阵对任意 Z=XΓ 有类似 ×0 的效果

MZ=ZPZ=ZZ=0

特别地

MY=YPY=YY^=eMe=M(YXβ)=e0=e

总之,消除矩阵的几何意义是给出任意一个向量到 span(X) 的距离向量,若作用在本就处于张成空间内的向量就得到零向量。

消除矩阵的重要性质:对称幂等

消除矩阵的迹:

Tr(M)=Tr(InP)=Tr(In)Tr(X(XTX)1XT)=Tr(In)Tr((XTX)1XTX)=Tr(In)Tr(Ik)=nk

(refer Trace Operator)

消除矩阵的迹表示了消除的维度,大小取决于到底消除了多数信息。一般地,若不存在完全共线性,消去 m 个自变量信息的消除矩阵的迹为

Tr(Mm)=nm

P/M Matrix of Constant

特别地,令 X=1n ,投影矩阵和消除矩阵为

P0=1n(1nT1n)11nTM0=InP0=In1n(1nT1n)11nT

考虑 P0 的定义,(1nT1n)1=1n1n1nT 是一个所有元素全为 1 的 n×n 矩阵,后者右乘任意 n×1 的列向量都得到所有元素都为 n 维求和值列向量,再乘 1n 就得到 n 维平均值列向量;类似地,右乘任意 n×k 的矩阵就得到 n×k 的平均值矩阵(均值在列方向上取)。因此,M0 矩阵右乘任意 n×k 矩阵得到 n×k 的去均值矩阵。

定义 X¯i=1nX¯i ,则有

P0X=[X¯1X¯k]M0X=[(X1X¯1)(XkX¯k)]P0e=e¯=0M0e=e

由此可以证明均值点在回归线上

Y¯=P0Y=P0(Xβ+e)=X¯βY¯=[X¯1X¯k]β

以及拟合值均值等于真值均值

Y¯=P0Y=P0(Y^+e)=P0Y^Y¯=Y^¯

投影矩阵和消除矩阵的迹为

Tr(P0)=Tr(1)=1Tr(M0)=Tr(In)Tr(1)=n1