最小平方估计量

Abstract

遵循最小平方被估量(estimand)的构造思路,推导相应的最小平方估计量(estimator)。

已知总体最小平方误差定义为

S(b)=E[(YXTb2)]

其矩估计量(moment estimator)为

S^(b)=1ni=1n(YiXiTb)2

定义最小平方估计量 β^

β^argminbRkS^(b)

注意,β 是总体参数,是一个数;β^ 是一个样本估计量,是一个随机变量,其随机性来源于抽样。

求解估计量

定义残差为

e^iYiXiTβ^

定义残差平方和(sum of squared risiduals)为

SSR(β^)=i=1n(e^i)2=e^Te^

显然残差平方和是目标函数的等价形式

SSR(b)=nS^(b)β^=argminbRkSSR(b)=argminbRke^Te^

解法一

先展开再求导:

e^Te^=(YXb)T(YXb)=YTYYTXbbTXTY+bTXTXb=YTY2bTXTY+bTXTXb

F.O.C.(称之为正规方程组

SSR(b)b=2XTY+2XTXb=0

therefore

β^(XTX)1(XTY)

S.O.C.

2SSR(b)bbT=2XTX

这要求 XTX 是正定矩阵。

解法二

先求导再展开:

F.O.C. (前导不变,后导转置)

SSR(b)b=e^T(b)e^(b)b=e^T(b)be^(b)+[e^T(b)e^(b)b]T=2e^T(b)be^(b)=2XT(YXb)=0

其中

e^T(b)b=(YXb)Tb=XT

注意到最后一个等式相当于

XTe^=0k×1

若自变量包含常数项,则有

[1nTX1TXk1T]e^=01nTe^=0e¯=0

推广:若自变量包含虚拟变量,则残差的分组均值为零。(详见 Frisch-Waugh-Lovell Theorem


附录:no-matrix calculus

单变量回归的情形

SSR(b)=i=1n(YiXib)2=(i=1nYi2)+2b(i=1nXiYi)+b2(i=1nXi2)

F.O.C

dSSR(b)db=2(i=1nXiYi)+2b(i=1nXi2)=0

therefore

β^i=1nXiYii=1nXi2

多变量回归的情形

SSR(b)=i=1n(YiXiTb)(YiXiTb)=i=1nYi22i=1nYiXiTb+i=1nXiTbXiTb=i=1nYi22bTi=1nXiYi+bTi=1nXiXiTb

注意:XiTb 是一个数因此转置后不变,即 XiTb=bTXi,这样变换将有助于后续应用 矩阵求导 公式。

F.O.C.

dSSR(b)db=2i=1nXiYi+[(i=1nXiXiT)+(i=1nXiXiT)T]b=2i=1nXiYi+2i=1nXiXiTb=0

注意:i=1nXiXiT 是一个对称矩阵所以转置后不变。

therefore

β^(i=1nXiXiT)1(i=1nXiYi)

S.O.C

SSR(b)bbT=2i=1nXiXiT

which is a positive semi-definite matrix

二阶条件对应总体模型的假设 E(XXT)O