≪统计学习精要(The Elements of Statistical Learning)≫课堂笔记（四）-白红宇

≪统计学习精要(The Elements of Statistical Learning)≫课堂笔记（四）

阅读量：3518 次

发布时间：2019-05-20

本文共 2064 字，大约阅读时间需要 6 分钟。

照例继续本周笔记。这次我没啥废话了...

--------------笔记开始---------------

投影矩阵与消灭矩阵

首先是上次没证的若干OLS性质。基本都是公式。我就照抄原来econometrics做的笔记了。权当复习了...对计量有兴趣的、线性代数还不错的，建议去看《》（?A. Colin Cameron / Pravin K. Trivedi ）。

先定义两个矩阵，这两个矩阵会在某种程度上save your life while learning econometrics...投影矩阵和消灭矩阵。

复习一下，OLS估计量是 β^=(X′X)−1X′Y

，然后对应的Y估计量是

Y^=Xβ^=X(X′X)−1X′Y 。所以，我们定义投影矩阵P为

P=X(X′X)−1X′ ，这样就有了

Y^=PY

。也就是说，我们对Y进行了一次投影，然后得到了一个估计值。当然定义投影矩阵并不仅仅是写起来比那堆X简单，而是投影矩阵本身有着一系列良好的性质。

我们先来看把P投在X上会怎么样。显然， PX=X(X′X)−1X′X=X

，也就是说P不会改变X的值（本来就是把一个东西投到X上嘛~自己投自己怎么会有变化的嘛）。

然后呢，对P进行转置，则 P′=(X(X′X)−1X′)′=P

，所以接下来

P2=P′P=X(X′X)−1X′X(X′X)−1X′=P

。

再定义消灭矩阵M。很简单，我们定义M为 M=I−P=I−X(X′X)−1X′

，其中I为单位阵（对角线元素为1，其他为0）。这样M又有什么性质呢？显然

MY=(I−P)Y=Y−Y^=ε ，也就是说M对Y的效果是得到误差项。而与此同时，M对于X的作用就是

MX=(I−P)X=X−X=0 ，所以称为消灭矩阵嘛。继续，进行转置，则

M′=(I−P)′=I−P=M ，所以我们还有

M2=M′M=(I−P)(I−P)=I−P−P+P=I−P=M

。

OLS估计值的方差

再次友情提醒，X不是随机变量，所以不要跟我纠结为什么没有条件期望公式之类的东西...

扰动项服从 N(0,σ)

时，或者大样本下，OLS估计量的方差为：

Var(β^)=E[(β^−β)(β^−β)′]=E[(X′X)−1X′ε][(X′X)−1X′ε]′=(X′X)−1E(εε′)=s21(X′X)−1

这里 =s21

为样本方差，所以其分布为：

β^∼N(β,s21(X′X)−1)

。这样一来，就有了一个t检验：

t=β−0s21(X′X)−1∼tN−K−1

。

大样本下，就直接用正态检验好了。此外，如果我们进一步的有更多的同时检验的约束条件，那就是联合检验F。这个就不赘述了...

高斯-马尔可夫定理

顺便还证了一下高斯-马尔可夫定理...这个不像OLS，每次我可记不住他的证明，每次都是现翻书...

我就直接抄wiki了。

选择另外一个线性估计量 β~=CY

，然后C可以写为

(X′X)−1X′+D

，则D为k*n的非空矩阵。

那么这个估计量 β~

的期望是：

E(CY)=E(((X′X)−1X′+D)(Xβ+ε))=((X′X)−1X′+D)Xβ+((X′X)−1X′+D)E(ε)0=(X′X)−1X′Xβ+DXβ=(Ik+DX)β.(1)(2)(3)(4)

所以，为了保证 β~

无偏，则必有

DX=0

继续求方差：

V(β~)=V(CY)=CV(Y)C′=σ2CC′=σ2((X′X)−1X′+D)(X(X′X)−1+D′)=σ2((X′X)−1X′X(X′X)−1+(X′X)−1X′D′+DX(X′X)−1+DD′)=σ2(X′X)−1+σ2(X′X)−1(DX0)′+σ2DX0(X′X)−1+σ2DD′=σ2(X′X)−1V(β^)+σ2DD′.(5)(6)(7)(8)(9)