中国科学技术大学-812概率论与数理统计-2021年

一、(20分) 若河边仅有一个码头,甲乙两船在 0:00~24:00 之间,等可能的在任意时刻到达码头,且到达时刻独立。若甲到达码头需停靠 2h,乙需停靠 1h。问:
(1)(10分) 甲乙停靠时间间隔大于 2h 的概率.
(2)(10分) 一艘船到达后需要等待一段时间的概率.

Solution: (1) 设 X,YX,Y分别是甲乙到达的时间, 它们是 i.i.d. 的服从 U(0,24)U(0,24) 的随机变量, 则有类似几何分布:

P(XY>2)=22×2224×24=121144.P(|X-Y|>2) = \frac{22\times 22}{24\times 24} = \frac{121}{144}.

(2) 需要等待意味着 A={2<XY<1}A=\{-2<X-Y<1\}, 该概率是

P(A)=1122222+1223232424=1391152.P(A) = 1 - \frac{\frac{1}{2}\cdot22\cdot22+\frac{1}{2}\cdot23\cdot23}{24\cdot24} = \frac{139}{1152}.

二、(20分) 随机向量 (X,Y)(X,Y) 有联合密度 f(x,y)=C(1+xy)I{x<1,y<1}f(x,y) = C(1+xy)I_{\{|x|<1,|y|<1\}}.
(1)(5分) 求 CC;
(2)(5分) 求 X=xX=x 时, YY 的条件分布;
(3)(10分) 证明 X2X^2Y2Y^2 独立.

Solution: (1) 积分, 有1111(1+xy)dxdy=4\int_{-1}^1\int_{-1}^1 (1+xy)dxdy = 4, 故有 C=1/4C=1/4.
(2) 先求 fXf_X, 有 fX(x)=1114(1+xy)dy=12f_X(x) = \int_{-1}^1 \frac{1}{4}(1+xy) dy = \frac{1}{2}, 是均匀分布, 故条件分布是

fYX(yx)=12(1+xy),x<1,y<1.f_{Y|X}(y|x)=\frac{1}{2}(1+xy),\quad |x|<1,|y|<1.

(3) 令 U=X2U=X^2, V=Y2V=Y^2, 有

P(Uu,Vv)=uuvv14(1+xy)dxdy=uv,P\left( U\le u,V\le v \right) =\int_{-\sqrt{u}}^{\sqrt{u}}{\int_{-\sqrt{v}}^{\sqrt{v}}{\frac{1}{4}\left( 1+xy \right) dxdy}}=\sqrt{u}\sqrt{v},

其中 u(0,1),v(0,1)u\in (0,1), v\in(0,1), 而边际分布是

P(Uu)=P(uXu)=u,P\left( U\le u \right) =P\left( -\sqrt{u}\le X\le \sqrt{u} \right) =\sqrt{u},

同理 P(Vv)=vP(V\le v) = \sqrt{v}, 因此我们发现它们独立.

三、(20分) 盒中有大小形状相同的 nn 个白球,mm 个黑球,依次从中取出 kk 个球,k<n+mk<n+ m, 记 XX 为取出球中白球的个数, IjI_j 为第 jj 次取出的球为白球的示性随机变量, jkj \le k.
(1)(5分) 求 IjI_j 的分布;
(2)(5分) 求 (Ii,Ij)(I_i,I_j) 的分布, i<jki<j\le k;
(3)(10分) 求 E(X)E(X), Var(X)Var(X).

Solution: (1) 根据抽签与顺序无关, 任意一次取出白球的概率都是 nn+m\frac{n}{n+m}, 取出黑球的概率是 mn+m\frac{m}{n+m}, 故 IjB(1,nn+m)I_j\sim B(1,\frac{n}{n+m}).

(2) 第 ii 次和第 jj 次都取出白球的概率是 nn+mn1n+m1\frac{n}{n+m}\frac{n-1}{n+m-1}, 同理, 有

Ii=0I_i = 0 Ii=1I_i=1
Ij=0I_j=0 mn+mm1n+m1\frac{m}{n+m}\frac{m-1}{n+m-1} nn+mmn+m1\frac{n}{n+m}\frac{m}{n+m-1}
Ij=1I_j=1 nn+mmn+m1\frac{n}{n+m}\frac{m}{n+m-1} nn+mn1n+m1\frac{n}{n+m}\frac{n-1}{n+m-1}

(3) 显然 X=i=1kIiX=\sum_{i=1}^k I_i, 故有 E(X)=nkn+mE(X) = \frac{nk}{n+m}, 方差略麻烦一些, 有

Var(X)=Var(i=1kIi)=kVar(I1)+k(k1)Cov(I1,I2),Var(X) = Var\left(\sum_{i=1}^kI_i\right) = k Var(I_1) +k(k-1)Cov(I_1,I_2),

其中 Var(I1)=nm(n+m)2Var(I_1) = \frac{nm}{(n+m)^2},

Cov(I1,I2)=n(n1)(n+m)(n+m1)n2(n+m)2,Cov(I_1,I_2) = \frac{n(n-1)}{(n+m)(n+m-1)} - \frac{n^2}{(n+m)^2},

汇总后有

Var(X)=kmn(m+nk)(m+n)2(m+n1).Var\left( X \right) =\frac{kmn\left( m+n-k \right)}{\left( m+n \right) ^2\left( m+n-1 \right)}.

四、(15分) 证明: 随机变量序列 {Xn}\{X_n\} 依概率收敛于 00 的充分必要条件是

E[Xn1+Xn]0.E\left[ \frac{|X_n|}{1+|X_n|}\right] \rightarrow 0.

Solution: 先证必要性: 已知 XnX_n依概率收敛于 00, 考虑到当 x>0x>0时, g(x)=x1+x1g\left( x \right) =\frac{x}{1+x} \le 1 有界, 根据有界收敛定理, 有

limnE[Xn1+Xn]=E[limnXn1+Xn]=E[0]=0.\underset{n\rightarrow \infty}{\lim}E\left[ \frac{|X_n|}{1+|X_n|} \right] =E\left[ \underset{n\rightarrow \infty}{\lim}\frac{|X_n|}{1+|X_n|} \right] =E\left[ 0 \right] =0.

再证充分性: 已知 E[Xn1+Xn]0E\left[ \frac{|X_n|}{1+|X_n|}\right] \rightarrow 0, 考虑到当 x>0x>0时, g(x)=x1+xg\left( x \right) =\frac{x}{1+x} 单调, 故对任意 ε>0\varepsilon >0, 有

P(X>ε)=E[I{X>ε}]=E[I{g(X)>g(ε)}]1g(ε)E[g(X)I{X>ε}]1g(ε)E[Xn1+Xn],P\left( \left| X \right|>\varepsilon \right) =E\left[ I_{\left\{ \left| X \right|>\varepsilon \right\}} \right] =E\left[ I_{\left\{ g\left( \left| X \right| \right) >g\left( \varepsilon \right) \right\}} \right] \le \frac{1}{g\left( \varepsilon \right)}E\left[ g\left( \left| X \right| \right) I_{\left\{ \left| X \right|>\varepsilon \right\}} \right] \le \frac{1}{g\left( \varepsilon \right)}E\left[ \frac{|X_n|}{1+|X_n|} \right] ,

充分性得证.

五、(20分) 设 X1,,XnX_1,\cdots,X_n 来自离散分布 P(X=0)=2(1θ)2θ,P(X=1)=θ2θP(X=0)= \frac{2(1-\theta)}{2-\theta},P(X=1)=\frac{\theta}{2-\theta} 的随机样本, 其中 θ(0,1)\theta\in(0,1), 求:

(1)(5分) θ\theta 的矩估计 θ^1\hat{\theta}_1;
(2)(5分) θ\theta 的最大似然估计 θ^2\hat{\theta}_2;
(3)(10分) θ^1\hat{\theta}_1θ^2\hat{\theta}_2 的渐近分布.

Solution: (1) 求期望, 有

E(X1)=θ2θ,E(X_1) = \frac{\theta}{2-\theta},

用样本矩替换并反解, 得到 θ^1=2xˉ1+xˉ\hat{\theta}_1 = \frac{2\bar{x}}{1+\bar{x}}.

(2) 根据两点分布的 MLE 及其不变性, 有 θ^22θ^2=xˉ\frac{\hat{\theta}_2}{2-\hat{\theta}_2}=\bar{x}, 反解得 θ^2=2xˉ1+xˉ\hat{\theta}_2 = \frac{2\bar{x}}{1+\bar{x}}.

(3) 由 CLT, 我们有

n(xˉθ2θ)dN(0,2θ(1θ)(2θ)2),\sqrt{n}\left( \bar{x}-\frac{\theta}{2-\theta} \right) \xrightarrow{d}N\left( 0,\frac{2\theta \left( 1-\theta \right)}{\left( 2-\theta \right) ^2} \right) ,

g(x)=2x1+xg(x) = \frac{2x}{1+x}, 求导有 g(x)=2(1+x)2g'(x)=\frac{2}{(1+x)^2}, g(θ2θ)=(2θ)220g'\left( \frac{\theta}{2-\theta} \right) =\frac{\left( 2-\theta \right) ^2}{2}\ne 0, 故由 Delta 方法, 我们有

n(g(xˉ)θ)d(2θ)22N(0,2θ(1θ)(2θ)2)=N(0,θ(1θ)(2θ)22).\sqrt{n}\left( g\left( \bar{x} \right) -\theta \right) \xrightarrow{d}\frac{\left( 2-\theta \right) ^2}{2}N\left( 0,\frac{2\theta \left( 1-\theta \right)}{\left( 2-\theta \right) ^2} \right) =N\left( 0,\frac{\theta \left( 1-\theta \right) \left( 2-\theta \right) ^2}{2} \right) .

六、(20分) 为调查某商品在商场货架上的滞留时间,随机调查9个样本的滞留时间 X1,,X9X_1,\cdots,X_9, 其中计算得到 xˉ=131\bar{x}=131, 假设总体 XN(μ,9)X\sim N(\mu,9). u0.95=1.645u_{0.95}=1.645.
(1)(5分) 检验 H0:μ130H_0:\mu \le 130, 备择假设是其对立, α=0.05\alpha = 0.05.
(2)(5分) 若 μ=131\mu = 131, 样本量改为 nn, 求犯第二类错误的概率 β\beta, 并指出: 想要 β0.05\beta\le 0.05, 我们应该需要多少样本.
(3)(10分) 求 θ=P(X130)\theta = P(X\le 130) 的 MLE, 并给出 95% 置信下限.

Solution: (1) 拒绝域是

W={nxˉ130σ=xˉ130>1.645}W=\left\{ \sqrt{n}\frac{\bar{x}-130}{\sigma}=\bar{x}-130>1.645 \right\}

现在 xˉ130=1\bar{x} -130 = 1, 不落入拒绝域, 不能拒绝原假设.

(2) 犯第二类错误的概率是

β=P(nxˉ1303<1.645μ=131)=P(xˉ131<1+3n1.645μ=131)=Φ(n3(1+3n1.645))=Φ(n3+1.645),\begin{aligned} \beta &=P\left( \left. \sqrt{n}\frac{\bar{x}-130}{3}<1.645 \right|\mu =131 \right) =P\left( \left. \bar{x}-131<-1+\frac{3}{\sqrt{n}}1.645 \right|\mu =131 \right)\\ &=\Phi \left( \frac{\sqrt{n}}{3}\left( -1+\frac{3}{\sqrt{n}}1.645 \right) \right) =\Phi \left( -\frac{\sqrt{n}}{3}+1.645 \right),\\ \end{aligned}

令其小于 0.050.05, 则有

n3+1.645<1.645,-\frac{\sqrt{n}}{3}+1.645<-1.645,

解得 n>9.87\sqrt{n}>9.87, 故 n>97.42n>97.42, 取 n=98n=98.

(3) 计算得

g(μ)=P(X130)=P(Xμ3130μ3)=Φ(130μ3),g(\mu)=P\left( X\le 130 \right) =P\left( \frac{X-\mu}{3}\le \frac{130-\mu}{3} \right) =\Phi \left( \frac{130-\mu}{3} \right) ,

由 MLE 不变性, 有 g^=Φ(130xˉ3)=Φ(1/3)\hat{g}=\Phi \left( \frac{130-\bar{x}}{3} \right) =\Phi(-1/3). 而由于 Φ\Phi 是单调函数, g(μ)g(\mu)μ\mu 单调减函数, 故有

{μa}={g(μ)g(a)},\left\{ \mu \le a \right\} =\left\{ g\left( \mu \right) \ge g\left( a \right) \right\} ,

我们可以选 aaμ\mu 的 0.95 置信上限, 即 a=xˉ+1.645a=\bar{x}+1.645, 故有

g(a)=Φ(130xˉ1.6453)=Φ(2.6453)g\left( a \right) =\Phi \left( \frac{130-\bar{x}-1.645}{3} \right) =\Phi \left( \frac{-2.645}{3} \right)

g(μ)g(\mu) 的 0.95 置信下限.

七、(20分) 人的早晚收缩压 (X,Y)N(μx,μy,σx2,σy2,ρ)(X,Y)\sim N(\mu_x,\mu_y,\sigma_x^2,\sigma_y^2,\rho), 随机抽取 nn 人, 其中 nmn-m 人有早晚数据 (X1,Y1),,(Xnm,Ynm)(X_1,Y_1),\cdots,(X_{n-m},Y_{n-m}), 剩下 mm 人只有早上数据 Xnm+1,,XnX_{n-m+1},\cdots,X_n, 令 β=ρσyσx\beta = \rho \frac{\sigma_y}{\sigma_x}. 只有 μx\mu_x, μy\mu_y 是待估参数.
(1)(10分) 求 μy\mu_y 的 MLE μ^y\hat{\mu}_y;
(2)(10分) 证明 μ^y\hat{\mu}_y 是无偏估计, 并求条件方差 Var(μ^yX1,,Xn)Var(\hat{\mu}_y|X_1,\cdots,X_n).

Solution: (1)
写出对数似然函数, 有

(μx,μy)=Ci=1nm[(xiμx)2σx22ρ(xiμx)(yiμy)σxσy+(xiμy)2σy2]2(1ρ2)i=nm+1n(xiμx)22σx2,\ell \left( \mu _x,\mu _y \right) =C-\frac{\sum_{i=1}^{n-m}{\left[ \frac{\left( x_i-\mu _x \right) ^2}{\sigma _{x}^{2}}-\frac{2\rho \left( x_i-\mu _x \right) \left( y_i-\mu _y \right)}{\sigma _x\sigma _y}+\frac{\left( x_i-\mu _y \right) ^2}{\sigma _{y}^{2}} \right]}}{2\left( 1-\rho ^2 \right)}-\frac{\sum_{i=n-m+1}^n{\left( x_i-\mu _x \right) ^2}}{2\sigma _{x}^{2}},

求导, 有

{μx=11ρ2i=1nm(xiμxσx2ρyiμyσxσy)+i=nm+1nxiμxσx2,μy=11ρ2i=1nm(yiμyσy2ρxiμxσxσy),\begin{cases} \frac{\partial \ell}{\partial \mu _x}=\frac{1}{1-\rho ^2}\sum_{i=1}^{n-m}{\left( \frac{x_i-\mu _x}{\sigma _{x}^{2}}-\rho \frac{y_i-\mu _y}{\sigma _x\sigma _y} \right)}+\sum_{i=n-m+1}^n{\frac{x_i-\mu _x}{\sigma _{x}^{2}}},\\ \frac{\partial \ell}{\partial \mu _y}=\frac{1}{1-\rho ^2}\sum_{i=1}^{n-m}{\left( \frac{y_i-\mu _y}{\sigma _{y}^{2}}-\rho \frac{x_i-\mu _x}{\sigma _x\sigma _y} \right)},\\ \end{cases}

令第二个式子为 0, 得

μy=i=1nmyinmβi=1nmxinm+βμx,\mu _y=\frac{\sum_{i=1}^{n-m}{y_i}}{n-m}-\frac{\beta \sum_{i=1}^{n-m}{x_i}}{n-m}+\beta \mu _x,

而令第一个式子即 μx=0\frac{\partial \ell}{\partial \mu_x} =0, 得

i=1nm(xiμx)(1ρ2)i=nm+1n(xiμx)+ρσxσyi=1nm(yiμy)=0,\sum_{i=1}^{n-m}{\left( x_i-\mu _x \right)}-\left( 1-\rho ^2 \right) \sum_{i=n-m+1}^n{\left( x_i-\mu _x \right)}+\frac{\rho \sigma _x}{\sigma _y}\sum_{i=1}^{n-m}{\left( y_i-\mu _y \right)}=0,

代入 μy=i=1nmyinmβi=1nmxinm+βμx\mu _y=\frac{\sum_{i=1}^{n-m}{y_i}}{n-m}-\frac{\beta \sum_{i=1}^{n-m}{x_i}}{n-m}+\beta \mu _x, 解得 μ^x=xˉ=i=1nxin\hat{\mu}_x =\bar{x}=\frac{\sum_{i=1}^nx_i}{n}, 故有

μ^y=yˉnmβ(xˉnmxˉn),\hat{\mu}_y=\bar{y}_{n-m}-\beta \left( \bar{x}_{n-m}-\bar{x}_n \right) ,

这里我们用 xˉnm\bar{x}_{n-m} 表示用前 nmn-m 个样本计算的样本均值.

(2) 求期望, 由于 E(yˉnm)=μyE(\bar{y}_{n-m})=\mu_y, E(xˉnm)=E(xˉn)=μxE(\bar{x}_{n-m})=E(\bar{x}_n)=\mu_x, 因此很显然 E(μ^y)=μyE(\hat{\mu}_y)=\mu_y.

再考虑方差, 当 X1,,XnX_1,\cdots,X_n 已知, μ^y\hat{\mu}_y 中只有 yˉnm\bar{y}_{n-m} 需要被考虑, 剩下的部分已经是已知了, 而

yi(X1,,Xn)N(μy+β(xiμx),(1ρ2)σy2),y_i\mid \left( X_1,\cdots ,X_n \right) \sim N\left( \mu _y+\beta \left( x_i-\mu _x \right) ,\left( 1-\rho ^2 \right) \sigma _{y}^{2} \right) ,

i=1,2,,nmi=1,2,\cdots,n-m 求一个平均, 有

E(yˉnmX)=1nmi=1nm(μy+β(xiμx))=μy+β(xˉnmμx),Var(yˉnmX)=(1ρ2)σy2nm,E\left( \bar{y}_{n-m}\mid \boldsymbol{X} \right) =\frac{1}{n-m}\sum_{i=1}^{n-m}{\left( \mu _y+\beta \left( x_i-\mu _x \right) \right)}=\mu _y+\beta \left( \bar{x}_{n-m}-\mu _x \right) , \quad Var\left( \bar{y}_{n-m}\mid \boldsymbol{X} \right) =\frac{\left( 1-\rho ^2 \right) \sigma _{y}^{2}}{n-m},

故条件分布应为

μ^y(X1,,Xn)N(μy+β(xˉnμx),(1ρ2)σy2nm),\hat{\mu}_y|\left( X_1,\cdots ,X_n \right) \sim N\left( \mu _y+\beta \left( \bar{x}_n-\mu _x \right) ,\frac{\left( 1-\rho ^2 \right) \sigma _{y}^{2}}{n-m} \right) ,

因此条件方差是 (1ρ2)σy2nm\frac{(1-\rho^2)\sigma _{y}^{2}}{n-m}.

八、(15 分) 设有线性模型

Y=Xβ+ε,εN(0,σ2In),Y=X \beta+\varepsilon, \quad \varepsilon \sim N\left(0, \sigma^2 I_n\right),

其中

Y=(y1y2yn),X=(x1Tx2TxnT)=(x11x12x1px21x22x2pxn1xn2xnp),Y=\left(\begin{array}{c} y_1 \\ y_2 \\ \vdots \\ y_n \end{array}\right), \quad X=\left(\begin{array}{c} x_1^T \\ x_2^T \\ \vdots \\ x_n^T \end{array}\right)=\left(\begin{array}{cccc} x_{11} & x_{12} & \cdots & x_{1 p} \\ x_{21} & x_{22} & \cdots & x_{2 p} \\ \vdots & \vdots & & \vdots \\ x_{n 1} & x_{n 2} & \cdots & x_{n p} \end{array}\right),

对于 λ>0\lambda>0, 定义

β^=argminβ{YXβ2+λβ2}.\hat{\beta}=\underset{\beta}{\arg \min }\left\{\|Y-X \beta\|^2+\lambda\|\beta\|^2\right\} .

(1)(7 分) 试求残差平方和 SSE(λ)=YXβ^2S S E(\lambda)=\|Y-X \hat{\beta}\|^2 的期望.
(2)(8 分) 记 Sλ=X(XTX+λIp)1XTS_\lambda=X\left(X^T X+\lambda I_p\right)^{-1} X^T, 证明:

i=1n(yixiTβ^i)2=i=1n(yixiTβ^1Sλ(i,i))2,\sum_{i=1}^n\left(y_i-x_i^T \hat{\beta}_{-i}\right)^2=\sum_{i=1}^n\left(\frac{y_i-x_i^T \hat{\beta}}{1-S_\lambda(i, i)}\right)^2,

其中 β^i\hat{\beta}_{-i} 是去除掉数据 (xi,yi)\left(x_i, y_i\right) 后的估计量, 而 Sλ(i,i)S_\lambda(i, i) 是矩阵 SλS_\lambda(i,i)(i, i) 元.

Solution: (1) 令 Q(β)=YXβ2+λβ2Q(\beta)=\|Y-X \beta\|^2+\lambda\|\beta\|^2, 求导有

Qβ=2XT(YXβ)+2λβ=2(XTX+λIp)β2XTY,\frac{\partial Q}{\partial \beta}=-2X^T\left( Y-X\beta \right) +2\lambda \beta =2\left( X^TX+\lambda I_p \right) \beta -2X^TY,

β^=(XTX+λIp)1XTY\hat{\beta}=\left( X^TX+\lambda I_p \right) ^{-1}X^TY, 即岭回归解. 而

SSE(λ)=(YXβ^)T(YXβ^)=YT(InSλ)T(InSλ)Y,SSE\left( \lambda \right) =\left( Y-X\hat{\beta} \right) ^T\left( Y-X\hat{\beta} \right) =Y^T\left( I_n-S_{\lambda} \right) ^T\left( I_n-S_{\lambda} \right) Y,

而对矩阵AA, 有

E(YTAY)=E(tr{YTAY})=E(tr{AYYT})=tr{E(AYYT)}=tr{AE(YYT)}=tr{A(σ2In+XββTXT)}=σ2tr{A}+tr{AXββTXT}=σ2tr{A}+tr{βTXTAXβ}=σ2tr{A}+βTXTAXβ,\begin{aligned} E\left( Y^TAY \right) &=E\left( \mathrm{tr}\left\{ Y^TAY \right\} \right) =E\left( \mathrm{tr}\left\{ AYY^T \right\} \right) =\mathrm{tr}\left\{ E\left( AYY^T \right) \right\}\\ &=\mathrm{tr}\left\{ AE\left( YY^T \right) \right\} =\mathrm{tr}\left\{ A\cdot \left( \sigma ^2I_n+X\beta \beta ^TX^T \right) \right\}\\ &=\sigma ^2\mathrm{tr}\left\{ A \right\} +\mathrm{tr}\left\{ AX\beta \beta ^TX^T \right\} =\sigma ^2\mathrm{tr}\left\{ A \right\} +\mathrm{tr}\left\{ \beta ^TX^TAX\beta \right\}\\ &=\sigma ^2\mathrm{tr}\left\{ A \right\} +\beta ^TX^TAX\beta ,\\ \end{aligned}

代入 A=(InSλ)T(InSλ)A=\left( I_n-S_{\lambda} \right) ^T\left( I_n-S_{\lambda} \right), 有

E(SSE(λ))=σ2tr{(InSλ)T(InSλ)}+βTXT(InSλ)T(InSλ)Xβ.E\left( SSE\left( \lambda \right) \right) =\sigma ^2\mathrm{tr}\left\{ \left( I_n-S_{\lambda} \right) ^T\left( I_n-S_{\lambda} \right) \right\} +\beta ^TX^T\left( I_n-S_{\lambda} \right) ^T\left( I_n-S_{\lambda} \right) X\beta .

(2) 显然,

β^i=(XTXxixiT+λIp)1XiTYi=(XTX+λIpxixiT)1(XTYxiyi),\begin{aligned} \hat{\beta}_{-i}&=\left( X^TX-x_{i}x_i^T+\lambda I_p \right) ^{-1}X_{-i}^{T}Y_{-i}\\ &=\left( X^TX+\lambda I_p-x_{i}x_i^T \right) ^{-1}\left( X^TY-x_{i}y_i \right) ,\\ \end{aligned}

利用下述逆展开公式:

(Σ+μvT)1=Σ1Σ1μvTΣ11+μTΣ1v,\left( \Sigma +\mu v^T \right) ^{-1}=\Sigma ^{-1}-\frac{\Sigma ^{-1}\mu v^T\Sigma ^{-1}}{1+\mu ^T\Sigma ^{-1}v},

A=XTX+λIpA = X^TX+\lambda I_p, 我们得到

(AxixiT)1=A1+A1xixiTA11xiTA1xi=A1+A1xixiTA11Sλ(i,i),\left( A-x_ix_{i}^{T} \right) ^{-1}=A^{-1}+\frac{A^{-1}x_ix_{i}^{T}A^{-1}}{1-x_{i}^{T}A^{-1}x_i}=A^{-1}+\frac{A^{-1}x_ix_{i}^{T}A^{-1}}{1-S_{\lambda}\left( i,i \right)},

其中 xiTA1xi=Sλ(i,i)x_{i}^{T}A^{-1}x_i = S_{\lambda}(i,i), 进而有

β^i=β^+A1xixiT1Sλ(i,i)β^A1xiyi1Sλ(i,i),\hat{\beta}_{-i}=\hat{\beta}+\frac{A^{-1}x_ix_{i}^{T}}{1-S_{\lambda}\left( i,i \right)}\hat{\beta}-\frac{A^{-1}x_iy_i}{1-S_{\lambda}\left( i,i \right)},

代入 yixiTβ^iy_i -x_i^T\hat{\beta}_{-i}, 注意利用 xiTA1xi=Sλ(i,i)x_{i}^{T}A^{-1}x_i = S_{\lambda}(i,i), 得

yixiTβ^i=yixiTβ^+Sλ(i,i)1Sλ(i,i)xiTβ^Sλ(i,i)1Sλ(i,i)yi=yixiTβ^1Sλ(i,i),y_i-x_{i}^{T}\hat{\beta}_{-i}=y_i-x_{i}^{T}\hat{\beta}+\frac{S_{\lambda}\left( i,i \right)}{1-S_{\lambda}\left( i,i \right)}x_{i}^{T}\hat{\beta}-\frac{S_{\lambda}(i,i)}{1-S_{\lambda}\left( i,i \right)}y_i=\frac{y_i-x_{i}^{T}\hat{\beta}}{1-S_{\lambda}\left( i,i \right)},

因此结论得证.