清华大学-432统计学-2024年

一、 (20分) 设 X1,X2,X3,X4X_1,X_2,X_3,X_4 独立同分布于 N(0,σ2)N(0,\sigma^2), 求 Y=X12+X22X12+X22+X32+X42Y=\frac{X_1^2+X_2^2}{X_1^2+X_2^2+X_3^2+X_4^2} 的分布.

Solution: (1) 茆书3.3.18改编. 由于 XiX_i 均为尺度族, 我们考虑

Y=(X12+X22)/σ2(X12+X22)/σ2+(X32+X42)/σ2:=Z1Z1+Z2,Y=\frac{(X_1^2+X_2^2)/\sigma^2}{(X_1^2+X_2^2)/\sigma^2+(X_3^2+X_4^2)/\sigma^2}:=\frac{Z_1}{Z_1+Z_2},

其中 Z1χ2(2)=Ga(1,12),Z2χ2(2)=Ga(1,12)Z_1 \sim \chi^2(2)=Ga(1,\frac{1}{2}), Z_2 \sim \chi^2(2)=Ga(1,\frac{1}{2}), 两者独立. 这是经典结论, 我们可以得到最终的分布为 Be(1,1)=U(0,1)Be(1,1)=U(0,1).

二、(1)(10分) 叙述依分布收敛的定义.

(2)(10分) 设 Xnχ2(n)X_n \sim \chi^2(n), 令 Zn=Xnn2nZ_n = \frac{X_n-n}{\sqrt{2n}}. {Zn}n1\{Z_n\}_{n\geq 1} 是否依分布收敛, 请说明理由.

Solution: (1) 茆书定义.

(2) 考虑特征函数, 我们知道 XnX_n 的特征函数为 ϕXn(t)=(12it)n/2\phi_{X_n}(t)=(1-2it)^{-n/2}. 从而 ZnZ_n 的特征函数为

ϕZn(t)=ϕXnn2n(t)=eitn2nϕXn(t2n)=eitn2n(12it2n)n/2=exp{itn2nn2log(12it2n)}=exp{itn2nn2(2it2nt2n+o(1n))}=exp{t22+o(1)}exp{t22}.\begin{aligned} \phi_{Z_n}(t)=\phi_{\frac{X_n-n}{\sqrt{2n}}}(t)&=e^{-it\frac{n}{\sqrt{2n}}}\phi_{X_n}\left( \frac{t}{\sqrt{2n}}\right)=e^{-it\frac{n}{\sqrt{2n}}}\left(1-2i\frac{t}{\sqrt{2n}}\right)^{-n/2}\\ & = \exp\left\{-it\frac{n}{\sqrt{2n}}-\frac{n}{2}\log \left(1-2i\frac{t}{\sqrt{2n}}\right) \right\}\\ & = \exp\left\{-it\frac{n}{\sqrt{2n}}-\frac{n}{2}\left(-2i\frac{t}{\sqrt{2n}}-\frac{t^2}{n}+o\left(\frac{1}{n}\right)\right) \right\}\\ & = \exp\left\{ -\frac{t^2}{2}+o(1)\right\} \to \exp\left\{ -\frac{t^2}{2}\right\}. \end{aligned}

由唯一性定理可知, ZndN(0,1)Z_n \overset{d}{\to}N(0,1).

三、(60分) X1,,Xmi.i.d.U(0,θx),Y1,,Yni.i.d.U(0,θy)X_1,\cdots, X_m \overset{i.i.d.}{\sim} U(0,\theta_x), Y_1,\cdots, Y_n \overset{i.i.d.}{\sim} U(0,\theta_y), 两者相互独立.

(1)(10分) 求 (θx,θy)(\theta_x, \theta_y) 的充分统计量;

(2)(20分) 基于(1)的统计量给出 θ=θx/θy\theta = \theta_x/\theta_y 的无偏估计;

(3)(30分) 求 θ=θx/θy\theta = \theta_x/\theta_y 的置信水平为 1α1-\alpha 的置信区间.

Solution: (1) T=(X(m),Y(n))T = (X_{(m)}, Y_{(n)}).

(2) 考虑 X(m)/Y(n)X_{(m)}/Y_{(n)} 的期望, 由于 X(m)/θxBe(m,1),Y(n)/θyBe(n,1)X_{(m)}/\theta_x \sim Be(m,1), Y_{(n)}/\theta_y \sim Be(n,1). 从而有

E(X(m)/Y(n))=θxθyE(X(m)θx)E(1Y(n)/θy)=θxθymm+1nn1.E\left( X_{(m)}/Y_{(n)} \right)= \frac{\theta_x}{\theta_y} E\left(\frac{X_{(m)}}{\theta_x}\right)E\left(\frac{1}{Y_{(n)}/\theta_y}\right)=\frac{\theta_x}{\theta_y}\frac{m}{m+1}\frac{n}{n-1}.

(3) 茆书6.6.18原题. θ=θx/θy\theta = \theta_x/\theta_y 的置信水平为 1α1-\alpha 的置信区间为

[X(m)Y(n)((m+n)α2m)1/n,X(m)Y(n)((m+n)α2n)1/m].\left[ \frac{X_{(m)}}{Y_{(n)}}\left(\frac{(m+n)\alpha}{2m} \right)^{1/n}, \frac{X_{(m)}}{Y_{(n)}}\left(\frac{(m+n)\alpha}{2n} \right)^{-1/m}\right].

四、(20分) 现有甲乙两种药品, AA 组共 M(M100)M(M\geq 100) 人, 对 AA 组内所有人使用甲药后发现有 mm 人有副作用; BB 组共 N(N100)N(N\geq 100) 人, 对 BB 组内所有人使用乙药后发现有 nn 人有副作用. 请说明甲乙两药的效果是否有显著差异.

Solution: 考虑两样本比率检验, 设使用甲药后有副作用的人数为 Xb(M,p1)X \sim b(M,p_1), 使用乙药后有副作用的人数为 Yb(N,p2)Y \sim b(N, p_2).

检验问题为 H0:p1=p2v.s.H1:p1p2H_0: p_1 = p_2 \quad \text{v.s.} \quad H_1: p_1\neq p_2. 由于 M,N100M,N \geq 100, 因此我们考虑大样本检验, 有

XˉYˉ(p1p2)p1(1p1)M+p2(1p2)NdN(0,1),\frac{\bar{X}-\bar{Y}-(p_1-p_2)}{\sqrt{\frac{p_1(1-p_1)}{M}+\frac{p_2(1-p_2)}{N}}}\overset{d}{\to } N(0,1),

再由Slutsky定理以及在原假设下 p1=p2:=pp_1=p_2:=p, 从而我们利用 p^=m+nM+Npp\hat{p}=\frac{m+n}{M+N} \overset{p}{\to} p, 有

T=XˉYˉp^(1p^)(1M+1N)dN(0,1),T = \frac{\bar{X}-\bar{Y}}{\sqrt{\hat{p}\left( 1-\hat{p}\right)\left( \frac{1}{M}+ \frac{1}{N}\right)}} \overset{d}{\to} N(0,1),

其中 Xˉ=m/M,Yˉ=n/N\bar{X} = m/M, \bar{Y}= n/N. 拒绝域为

W={T>u1α/2}.W=\left\{ |T|> u_{1-\alpha/2}\right\}.

五、(30分) 设 X1,,Xni.i.d.Ga(α,β)X_1,\cdots, X_n\overset{i.i.d.}{\sim} Ga(\alpha,\beta), 其中 α\alpha 已知.

(1)(10分) 求 β,1β\beta, \frac{1}{\beta} 的MLE;

(2)(20分) 说明 β,1β\beta, \frac{1}{\beta} 的MLE是否达到C-R下界.

Solution: (1) 似然函数为

L(β)=C1βnαexp{βi=1nXi}.L(\beta)=C_1 \beta^{n\alpha}\exp\left\{ -\beta \sum_{i=1}^n X_i\right\}.

其对数似然为

l(β)=logL(β)=C2+nαlogββi=1nXi.l(\beta)=\log L(\beta) = C_2+n\alpha \log \beta -\beta \sum_{i=1}^n X_i.

求偏导有

l(β)β=nαβi=1nXi=0β^=nαi=1nXi.\frac{\partial l(\beta) }{\partial \beta}= \frac{n\alpha}{\beta}- \sum_{i=1}^n X_i= 0 \Rightarrow \hat{\beta} = \frac{n\alpha}{\sum_{i=1}^n X_i}.

由MLE不变性可知, 1β^=i=1nXinα\hat{\frac{1}{\beta}}=\frac{\sum_{i=1}^n X_i}{n\alpha}.

(2) 首先计算信息量

I(β)=E(2l(β)β2)=E(2l(β)β2)=αβ2.I(\beta) = - E\left( \frac{\partial^2 l(\beta) }{\partial \beta^2}\right)=-E\left( \frac{\partial^2 l(\beta) }{\partial \beta^2}\right)=\frac{\alpha}{\beta^2}.

需要注意的是这里的 l(β)l(\beta)是对单个样本的对数似然函数. 从而对于 β\beta 的C-R下界为 I1=(g1(β))2nI(β)=β2nαI_1 = \frac{\left( g_1^{'}(\beta)\right)^2}{n I(\beta)}=\frac{\beta^2}{n\alpha}, 1β\frac{1}{\beta} 的C-R下界为 I2=(g2(β))2nI(β)=1nαβ2I_2 = \frac{\left( g_2^{'}(\beta)\right)^2}{n I(\beta)}=\frac{1}{n\alpha\beta^2}.

i=1nXiGa(nα,β)\sum_{i=1}^n X_i \sim Ga(n\alpha, \beta), 从而

E(1i=1nXi)=Γ(nα1)Γ(nα)1β1=βnα1,E((1i=1nXi)2)=Γ(nα2)Γ(nα)1β2=β2(nα1)(nα2).\begin{aligned} E\left( \frac{1}{\sum_{i=1}^n X_i} \right) & = \frac{\Gamma(n\alpha-1)}{\Gamma(n\alpha)}\frac{1}{\beta^{-1}}=\frac{\beta}{n\alpha-1}, \\ E\left( \left( \frac{1}{\sum_{i=1}^n X_i} \right)^2\right) & = \frac{\Gamma(n\alpha-2)}{\Gamma(n\alpha)}\frac{1}{\beta^{-2}}=\frac{\beta^2}{(n\alpha-1)(n\alpha-2)}. \end{aligned}

以及

Var(β^)=n2α2Var(1i=1nXi)=n2α2(β2(nα1)(nα2)β2(nα1)2)=β2nαn3α3(nα1)2(nα2)>β2nα=I1,Var(1β^)=1n2α2Var(i=1nXi)=1n2α2nαβ2=1nαβ2=I2.\begin{aligned} Var\left( \hat{\beta}\right) & = n^2\alpha^2 Var\left( \frac{1}{\sum_{i=1}^n X_i}\right) = n^2\alpha^2 \left( \frac{\beta^2}{(n\alpha-1)(n\alpha-2)}-\frac{\beta^2}{(n\alpha-1)^2}\right)=\frac{\beta^2}{n\alpha}\frac{n^3\alpha^3}{(n\alpha-1)^2(n\alpha-2)}>\frac{\beta^2}{n\alpha}= I_1,\\ Var\left( \hat{\frac{1}{\beta}} \right) & =\frac{1}{n^2\alpha^2} Var\left( \sum_{i=1}^n X_i\right)=\frac{1}{n^2\alpha^2}\frac{n\alpha}{\beta^2}=\frac{1}{n\alpha\beta^2} = I_2 . \end{aligned}