北大叉院-849统计学-2022年

一、(15分) 假设某新冠检测试剂准确率为100%, 用于下述情况的检验.

(1) 某工厂100人中有2人患新冠, 将100人分为10组筛查, 若某组呈阳性则再于组内逐一筛查, 求检测次数的分布.

(2) 某工厂 m×nm\times n 人中有2人患新冠, 分为nn组筛查, 若某组呈阳性则再于组内逐一筛查, 求检测次数的分布.

Solution:
(1) 若2人在一组, 则检测20次; 若2人不在一组, 则检测30次.

P(X=20)=10C22C988C10010=111,P(X=30)=1011P\left( X=20 \right) =10\cdot \frac{C_{2}^{2}C_{98}^{8}}{C_{100}^{10}}=\frac{1}{11},P\left( X=30 \right) =\frac{10}{11}

可先求两人都在第一组的概率, 即100人中选10人, 恰选中这两人的概率, 它是 C22C988C10010=1110\frac{C_{2}^{2}C_{98}^{8}}{C_{100}^{10}}=\frac{1}{110}, 又考虑到总共有10组, 故题中所提的概率是 111\frac{1}{11}.

(2) 若2人在一组, 则检测 n+mn+m 次; 若2人不在一组, 则检测n+2mn + 2m次.

P(X=n+m)=nC22Cmn2m2Cmnm=m1mn1,P(X=n+2m)=mnmmn1P\left( X=n+m \right) =n\cdot \frac{C_{2}^{2}C_{mn-2}^{m-2}}{C_{mn}^{m}}=\frac{m-1}{mn-1},P\left( X=n+2m \right) =\frac{mn-m}{mn-1}

二、(20分) 某昆虫产卵数服从泊松分布 P(λ)\mathcal{P}\left( \lambda \right), 虫卵能成虫的概率是 pp, 求成虫数 YY 的分布.

Solution:

根据全概率公式:
P(P( 母虫有 nn 只后代 )=k=n+P()=\sum_{k=n}^{+\infty} P( 母虫有 nn 只后代|母虫产 kk 个卵) P(P( 母虫产 kk 个卵 )),
PP (母虫产 kk 个卵 )=λkk!eλ)=\frac{\lambda^{k}}{k !} e^{-\lambda},
P(P( 母虫有 nn 只后代|母虫产 kk 个卵 )=Cknpnqkn=k!n!(kn)!pnqkn)=C_{k}^{n} p^{n} q^{k-n}=\frac{k !}{n !(k-n) !} p^{n} q^{k-n},
P(\therefore P( 母虫有 nn 只后代 )=k=n+k!n!(kn)!pnqknλkk!eλ=λnpnn!eλk=n+(qλ)kn(kn)!=λnpnn!eλi=0+(qλ)ii!=λnpnn!eλeqλ=(λp)nn!eλp.)=\sum_{k=n}^{+\infty} \frac{k !}{n !(k-n) !} p^{n} q^{k-n} \cdot \frac{\lambda^{k}}{k !} e^{-\lambda} =\frac{\lambda^{n} p^{n}}{n !} e^{-\lambda} \sum_{k=n}^{+\infty} \frac{(q \lambda)^{k-n}}{(k-n) !}=\frac{\lambda^{n} p^{n}}{n !} e^{-\lambda} \sum_{i=0}^{+\infty} \frac{(q \lambda)^{i}}{i !}=\frac{\lambda^{n} p^{n}}{n !} e^{-\lambda} e^{q \lambda}=\frac{(\lambda p)^{n}}{n !} e^{-\lambda p} .
它恰好是参数为 λp\lambda p 的泊松分布.

三、(15分) X1,X2,,XnX_1,X_2,\cdots,X_n是来自指数分布 E(λ)\mathcal{E}\left( \lambda \right) 的随机样本, 求 λ\lambda 的MLE以及MLE的期望.

Solution: λ^=ni=1nXi,Eλ^=nn1λ\hat{\lambda}=\frac{n}{\sum_{i=1}^n{X_i}},E\hat{\lambda}=\frac{n}{n-1}\lambda.

四、(15分) 已知 (X,Y)N(μ1,μ2;σ12,σ22;ρ)\left( X,Y \right) \sim \mathcal{N}\left( \mu _1,\mu _2;\sigma _{1}^{2},\sigma _{2}^{2};\rho \right), 求 E(max{X,Y})E\left( \max \left\{ X,Y \right\} \right).

Solution: 利用 max{X,Y}=(X+Y)+XY2\max \left\{ X,Y \right\} =\frac{\left( X+Y \right) +\left| X-Y \right|}{2}, 其中 X+YN(μ1+μ2,σ12+σ22+2ρσ1σ2)X+Y\sim N\left( \mu _1+\mu _2,\sigma _{1}^{2}+\sigma _{2}^{2}+2\rho \sigma _1\sigma _2 \right),
XYN(μ1μ2,σ12+σ222ρσ1σ2)X-Y\sim N\left( \mu _1-\mu _2,\sigma _{1}^{2}+\sigma _{2}^{2}-2\rho \sigma _1\sigma _2 \right), 算得有

E(X+Y)=μ1+μ2E\left( X+Y \right) =\mu _1+\mu _2

以及

EXY=2(σ12+σ222ρσ1σ2)πe(μ1μ2)22(σ12+σ222ρσ1σ2)+(μ1μ2)[2Φ(μ1μ2σ12+σ222ρσ1σ2)1]E\left| X-Y \right|=\sqrt{\frac{2\left( \sigma _{1}^{2}+\sigma _{2}^{2}-2\rho \sigma _1\sigma _2 \right)}{\pi}}e^{-\frac{\left( \mu _1-\mu _2 \right) ^2}{2\left( \sigma _{1}^{2}+\sigma _{2}^{2}-2\rho \sigma _1\sigma _2 \right)}}+\left( \mu _1-\mu _2 \right) \left[ 2\Phi \left( \frac{\mu _1-\mu _2}{\sqrt{\sigma _{1}^{2}+\sigma _{2}^{2}-2\rho \sigma _1\sigma _2}} \right) -1 \right]

于是有

E[max{X,Y}]=12[μ1+μ2+EXY]E\left[ \max \left\{ X,Y \right\} \right] =\frac{1}{2}\left[ \mu _1+\mu _2+E\left| X-Y \right| \right]

注: 这里先记 XYN(μ,σ2)X-Y\sim \mathcal{N}\left( \mu ,\sigma ^2 \right), 算出 EXYE\left| X-Y \right| 后再代回 μ=μ1μ2,σ2=σ12+σ222ρσ1σ2\mu =\mu _1-\mu _2,\sigma ^2=\sigma _{1}^{2}+\sigma _{2}^{2}-2\rho \sigma _1\sigma _2.

五、(20分) X1,X2N(0,1)X_1,X_2\sim \mathcal{N}\left( 0,1 \right) 且相互独立, 求 Y=(X1X2)22Y=\frac{\left( X_1-X_2 \right) ^2}{2} 的分布.

Solution: 根据正态分布的性质, X1X2N(0,2)X_1 - X_2 \sim \mathcal{N}(0,2), 因此 Y=(X1X2)22χ12Y = \frac{\left( X_1-X_2 \right) ^2}{2}\sim \chi _{1}^{2}.

六、(20分) 随机变量XU(0,1)X\sim \mathcal{U}\left( 0,1 \right), a(0,1)a\in \left( 0,1 \right) 是常数, 用 YY 表示 aaXX 的距离, 试求当 ρXY=0\rho_{XY} = 0aa 的取值.

Solution: EX=12,EY=a2a+12,EXY=a33a2+13EX=\frac{1}{2},EY=a^2-a+\frac{1}{2},EXY=\frac{a^3}{3}-\frac{a}{2}+\frac{1}{3}, 令

Cov(X,Y)=a33a2+1312a212a+14=0Cov\left( X,Y \right) =\frac{a^3}{3}-\frac{a}{2}+\frac{1}{3}-\frac{1}{2}a^2-\frac{1}{2}a+\frac{1}{4}=0

a=12a = \frac{1}{2} 以及 a=4±2408a=-\frac{-4\pm \sqrt{240}}{8}(舍).

七、(20分) 有一组乙肝患者随机分配到甲组和乙组分别用疫苗I与疫苗II进行治疗. 已通过预测试得出疫苗I转阴率为p1p_1,疫苗II转阴率为p2p_2, 且 p1>p2p_1 > p_2. 给定检验水平 α\alpha, 求疫苗医学效用不小于β\beta 时, 甲组和乙组的最少样本数, 其中甲组样本数是乙组的 rr 倍.

Solution: 题意不明. 但都给分.

八、(20分) 对于总体 XN(μ,σ2)X\sim \mathcal{N}\left( \mu ,\sigma ^2 \right), 其中 σ2\sigma^2 已知. 试问想要构造 μ\mu1α1-\alpha 置信区间使得区间长度不大于 LL , 至少需要多少的样本量 nn.

Solution: 置信区间是 Xˉ±σnz1α2\bar{X}\pm \frac{\sigma}{\sqrt{n}}z_{1-\frac{\alpha}{2}}, 令其长度 2σnz1α2L2\frac{\sigma}{\sqrt{n}}z_{1-\frac{\alpha}{2}}\le L, 解得 n4σ2L2z1α22n\ge \frac{4\sigma ^2}{L^2}z_{1-\frac{\alpha}{2}}^{2}.

九、(20分) 对于线性回归模型 yi=βxi+εiy_i=\beta x_i+\varepsilon _i, 其中诸 εi\varepsilon _i 相互独立都服从 N(0,σ2)\mathcal{N}\left( 0,\sigma ^2 \right). 现有 nn 个观测数据. 满足

(1) 求最小二乘估计 β^\hat{\beta}, 以及 σ2\sigma^2 的无偏估计.

(2) β\beta1α1-\alpha 置信区间;

(3) 给定 x0x_0, 求 y0y_0 的预测区间.

Solution: (1) 对残差平方和 Q(β)=i=1n(yiβxi)2Q\left( \beta \right) =\sum_{i=1}^n{\left( y_i-\beta x_i \right) ^2} 求导并置零, 得正规方程:

i=1nxiyiβi=1nxi2=0\sum_{i=1}^n{x_iy_i}-\beta \sum_{i=1}^n{x_{i}^{2}}=0

解得最小二乘估计 β^=i=1nxiyii=1nxi2\hat{\beta}=\frac{\sum_{i=1}^n{x_iy_i}}{\sum_{i=1}^n{x_{i}^{2}}}. 此时残差平方和的制度为 n1n-1, 因此 σ^2=i=1n(yixiβ^)2n1\hat{\sigma}^2=\frac{\sum_{i=1}^n{\left( y_i-x_i\hat{\beta} \right) ^2}}{n-1}σ2\sigma^2 的无偏估计.

(2) 考虑到 β^=i=1nxiyii=1nxi2N(β,σ2i=1nxi2)\hat{\beta}=\frac{\sum_{i=1}^n{x_iy_i}}{\sum_{i=1}^n{x_{i}^{2}}}\sim \mathcal{N}\left( \beta ,\frac{\sigma ^2}{\sum_{i=1}^n{x_{i}^{2}}} \right) 且与 (n1)σ^2σ2χ2(n1)\left( n-1 \right) \frac{\hat{\sigma}^2}{\sigma ^2}\sim \chi ^2\left( n-1 \right) 相互独立, 因此 β\beta1α1-\alpha 置信区间是

β^±σ^i=1nxi2t1α2(n1)\hat{\beta}\pm \frac{\hat{\sigma}}{\sqrt{\sum_{i=1}^n{x_{i}^{2}}}}t_{1-\frac{\alpha}{2}}\left( n-1 \right)

(3) 由于 y0N(βx0,σ2),β^x0N(βx0,x02σ2i=1nxi2)y_0\sim \mathcal{N}\left( \beta x_0,\sigma ^2 \right) ,\hat{\beta}x_0\sim \mathcal{N}\left( \beta x_0,\frac{x_{0}^{2}\sigma ^2}{\sum_{i=1}^n{x_{i}^{2}}} \right), 且二者独立, 所以 y0β^x0N(0,(1+x02i=1nxi2)σ2)y_0-\hat{\beta}x_0\sim \mathcal{N}\left( 0,\left( 1+\frac{x_{0}^{2}}{\sum_{i=1}^n{x_{i}^{2}}} \right) \sigma ^2 \right), 且他与 (n1)σ^2σ2χ2(n1)\left( n-1 \right) \frac{\hat{\sigma}^2}{\sigma ^2}\sim \chi ^2\left( n-1 \right) 独立, 因此 y0y_01α1-\alpha 预测区间是

β^x0±1+x02i=1nxi2σ^t1α2(n1)\hat{\beta}x_0\pm \sqrt{1+\frac{x_{0}^{2}}{\sum_{i=1}^n{x_{i}^{2}}}}\hat{\sigma}t_{1-\frac{\alpha}{2}}\left( n-1 \right)