北大叉院-849统计学-2018年

一、(8分) 有 4 份古卷放在书架上,请问第 1 卷与第 2 卷相邻的概率为多少?

Solution:
这是一个古典概型问题, 全体样本点的数量是一个全排列 #Ω=4!=24\# \Omega=4 !=24. 而对于待研究事件, 使用捆绑法, 将第 1 卷与第 2 卷视为一个整体, 此时外部有 3 个物体待排列, 其中一个是第 1 卷与第 2 卷构成的整体, 其内部也有 2 个物体待 排列, 由内外部两个排列的独立性知# A=2!3!=12A=2 ! \cdot 3 !=12, 因此

P(A)=#A#Ω=1224=12P(A)=\frac{\# A}{\# \Omega}=\frac{12}{24}=\frac{1}{2}

二、(8分) 甲、乙独立地向同一目标射击,甲命中的概率是 0.6,乙命中的概率是 0.8. 求在已知目标被命中的情况下,是乙命中的概率.

Solution:
用事件 AA 表示目标被射中, 则 P(A)=1(10.6)(10.8)=0.92P(A)=1-(1-0.6) \cdot(1-0.8)=0.92. 再用事件 BB 表示目标被乙射中, 则由贝叶斯公式

P(BA)=P(AB)P(B)P(A)=0.80.92=2023P(B \mid A)=\frac{P(A \mid B) P(B)}{P(A)}=\frac{0.8}{0.92}=\frac{20}{23}

三、(10分) 甲袋中装有 2 个白球和 1 个黑球,乙袋中装有 2 个黑球和 1 个白球. 现在随机地先从甲袋中取出一球放入乙袋中,再从乙袋中取出 1 球,请问第二次从乙袋中 取出黑球的概率是多少?

Solution:
用事件 BiB_{i} 表示拿到的第 ii 个球是黑球, 则由全概率公式

P(B2)=P(B2B1)P(B1)+P(B2Bˉ1)P(Bˉ1)=3413+1223=14+13=712\begin{aligned} P\left(B_{2}\right) &=P\left(B_{2} \mid B_{1}\right) P\left(B_{1}\right)+P\left(B_{2} \mid \bar{B}_{1}\right) P\left(\bar{B}_{1}\right) \\ &=\frac{3}{4} \cdot \frac{1}{3}+\frac{1}{2} \cdot \frac{2}{3} \\ &=\frac{1}{4}+\frac{1}{3}=\frac{7}{12} \end{aligned}

四、(10分) 目前有 nn把外观相似的钥匙用于开一扇上锁的门, nn 把钥匙中只有一把能打开. 随机从$ n$ 把钥匙中取出一把用于开锁,如果不能开锁就将其放回,重新抽取.请问成功开锁 所需要的取钥匙次数的期望为多少?

Solution: 设取钥匙次数为 XX, 显然有 XGe(1n)X \sim G e\left(\frac{1}{n}\right), 于是 EX=nE X=n.

五、(12分) Xf(x)=cx(1x)I[0<x<1],X \sim f(x)=c x(1-x) I[0<x<1],

(1) cc;

(2) XXX\sqrt{X} 的相关系数.

Solution:
贝塔函数: B(p,q)=01xp1(1x)q1 dx=Γ(p)Γ(q)Γ(p+q)\mathbf{B}(p, q)=\int_{0}^{1} x^{p-1}(1-x)^{q-1} \mathrm{~d} x=\frac{\Gamma(p) \Gamma(q)}{\Gamma(p+q)}.
(1)
由概率密度函数的正则性, 有

c01x(1x)dx=cB(2,2)=cΓ(2)Γ(2)Γ(4)=c6=1c \int_{0}^{1} x(1-x) \mathrm{d} x=c \mathbf{B}(2,2)=c \frac{\Gamma(2) \Gamma(2)}{\Gamma(4)}=\frac{c}{6}=1

解得 c=6c=6.

(2)
对于 p>0\forall p>0,

EXp=016xp+1(1x)dx=6B(p+2,2)=6Γ(p+2)Γ(2)Γ(p+4)=6(p+3)(p+2)E X^{p}=\int_{0}^{1} 6 x^{p+1}(1-x) \mathrm{d} x=6 \mathbf{B}(p+2,2)=6 \frac{\Gamma(p+2) \Gamma(2)}{\Gamma(p+4)}=\frac{6}{(p+3)(p+2)}

于是

Cov(X,X)=EX32EXEX12=6927264367252=821122435=4105\begin{aligned} \operatorname{Cov}(X, \sqrt{X})&=E X^{\frac{3}{2}}-E X \cdot E X^{\frac{1}{2}} \\ &=\frac{6}{\frac{9}{2} \cdot \frac{7}{2}}-\frac{6}{4 \cdot 3} \cdot \frac{6}{\frac{7}{2} \cdot \frac{5}{2}} \\ &=\frac{8}{21}-\frac{1}{2} \cdot \frac{24}{35}=\frac{4}{105} \\ \end{aligned}

而Var (X)=EX2(EX)2=65414=120(X)=E X^{2}-(E X)^{2}=\frac{6}{5 \cdot 4}-\frac{1}{4}=\frac{1}{20}
Var(X)=EX(EX12)2=12(2435)2=732450\operatorname{Var}(\sqrt{X})=E X-\left(E X^{\frac{1}{2}}\right)^{2}=\frac{1}{2}-\left(\frac{24}{35}\right)^{2}=\frac{73}{2450}
所以 Corr(X,X)=41051207324500.987.\operatorname{Corr}(X, \sqrt{X})=\frac{\frac{4}{105}}{\sqrt{\frac{1}{20} \cdot \frac{73}{2450}}} \approx 0.987 .

六、(12分) 有来自总体 f(x)=2θ2x3I[xθ]f(x)=\frac{2 \theta^{2}}{x^{3}} I[x \geq \theta]nn 个随机样本, 求 θ\theta 的矩估计、最大似然估计.

Solution:

EX=θ+2θ2x2dx=2θ2(1x)θ+=2θE X=\int_{\theta}^{+\infty} \frac{2 \theta^{2}}{x^{2}} d x=\left.2 \theta^{2}\left(-\frac{1}{x}\right)\right|_{\theta} ^{+\infty}=2 \theta

所以 θ^M=xˉ2\hat{\theta}_{M}=\frac{\bar{x}}{2}θ\theta 的矩估计.
似然函数 L(θ)=2ni=1nxi3θ2nI{x(1)θ}L(\theta)=\frac{2^{n}}{\prod_{i=1}^{n} x_{i}^{3}} \theta^{2 n} \mathbf{I}_{\left\{x_{(1)} \geqslant \theta\right\}}θ\theta(,x(1)]\left(-\infty, x_{(1)}\right] 上的单调递增函数, 因此 θ^L=x(1)\hat{\theta}_{L}=x_{(1)}θ\theta 的极大似然估计.

七、(15分) 设简单随机样本 X1,,XnX_1, \cdots, X_n 服从 [0,θ][0, \theta] 上的均匀分布:

(1)(7分) 求 θ\theta 的极大似然估计;

(2)(8分) 构造 θ\theta1α1-\alpha 置信区间.

Solution:

(1) 似然函数 L(θ)=1θnI{x(n)θ}L(\theta)=\frac{1}{\theta^{n}} \mathbf{I}_{\left\{x_{(n)} \leqslant \theta\right\}}θ\theta[x(n),+)\left[x_{(n)},+\infty\right) 上的减函数, 显然 θ^L=x(n)\hat{\theta}_{L}=x_{(n)}θ\theta 的极大似然估计.

(2) 用枢轴量法来构造置信区间:
假设来自总体为 U(0,θ)U(0, \theta)nn 个随机样本为 X1,,XnX_{1}, \ldots, X_{n}, 那么

T=X(n)θf(t)=ntn1,0<t<1,T=\frac{X_{(n)}}{\theta} \sim f(t)=n t^{n-1}, 0<t<1,

我们想找到 0c<d10 \leq c<d \leq 1, 使得

1α=P{cTd}1-\alpha=P\{c \leq T \leq d\}

我们可以取 c=α1n,d=1c=\alpha^{\frac{1}{n}}, d=1 将满足

1α=P{α1nX(n)θ1}, 即 1α=P{X(n)θX(n)α1n}1-\alpha=P\left\{\alpha^{\frac{1}{n}} \leq \frac{X_{(n)}}{\theta} \leq 1\right\} \text {, 即 } 1-\alpha=P\left\{X_{(n)} \leq \theta \leq \frac{X_{(n)}}{\alpha^{\frac{1}{n}}}\right\} \text {, }

θ\theta1α1-\alpha 置信区间为 [X(n),X(n)α1n]\left[X_{(n)}, \frac{X_{(n)}}{\alpha^{\frac{1}{n}}}\right].

八、(15分) 有来自总体 XN(μ,σ2)X \sim N(\mu, \sigma^2)nn 个随机样本, μ\mu1α1-\alpha 置信区间长度为 LL, 求 EL2E L^{2}.

Solution:
μ\mu 的置信区间是 xˉ±snt1α2(n1)\bar{x} \pm \frac{s}{\sqrt{n}} t_{1-\frac{\alpha}{2}}(n-1), 置信区间的长度是 2snt1α2(n1)2 \frac{s}{\sqrt{n}} t_{1-\frac{\alpha}{2}}(n-1),则

EL2=E(2snt1α2(n1))2=4n[t1α2(n1)]2Es2=4σ2n[t1α2(n1)]2E L^{2}=E\left(2 \frac{s}{\sqrt{n}} t_{1-\frac{\alpha}{2}}(n-1)\right)^{2}=\frac{4}{n}\left[t_{1-\frac{\alpha}{2}}(n-1)\right]^{2} E s^{2}=\frac{4 \sigma^{2}}{n}\left[t_{1-\frac{\alpha}{2}}(n-1)\right]^{2}

九、(15分) X0,X1,,XnX_{0}, X_{1}, \ldots, X_{n} 独立同服从 Ge(p),G e(p),Cov(i=1X0Xi,i=1X0XX0+i)\operatorname{Cov}\left(\sum_{i=1}^{X_{0}} X_{i}, \sum_{i=1}^{X_{0}} X_{X_{0}+i}\right).

Solution:
由重期望公式知

E(i=1X0Xi)=E[E(i=1X0XiX0)]=E[X0p]=1p2 同理 E(i=1X0XX0+i)=1p2.E[(i=1X0Xi)(i=1X0XX0+i)]=E(E[(i=1X0Xi)(i=1X0XX0+i)X0])=E(E[(i=1X0Xi)(i=X0+12X0Xi)X0])=E[X02p2]=1p2EX02=2pp4 因此 Cov(i=1X0Xi,i=1X0XX0+i)=2pp41p4=1pp4.\begin{aligned} E\left(\sum_{i=1}^{X_{0}} X_{i}\right) &=E\left[E\left(\sum_{i=1}^{X_{0}} X_{i} \mid X_{0}\right)\right]=E\left[\frac{X_{0}}{p}\right]=\frac{1}{p^{2}} \\ \text { 同理 } E\left(\sum_{i=1}^{X_{0}} X_{X_{0}+i}\right)=\frac{1}{p^{2}} . \\ E\left[\left(\sum_{i=1}^{X_{0}} X_{i}\right)\left(\sum_{i=1}^{X_{0}} X_{X_{0}+i}\right)\right] &=E\left(E\left[\left(\sum_{i=1}^{X_{0}} X_{i}\right)\left(\sum_{i=1}^{X_{0}} X_{X_{0}+i}\right) \mid X_{0}\right]\right) \\ &=E\left(E\left[\left(\sum_{i=1}^{X_{0}} X_{i}\right)\left(\sum_{i=X_{0}+1}^{2 X_{0}} X_{i}\right) \mid X_{0}\right]\right) \\ &=E\left[\frac{X_{0}^{2}}{p^{2}}\right] \\ &=\frac{1}{p^{2}} E X_{0}^{2}=\frac{2-p}{p^{4}} \\ \text { 因此 } \operatorname{Cov}\left(\sum_{i=1}^{X_{0}} X_{i}, \sum_{i=1}^{X_{0}} X_{X_{0}+i}\right) &=\frac{2-p}{p^{4}}-\frac{1}{p^{4}}=\frac{1-p}{p^{4}} . \end{aligned}

十、(15分) 设随机变量 XX 服从 [θρ,θ+ρ][\theta-\rho, \theta+\rho] 上的均匀分布,试求 θ\thetaρ\rho 的极大似然估计, 并说明其 极大似然估计是否为无偏估计, 并证明你的结论.

Solution:
作一一变换 {a=θρb=θ+ρ\left\{\begin{array}{l}a=\theta-\rho \\ b=\theta+\rho\end{array}\right., 则 {θ=a+b2ρ=ba2\left\{\begin{array}{l}\theta=\frac{a+b}{2} \\ \rho=\frac{b-a}{2}\end{array}\right., 且总体 XU(a,b)X \sim U(a, b).
于是似然函数为 L(a,b)=1(ba)nI{x(0)a}I{x(n)b}L(a, b)=\frac{1}{(b-a)^{n}} \mathbf{I}_{\left\{x_{(0)} \geqslant a\right\}} \mathbf{I}_{\left\{x_{(n)} \leqslant b\right\}}, 显然若想要似然函数取 到最大值, 则要求 (ba)(b-a) 取到最小值, 又注意到示性函数的存在, 则 aabb 的取 值范围分别是 (,x(1)]\left(-\infty, x_{(1)}\right][x(n),+)\left[x_{(n)},+\infty\right), 因此当 {a=x(1)b=x(n)\left\{\begin{array}{l}a=x_{(1)} \\ b=x_{(n)}\end{array}\right. 时, (ba)(b-a) 取到最小值.

{θ^=x(1)+x(n)2ρ^=x(n)x(1)2\left\{\begin{array}{l} \hat{\theta}=\frac{x_{(1)}+x_{(n)}}{2} \\ \hat{\rho}=\frac{x_{(n)}-x_{(1)}}{2} \end{array}\right.

(θ,ρ)(\theta, \rho) 的极大似然估计.
由均匀分布的性质容易知道

x(1)abaBeta(1,n),x(n)abaBeta(n,1)\frac{x_{(1)}-a}{b-a} \sim \operatorname{Beta}(1, n), \frac{x_{(n)}-a}{b-a} \sim \operatorname{Beta}(n, 1)

Ex(1)=a+ban+1,Ex(n)=bban+1E x_{(1)}=a+\frac{b-a}{n+1}, E x_{(n)}=b-\frac{b-a}{n+1}.
于是

{Eθ^=Ex(1)+Ex(n)2=a+b2=θEρ^=Ex(n)Ex(1)2=ba2n+1(ba)2=n1n+1ba2=n1n+1ρ\left\{\begin{array}{l} E \hat{\theta}=\frac{E x_{(1)}+E x_{(n)}}{2}=\frac{a+b}{2}=\theta \\ E \hat{\rho}=\frac{E x_{(n)}-E x_{(1)}}{2}=\frac{b-a-\frac{2}{n+1}(b-a)}{2}=\frac{n-1}{n+1} \frac{b-a}{2}=\frac{n-1}{n+1} \rho \end{array}\right.

θ^\hat{\theta} 是无偏估计, ρ^\hat{\rho} 不是无偏估计.

十一、(15分)叙述中心极限定理, 并利用中心极限定理证明:

limnk=0nnkk!en=12.\lim _{n \rightarrow \infty} \sum_{k=0}^{n} \frac{n^{k}}{k !} e^{-n}=\frac{1}{2}.

Solution:
X1,X2,,XnX_{1}, X_{2}, \cdots, X_{n} 独立同分布, 且有 EX1=μ,Var(X1)=σ2<+E X_{1}=\mu, \operatorname{Var}\left(X_{1}\right)=\sigma^{2}<+\infty, 那么对于任 意 xRx \in R,

limnP(i=1nXinμnσx)=Φ(x)\lim _{n \rightarrow \infty} P\left(\frac{\sum_{i=1}^{n} X_{i}-n \mu}{\sqrt{n} \sigma} \leqslant x\right)=\Phi(x)

这里 Φ(x)\Phi(x) 是标准正态分布的分布函数. 取 X1,X2,,XnX_{1}, X_{2}, \cdots, X_{n} i.i.d \sim Poisson (1)(1), 则 EX1=Var(X1)=1E X_{1}=\operatorname{Var}\left(X_{1}\right)=1, 则

limnP(i=1nXinn0)=Φ(0)=12\lim _{n \rightarrow \infty} P\left(\frac{\sum_{i=1}^{n} X_{i}-n}{\sqrt{n}} \leqslant 0\right)=\Phi(0)=\frac{1}{2}

又根据泊松分布的可加性知 i=1nXiPoisson(n)\sum_{i=1}^{n} X_{i} \sim \operatorname{Poisson}(n), 于是有

P(i=1nXinn0)=P(i=1nXin)=k=0nnkk!enP\left(\frac{\sum_{i=1}^{n} X_{i}-n}{\sqrt{n}} \leqslant 0\right)=P\left(\sum_{i=1}^{n} X_{i} \leqslant n\right)=\sum_{k=0}^{n} \frac{n^{k}}{k !} e^{-n}

因此 limnk=0nnkk!en=12\lim _{n \rightarrow \infty} \sum_{k=0}^{n} \frac{n^{k}}{k !} e^{-n}=\frac{1}{2}.

十二、(15分) 设有方程组

{y1=θ1+θ2+θ3+ε1,y2=θ1θ2θ3+ε2,y3=θ1+θ2θ3+ε3,y4=θ1θ2+θ3+ε4.\left\{\begin{array}{c} y_{1}=\theta_{1}+\theta_{2}+\theta_{3}+\varepsilon_{1}, \\ y_{2}=\theta_{1}-\theta_{2}-\theta_{3}+\varepsilon_{2}, \\ y_{3}=-\theta_{1}+\theta_{2}-\theta_{3}+\varepsilon_{3}, \\ y_{4}=-\theta_{1}-\theta_{2}+\theta_{3}+\varepsilon_{4}. \end{array}\right.

其中, εi\varepsilon_{i} i.i.d N(0,σ2),σ2\sim N\left(0, \sigma^{2}\right), \sigma^{2} 未知, 求

(1)(7分) θ1,θ2,θ3\theta_{1}, \theta_{2}, \theta_{3} 的 UMVUE;

(2)(8分) θ1\theta_{1} 的置信度为1α1-\alpha的最短置信区间.

Solution:
(1)
(Y1,Y2,Y3,Y4)\left(Y_{1}, Y_{2}, Y_{3}, Y_{4}\right) 的联合密度函数是

f(y1,y2,y3,y4)=(2πσ2)2exp{(y1θ1θ2θ3)22σ2}exp{(y2θ1+θ2+θ3)22σ2}exp{(y3+θ1θ2+θ3)22σ2}exp{(y4+θ1+θ2θ3)22σ2}\begin{array}{r} f\left(y_{1}, y_{2}, y_{3}, y_{4}\right)=\left(2 \pi \sigma^{2}\right)^{-2} \exp \left\{-\frac{\left(y_{1}-\theta_{1}-\theta_{2}-\theta_{3}\right)^{2}}{2 \sigma^{2}}\right\} \exp \left\{-\frac{\left(y_{2}-\theta_{1}+\theta_{2}+\theta_{3}\right)^{2}}{2 \sigma^{2}}\right\} \\ \exp \left\{-\frac{\left(y_{3}+\theta_{1}-\theta_{2}+\theta_{3}\right)^{2}}{2 \sigma^{2}}\right\} \exp \left\{-\frac{\left(y_{4}+\theta_{1}+\theta_{2}-\theta_{3}\right)^{2}}{2 \sigma^{2}}\right\} \end{array}

只留下带有 (y1,y2,y3,y4)\left(y_{1}, y_{2}, y_{3}, y_{4}\right) 的部分, 整理得

fe12σ2[(y12+y22+y32+y42)+2θ1(y1y2+y3+y4)+2θ2(y1+y2y3+y4)+2θ3(y1+y2+y3y4)]f \propto e^{-\frac{1}{2 \sigma^{2}}\left[\left(y_{1}^{2}+y_{2}^{2}+y_{3}^{2}+y_{4}^{2}\right)+2 \theta_{1}\left(-y_{1}-y_{2}+y_{3}+y_{4}\right)+2 \theta_{2}\left(-y_{1}+y_{2}-y_{3}+y_{4}\right)+2 \theta_{3}\left(-y_{1}+y_{2}+y_{3}-y_{4}\right)\right]}

于是根据因子分解定理,
(θ1,θ2,θ3)\left(\theta_{1}, \theta_{2}, \theta_{3}\right) 各自的充分统计量分别是

(y1+y2y3y4,y1y2+y3y4,y1y2y3+y4)\left(y_{1}+y_{2}-y_{3}-y_{4}, y_{1}-y_{2}+y_{3}-y_{4}, y_{1}-y_{2}-y_{3}+y_{4}\right)

其中令 θ^1=y1+y2y3y44N(θ1,σ24)\hat{\theta}_{1}=\frac{y_{1}+y_{2}-y_{3}-y_{4}}{4} \sim N\left(\theta_{1}, \frac{\sigma^{2}}{4}\right), 而正态分布是完全族分布, 因此 该统计量是完全的. 于是它是基于充分完全统计量给出的 θ1\theta_{1} 的无偏估计,所以它 是 θ1\theta_{1} 的 UMVUE.
同理 θ^2=y1y2+y3y44\hat{\theta}_{2}=\frac{y_{1}-y_{2}+y_{3}-y_{4}}{4}θ2\theta_{2} 的 UMVUE. θ^3=y1y2y3+y44\hat{\theta}_{3}=\frac{y_{1}-y_{2}-y_{3}+y_{4}}{4}θ3\theta_{3} 的 UMVUE.

(2)
{y^1=θ^1+θ^2+θ^3y^2=θ^1θ^2θ^3y^3=θ^1+θ^2θ^3y^4=θ^1θ^2+θ^3\left\{\begin{array}{l}\hat{y}_{1}=\hat{\theta}_{1}+\hat{\theta}_{2}+\hat{\theta}_{3} \\ \hat{y}_{2}=\hat{\theta}_{1}-\hat{\theta}_{2}-\hat{\theta}_{3} \\ \hat{y}_{3}=-\hat{\theta}_{1}+\hat{\theta}_{2}-\hat{\theta}_{3} \\ \hat{y}_{4}=-\hat{\theta}_{1}-\hat{\theta}_{2}+\hat{\theta}_{3}\end{array}\right.σ^2=i=14(yiy^i)2\hat{\sigma}^{2}= \sum_{i=1}^{4}\left(y_{i}-\hat{y}_{i}\right)^{2}, 则 σ^2σ2χ2(1)\frac{\hat{\sigma}^{2}}{\sigma^{2}} \sim \chi^{2}(1). (严格证明可据Cochran定理, 或直接利用自由度来推断)
σ^2\hat{\sigma}^{2}θ1\theta_{1} 的辅助统计量, 由 Basu 定理可以知道 σ^2\hat{\sigma}^{2}θ^1\hat{\theta}_{1} 独立, 因此我们可以 构造枢轴量

T=2(θ^1θ1)σ^t(1)T=\frac{2\left(\hat{\theta}_{1}-\theta_{1}\right)}{\hat{\sigma}} \sim t(1)

故得到 θ1\theta_{1}1α1-\alpha 置信水平的最短置信区间

θ^1±σ^2t1α2(1)\hat{\theta}_{1} \pm \frac{\hat{\sigma}}{2} t_{1-\frac{\alpha}{2}}(1)