复旦大学861-861概率论与数理统计-2021年

一、 (20 分) 随机变量 X,YX, Y 相互独立, 均服从参数为 pp 的几何分布, 记 Z=Z= max{X,Y}\max \{X, Y\}, 试求

(1) 随机向量 (Z,X)(Z, X) 的联合分布;

(2) XX 关于 ZZ 的条件分布.

Solution: (1) 因为 X,YX, Y 服从参数为 pp 的几何分布, 有

P(X=k)=P(Y=k)=p(1p)k1,k=1,2,3,,P(X=k)=P(Y=k)=p(1-p)^{k-1}, k=1,2,3, \cdots,

考虑 (Z,X)(Z, X) 的联合分布, 当 i>ji>j 时, 有

P(Z=i,X=j)=P(Y=i,X=j)=p2(1p)i+j2,P(Z=i, X=j)=P(Y=i, X=j)=p^{2}(1-p)^{i+j-2},

i=ji=j 时, 有

P(Z=i,X=j)=k=1jP(Y=k,X=j)=p(1p)j1k=1jp(1p)k1=p(1p)j1[1(1p)j]\begin{aligned} P(Z=i, X=j) &=\sum_{k=1}^{j} P(Y=k, X=j) \\ &=p(1-p)^{j-1} \sum_{k=1}^{j} p(1-p)^{k-1} \\ &=p(1-p)^{j-1}\left[1-(1-p)^{j}\right] \end{aligned}

i<ji<j 时, 显然 P(Z=i,X=j)=0P(Z=i, X=j)=0.
综上所述, 有 (Z,X)(Z, X) 的联合分布是

P(Z=i,X=j)={p2(1p)i+j2,i>jp(1p)j1[1(1p)j],i=j0,i<jP(Z=i, X=j)= \begin{cases}p^{2}(1-p)^{i+j-2}, & i>j \\ p(1-p)^{j-1}\left[1-(1-p)^{j}\right], & i=j \\ 0, & i<j\end{cases}

(2)先求 ZZ 的边际分布, 有

P(Z=i)=j=1P(Z=i,X=j)=j=1i1P(Z=i,X=j)+P(Z=i,X=i)=p(1p)i1[1(1p)i1]+p(1p)i1[1(1p)i],\begin{aligned} P(Z=i) &=\sum_{j=1}^{\infty} P(Z=i, X=j) \\ &=\sum_{j=1}^{i-1} P(Z=i, X=j)+P(Z=i, X=i) \\ &=p(1-p)^{i-1}\left[1-(1-p)^{i-1}\right]+p(1-p)^{i-1}\left[1-(1-p)^{i}\right], \end{aligned}

因此, XX 关于 ZZ 的条件分布是

P(X=jZ=i)={p(1p)j1[1(1p)i1]+[1(1p)i],i>j,(1p)[1(1p)i][1(1p)i1]+[1(1p)i],i=j,0,i<j.P(X=j \mid Z=i)= \begin{cases}\frac{p(1-p)^{j-1}}{\left[1-(1-p)^{i-1}\right]+\left[1-(1-p)^{i}\right]}, & i>j, \\ \frac{(1-p)\left[1-(1-p)^{i}\right]}{\left[1-(1-p)^{i-1}\right]+\left[1-(1-p)^{i}\right]}, & i=j, \\ 0, & i<j .\end{cases}

二、 (20 分) 将 kk 个不同的球随机放人 nn 个盒子中 (kn)(k \geq n), 用 XX 表示空盒的个 数, 试求 EXE XDXD X.

Solution: 令

Xi={1, 第 i 个盒子为空盒 0, 第 i 个盒子不为空盒 X_{i}= \begin{cases}1, & \text { 第 } i \text { 个盒子为空盒 } \\ 0, & \text { 第 } i \text { 个盒子不为空盒 }\end{cases}

则有 X1,,XnX_{1}, \cdots, X_{n} 同服从 B(1,(11n)k)B\left(1,\left(1-\frac{1}{n}\right)^{k}\right), 但不独立. 设 Y=k=1nXkY=\sum_{k=1}^{n} X_{k} 是总的空盒数, 有

EY=nEX1=n(11n)k=(n1)knk1. 至于方差, 由于 E(Y2)=E(i=1nj=1nXiXj)=nE(X12)+n(n1)E(X1X2)\begin{aligned} E Y=n E X_{1}=n\left(1-\frac{1}{n}\right)^{k}=\frac{(n-1)^{k}}{n^{k-1}} \text {. 至于方差, 由于 } \\ E\left(Y^{2}\right)=E\left(\sum_{i=1}^{n} \sum_{j=1}^{n} X_{i} X_{j}\right)=n E\left(X_{1}^{2}\right)+n(n-1) E\left(X_{1} X_{2}\right) \end{aligned}

其中 E(X12)=(n1)knkE\left(X_{1}^{2}\right)=\frac{(n-1)^{k}}{n^{k}}, 而

E(X1X2)=P(X1=1,X2=1)=(n2n)kE\left(X_{1} X_{2}\right)=P\left(X_{1}=1, X_{2}=1\right)=\left(\frac{n-2}{n}\right)^{k} \text {, }

故有 E(Y2)=(n1)knk1+(n1)(n2)knk1E\left(Y^{2}\right)=\frac{(n-1)^{k}}{n^{k-1}}+\frac{(n-1)(n-2)^{k}}{n^{k-1}}, 因此有

D(Y)=E(Y2)(EY)2=(n1)knk1+(n1)(n2)knk1(n1)2kn2k2.\begin{aligned} D(Y) &=E\left(Y^{2}\right)-(E Y)^{2} \\ &=\frac{(n-1)^{k}}{n^{k-1}}+\frac{(n-1)(n-2)^{k}}{n^{k-1}}-\frac{(n-1)^{2 k}}{n^{2 k-2}} . \end{aligned}

三、 (20 分) 设 {Xi}\left\{X_{i}\right\} 是来自标准正态分布的随机样本, 尝试解决以下问题

(1) 试求 Sn=i=1nXiS_{n}=\sum_{i=1}^{n} X_{i} 的分布;

(2) 试求 limnP(1nSn1n)\lim _{n \rightarrow \infty} P\left(\left|\frac{1}{n} S_{n}\right| \leq \frac{1}{\sqrt{n}}\right).

Solution: (1)由正态分布的再生性(可加性), 因为 XiN(0,1)X_{i} \sim N(0,1), 所以

Sn=i=1nXiN(0,n)S_{n}=\sum_{i=1}^{n} X_{i} \sim N(0, n)

(2)因为 SnnN(0,1n)\frac{S_{n}}{n} \leq N\left(0, \frac{1}{n}\right), 因此有

limnP(1nSn1n)=limnP(n1nSn1)=Φ(1)Φ(1)\lim _{n \rightarrow \infty} P\left(\left|\frac{1}{n} S_{n}\right| \leq \frac{1}{\sqrt{n}}\right)=\lim _{n \rightarrow \infty} P\left(\sqrt{n}\left|\frac{1}{n} S_{n}\right| \leq 1\right)=\Phi(1)-\Phi(-1)

四、(40 分) 设 {Xi}\left\{X_{i}\right\} 是来自均匀分布 U(0,θ)U(0, \theta) 的简单随机样本, 解决以下问题

(1) 求 θ\theta 的矩估计及其均方误差;

(2) 求 θ\theta 的极大似然估计及其均方误差;

(3) 求 θ\theta 的充分完备统计量;

(4) 求 θ\theta 的一致最小方差无偏估计;

(5) 给出一个 1θ\frac{1}{\theta} 的无偏估计;

Solution: (1)由于 E(X)=0θxf(x)dx=θ2E(X)=\int_{0}^{\theta} x f(x) d x=\frac{\theta}{2}, 由替换原理, 知 θ^=2xˉ\hat{\theta}=2 \bar{x}. 根据

Var(2xˉ)=4nVar(X1)=θ23n\operatorname{Var}(2 \bar{x})=\frac{4}{n} \operatorname{Var}\left(X_{1}\right)=\frac{\theta^{2}}{3 n}

以及 θ^\hat{\theta} 的无偏性, 知 mse(θ^)=θ23n\operatorname{mse}(\hat{\theta})=\frac{\theta^{2}}{3 n}.
(2)样本对应的似然函数是

L(θ)=1θnI{x(n)<θ},L(\theta)=\frac{1}{\theta^{n}} I_{\left\{x_{(n)}<\theta\right\}},

要使似然函数尽可能大, 则 θ\theta 要在定义域内尽可能小, 所以 θ\theta 的极大似然估计是

θ^L=X(n),\hat{\theta}_{L}=X_{(n)},

由于 X(n)θBe(n,1)\frac{X_{(n)}}{\theta} \sim \operatorname{Be}(n, 1), 很快得到

E(X(n))=nn+1θVar(X(n))=nθ2(n+2)(n+1)2\begin{gathered} E\left(X_{(n)}\right)=\frac{n}{n+1} \theta \\ \operatorname{Var}\left(X_{(n)}\right)=\frac{n \theta^{2}}{(n+2)(n+1)^{2}} \end{gathered}

因此得到

mse(θ^L)=Var(X(n))+(E(X(n))θ)2=2θ2(n+1)(n+2)\operatorname{mse}\left(\hat{\theta}_{L}\right)=\operatorname{Var}\left(X_{(n)}\right)+\left(E\left(X_{(n)}\right)-\theta\right)^{2}=\frac{2 \theta^{2}}{(n+1)(n+2)}

(3)由因子分解定理可知 T=X(n)T=X_{(n)} 为充分统计量, 下证其完备.
设函数 g()g(\cdot) 满足对 θ>0,Eθ(g(T))=0\forall \theta>0, E_{\theta}(g(T))=0, 即有

0θg(t)ntn1θndt=0\int_{0}^{\theta} g(t) \frac{n t^{n-1}}{\theta^{n}} d t=0

等价于 0θtn1g(t)dt=0\int_{0}^{\theta} t^{n-1} g(t) d t=0 对任意 θ>0\theta>0 成立, 等式两边对 θ\theta 求导有 θn1g(θ)=0\theta^{n-1} g(\theta)=0 对任意 θ>0\theta>0 成立, 故可以得到 g(θ)0,θ>0g(\theta) \equiv 0, \forall \theta>0, 所以 T=X(n)T=X_{(n)} 是完备统计量.
(4)由于 E(X(n))=nn+1θE\left(X_{(n)}\right)=\frac{n}{n+1} \theta, 令 W=n+1nX(n)W=\frac{n+1}{n} X_{(n)}E(W)=θE(W)=\theta, 而 T=X(n)T=X_{(n)}θ\theta 的充分 完备统计量, 根据 Lehmann-Scheffe 定理, W=n+1nX(n)W=\frac{n+1}{n} X_{(n)} 是 UMVUE.
(5)可以发现, E(1X(n))=0θ1xnxn1θndx=nθn0θxn2dx=n(n1)θE\left(\frac{1}{X_{(n)}}\right)=\int_{0}^{\theta} \frac{1}{x} \cdot \frac{n x^{n-1}}{\theta^{n}} d x=\frac{n}{\theta^{n}} \int_{0}^{\theta} x^{n-2} d x=\frac{n}{(n-1) \theta}, 因此有 1θ\frac{1}{\theta} 的无偏估计是 n1nX(n)\frac{n-1}{n X_{(n)}}.

五、 (30 分) X1,X2,,XnX_{1}, X_{2}, \cdots, X_{n} 是来自泊松分布 Poisson(θ)\operatorname{Poisson}(\theta) 的随机样本, 解决以下问题

(1) 求 θ\theta 的充分统计量;

(2) 基于该统计量求 θ\theta1α1-\alpha 置信区间;

(3) 这个置信区间具有哪些优良性?

Solution: (1)样本对应的似然函数是 L(θ)=θi=1nxix1!x2!xn!enθL(\theta)=\frac{\theta^{\sum_{i=1}^{n} x_{i}}}{x_{1} ! x_{2} ! \cdots x_{n} !} e^{-n \theta}, 由因子分解定理知 T=i=1nXiP(nθ)T=\sum_{i=1}^{n} X_{i} \sim \mathcal{P}(n \theta)θ\theta 的充分统计量.
(2) 考虑反转拒绝域的方法, 讨论假设检验问题

H0:θ=θ0 vs H1:θθ0H_{0}: \theta=\theta_{0} \quad \text { vs } \quad H_{1}: \theta \neq \theta_{0}

其优良等尾拒绝域应是 {Ta}{Tb}\{T \leq a\} \cup\{T \leq b\}

supθ<θ0Pθ(Ta)=supθ>θ0Pθ(Tb)=α2,\sup _{\theta<\theta_{0}} P_{\theta}(T \leq a)=\sup _{\theta>\theta_{0}} P_{\theta}(T \geq b)=\frac{\alpha}{2},

而泊松分布是指数族, 上述上确界实际表明

Pθ0(Ta)=Pθ0(Tb)=α2,P_{\theta_{0}}(T \leq a)=P_{\theta_{0}}(T \geq b)=\frac{\alpha}{2},

nn 较大时, 由 N-P 引理, 这是近似 UMPU 检验. 考虑泊松-伽马恒等式

k=m(nθ)kk!enθ=0nθmΓ(m)xm1eθxdxk=0m1(nθ)kk!enθ=n+θmΓ(m)xm1eθxdx\begin{aligned} &\sum_{k=m}^{\infty} \frac{(n \theta)^{k}}{k !} e^{-n \theta}=\int_{0}^{n} \frac{\theta^{m}}{\Gamma(m)} x^{m-1} e^{-\theta x} d x \\ &\sum_{k=0}^{m-1} \frac{(n \theta)^{k}}{k !} e^{-n \theta}=\int_{n}^{+\infty} \frac{\theta^{m}}{\Gamma(m)} x^{m-1} e^{-\theta x} d x \end{aligned}

当样本值 t0=k=1nxkt_{0}=\sum_{k=1}^{n} x_{k} 给定, 我们会在 Pθ0(Tt0)<α2P_{\theta_{0}}\left(T \leq t_{0}\right)<\frac{\alpha}{2} 或者 Pθ0(Tt0)<α2P_{\theta_{0}}\left(T \geq t_{0}\right)<\frac{\alpha}{2} 时拒绝原假 设, 反之, Pθ0(Tt0)α2P_{\theta_{0}}\left(T \leq t_{0}\right) \geq \frac{\alpha}{2}Pθ0(Tt0)α2P_{\theta_{0}}\left(T \geq t_{0}\right) \geq \frac{\alpha}{2} 时接受原假设, 根据泊松-伽马恒等式, 有

Pθ0(Tt0)=n+Gt0+1,θ0(x)dx=2θ0n+χ2(t0+1)2(x)dxα2P_{\theta_{0}}\left(T \leq t_{0}\right)=\int_{n}^{+\infty} G_{t_{0}+1, \theta_{0}}(x) d x=\int_{2 \theta_{0} n}^{+\infty} \chi_{2\left(t_{0}+1\right)}^{2}(x) d x \geq \frac{\alpha}{2}

等价于 θ0χ1α22(2(t0+1))2n\theta_{0} \leq \frac{\chi_{1-\frac{\alpha}{2}}^{2}\left(2\left(t_{0}+1\right)\right)}{2 n}, 同理有

Pθ0(Tt0)=0nGt0,θ0(x)dx=02θ0nχ2t02(x)dxα2P_{\theta_{0}}\left(T \geq t_{0}\right)=\int_{0}^{n} G_{t_{0}, \theta_{0}}(x) d x=\int_{0}^{2 \theta_{0} n} \chi_{2 t_{0}}^{2}(x) d x \geq \frac{\alpha}{2}

等价于 θ0χα22(2t0)2n\theta_{0} \leq \frac{\chi_{\frac{\alpha}{2}}^{2}\left(2 t_{0}\right)}{2 n}, 这说明接受域可以写成

Wˉ={T(X):χα22(2T)2n<θ0<χ1α22(2(T+1))2n},\bar{W}=\left\{T(X): \frac{\chi_{\frac{\alpha}{2}}^{2}(2 T)}{2 n}<\theta_{0}<\frac{\chi_{1-\frac{\alpha}{2}}^{2}(2(T+1))}{2 n}\right\},

反转接受域得到置信区间为

θ[χα22(2T)2n,χ1α22(2(T+1))2n].\theta \in\left[\frac{\chi_{\frac{\alpha}{2}}^{2}(2 T)}{2 n}, \frac{\chi_{1-\frac{\alpha}{2}}^{2}(2(T+1))}{2 n}\right] .

值得注意的是样本的值是位于自由度上的.
(3)由于该置信区间由渐近 UMPU 拒绝域反转得到, 故其是渐近无偏区间, 且比起正态近似 好在它的水平是精确1 1α1-\alpha 的.

六、 (20 分) 设 {Xi}\left\{X_{i}\right\} 是来自正态分布 N(μ,σ2)N\left(\mu, \sigma^{2}\right) 的简单随机样本, 考虑假设检验问 题:

H0:μμ0 vs H1:μ>μ0H_{0}: \mu \leq \mu_{0} \text { vs } H_{1}: \mu>\mu_{0}

(1) 假设 σ2=σ02\sigma^{2}=\sigma_{0}^{2} 已知, 该假设检验问题是否存在一致最大功效拒绝域? 如果有请在检验水平 α\alpha 下给出它并说明理由, 如果无请说明理由并给出一个检验水平 α\alpha 的拒绝域;

(2) 假设 σ2\sigma^{2} 未知, 那么该假设检验问题是否存在一致最大功效拒绝域? 如果有请在检验水平 α\alpha 下给出它并说明理由, 如果无请说明理由并给出一个检验水平 α\alpha 的拒绝域.

Solution: (1)存在, 当 σ2=σ02\sigma^{2}=\sigma_{0}^{2} 已知时, 该样本是单参指数族, 由 N-P 引理, 可以利用充分 统计量构造 UMPT, 即其拒绝域是 W={k=1nXi>C}W=\left\{\sum_{k=1}^{n} X_{i}>C\right\}, 其中 CC 使得该拒绝域水平恰为 α\alpha, 因此必须满足

α=Pμ0(k=1nXk>C)=Pμ0(Xˉμ0σ/n>C1),\alpha=P_{\mu_{0}}\left(\sum_{k=1}^{n} X_{k}>C\right)=P_{\mu_{0}}\left(\frac{\bar{X}-\mu_{0}}{\sigma / \sqrt{n}}>C_{1}\right),

因此 C1=z1α2C_{1}=z_{1-\frac{\alpha}{2}}, 故 UMP 拒绝域是

W={Xˉμ0σ/n>z1α}.W=\left\{\frac{\bar{X}-\mu_{0}}{\sigma / \sqrt{n}}>z_{1-\alpha}\right\} .

(2)不存在 UMPT, 因为当 σ2\sigma^{2} 末知时, 该样本是双参指数族, 无法构造 UMPT,但存在 UMPUT. 可以通过检验统计量 T=Xˉμ0s/nμ0(n1)T=\frac{\bar{X}-\mu_{0}}{s / \sqrt{n}} \sim \sim \mu_{0} \sim(n-1) 来构造一个水平为 α\alpha 的拒绝域, 即 W={T>t1α(n1)}W=\left\{T>t_{1-\alpha}(n-1)\right\}. 并且可以证明它恰是 UMPUT.