清华大学-432统计学-2020年

一、(30分) 有独立随机变量 XXYY, 其中 XU(0,1),YU(0,2),X \sim U(0,1), Y \sim U(0,2), 求:

(1)(15分) 求随机向量 (X,Y)(X, Y) 的分布函数;

(2)(15分) 求 Z=X+YZ=X+Y 的分布函数.

Solution:
(1) 根据题意,

F(x,y)={0,x<0 或 y<0,xy2,0x<1,0y<2x,0x<1,2y,y2,1x,0y<2,1,1x,2y.F(x, y)= \begin{cases}0, & x<0 \text { 或 } y<0, \\ \frac{x y}{2}, & 0 \leq x<1,0 \leq y<2 , \\ x, & 0 \leq x<1,2 \leq y, \\ \frac{y}{2}, & 1 \leq x, 0 \leq y<2, \\ 1, & 1 \leq x, 2 \leq y .\end{cases}

(2)当 0<z<1,P(Zz)=P(X+Yz)=0zP(Yzx)f(x)dx=0zzx2dx=z240<z<1, P(Z \leq z)=P(X+Y \leq z)=\int_{0}^{z} P(Y \leq z-x) f(x) d x=\int_{0}^{z} \frac{z-x}{2} d x=\frac{z^{2}}{4},

 当 1z<2,P(Zz)=P(X+Yz)=01P(Yzx)f(x)dx=01zx2dx=z214\text { 当 } 1 \leq z<2, P(Z \leq z)=P(X+Y \leq z)=\int_{0}^{1} P(Y \leq z-x) f(x) d x=\int_{0}^{1} \frac{z-x}{2} d x=\frac{z}{2}-\frac{1}{4} \text {, }

2z<32 \leq z<3 时, P(Zz)=P(X+Yz)=z21P(Yzx)f(x)dx=1(3z)24P(Z \leq z)=P(X+Y \leq z)=\int_{z-2}^{1} P(Y \leq z-x) f(x) d x=1-\frac{(3-z)^{2}}{4}, 故

FZ(z)={0,z<0z24,0z<1z214,1z<21(3z)24,2z<31,3zF_{Z}(z)= \begin{cases}0, & z<0 \\ \frac{z^{2}}{4}, & 0 \leq z<1 \\ \frac{z}{2}-\frac{1}{4}, & 1 \leq z<2 \\ 1-\frac{(3-z)^{2}}{4}, & 2 \leq z<3 \\ 1, & 3 \leq z\end{cases}

二、(30分) f(x)f(x) 是单调的有界连续函数, 且 f(0)=0,f(0)=0, 证明: X1,X2,X3,,XnX_{1}, X_{2}, X_{3}, \cdots, X_{n} 依概率收敛于 0 的充分必要条件是 limnEf(Xn)=0\lim _{n \rightarrow \infty} E f\left(\left|X_{n}\right|\right)=0.

Solution:

必要性: [法一] 由于 XnP0X_{n} \stackrel{P}{\rightarrow} 0, 故 XnP0\left|X_{n}\right| \stackrel{P}{\rightarrow} 0, 而 f(x)f(x) 是直线上的连续 函数, 故 f(Xn)Pf(0)=0f\left(\left|X_{n}\right|\right) \stackrel{P}{\rightarrow} f(0)=0, 同时由于 f(Xn)f\left(\left|X_{n}\right|\right) 有界, 根据有界收玫定理

limnE[f(Xn)]=E[limnf(Xn)]=0.\lim _{n \rightarrow \infty} E\left[f\left(\left|X_{n}\right|\right)\right]=E\left[\lim _{n \rightarrow \infty} f\left(\left|X_{n}\right|\right)\right]=0 .

[法二] 对任意 ε>0\varepsilon>0, 存在 δ>0\delta>0, 使得当 x<δ|x|<\delta 时, 有 f(x)<ε|f(x)|<\varepsilon, 故

E[f(Xn)]=E[f(Xn)I{Xnδ}]+E[f(Xn)I{Xn>δ}]ε+MP(Xn>δ)\begin{aligned} E\left[\left|f\left(\left|X_{n}\right|\right)\right|\right] &=E\left[\left|f\left(\left|X_{n}\right|\right)\right| I_{\left\{\left|X_{n}\right| \leq \delta\right\}}\right]+E\left[\left|f\left(\left|X_{n}\right|\right)\right| I_{\left\{\left|X_{n}\right|>\delta\right\}}\right] \\ & \leq \varepsilon+M P\left(\left|X_{n}\right|>\delta\right) \end{aligned}

其中 MMf(x)|f(x)| 的一个上界, 两侧同时取极限, 有 limnE[f(Xn)]ε\lim _{n \rightarrow \infty} E\left[\left|f\left(\left|X_{n}\right|\right)\right|\right] \leq \varepsilon, 而 ε\varepsilon 是任取的, 因此 limnE[f(Xn)]=0\lim _{n \rightarrow \infty} E\left[\left|f\left(\left|X_{n}\right|\right)\right|\right]=0, 故 limnE[f(Xn)]=0\lim _{n \rightarrow \infty} E\left[f\left(\left|X_{n}\right|\right)\right]=0.

充分性: 单调连续的函数存在反函数, 且反函数也单调连续, 若有 f(Xn)Pf(0)=0f\left(\left|X_{n}\right|\right) \stackrel{P}{\rightarrow} f(0)=0, 也有 f1(x)f^{-1}(x) 是直线上的连续函数, 故 XnP0\left|X_{n}\right| \stackrel{P}{\rightarrow} 0, 也有 XnP0X_{n} \stackrel{P}{\rightarrow} 0. 因 此必要性只需证明 f(Xn)Pf(0)=0f\left(\left|X_{n}\right|\right) \stackrel{P}{\rightarrow} f(0)=0. 而根据马尔可夫不等式

P{f(Xn)>ε}Ef(Xn)ε0,P\left\{\left|f\left(\left|X_{n}\right|\right)\right|>\varepsilon\right\} \leq \frac{E\left|f\left(\left|X_{n}\right|\right)\right|}{\varepsilon} \rightarrow 0,

因此 f(Xn)p0f\left(\left|X_{n}\right|\right) \stackrel{p}{\rightarrow} 0, 故 Xnp0X_{n} \stackrel{p}{\rightarrow} 0.

三、(50分)设有独立的随机变量 X1,X2,X3,,Xn,X_{1}, X_{2}, X_{3}, \cdots \cdot, X_{n}, 其中 XiX_{i} 的密度函数为 fi(x)=eiθxI(xiθ)f_{i}(x)=e^{i \theta-x} I(x \geq i \theta).

(1)(10分) 证明 Sn=min{Xi/i}S_{n}=\min \left\{X_{i} / i\right\}θ\theta 的充分统计量;

(2)(10分) 基于 SnS_{n} 构建 θ\theta 的形如 [Sn+a,Sn+b]\left[S_{n}+a , S_{n}+b\right] 最短置信区间;

(3)(10分) 基于 SnS_{n} 构建 θ\theta 的无偏估计 GnG_{n};

(4)(10分) 证明 Tn=1ni=1nXi1iT_{n}=\frac{1}{n} \sum_{i=1}^{n} \frac{X_{i}-1}{i}θ\theta 的无偏估计;

(5)(10分) 试计算 limnVar(Gn)Var(Tn),\lim _{n \rightarrow \infty} \frac{\operatorname{Var}\left(G_{n}\right)}{\operatorname{Var}\left(T_{n}\right)}, 并根据此说明二者的有效性.

Solution:
(1) 似然函数

L=en(n+1)2θi=1nxiI(min{xii}θ)=ei=1nxien(n+1)2θI(min{xii}θ),L=e^{\frac{n(n+1)}{2} \theta-\sum_{i=1}^{n} x_{i}} I\left(\min \left\{\frac{x_{i}}{i}\right\} \geq \theta\right)=e^{-\sum_{i=1}^{n} x_{i}} \cdot e^{\frac{n(n+1)}{2} \theta} I\left(\min \left\{\frac{x_{i}}{i}\right\} \geq \theta\right),

根据因子分解定理, Sn=min{Xii}S_{n}=\min \left\{\frac{X_{i}}{i}\right\} 是充分统计量.

(2) 令 Yi=XiiθY_{i}=\frac{X_{i}}{i}-\theta, 现计算 YiY_{i} 的分布, fYi(y)=fi(i(y+θ))d(i(y+θ))dy=ieiyExp(i)f_{Y_{i}}(y)=f_{i}(i(y+\theta))\left|\frac{d(i(y+\theta))}{d y}\right|=i e^{-i y} \sim \operatorname{Exp}(i),
U=Y(1)U=Y_{(1)}, 易知 fU(u)=i=1n[fYi(u)jiP{Yiu}]=n(n+1)2en(n+1)2uExp(n(n+1)2)f_{U}(u)=\sum_{i=1}^{n}\left[f_{Y_{i}}(u) \prod_{j \neq i} P\left\{Y_{i} \geq u\right\}\right]=\frac{n(n+1)}{2} e^{-\frac{n(n+1)}{2} u} \sim \operatorname{Exp}\left(\frac{n(n+1)}{2}\right), 由
于指数分布的密度函数是单调递减的, 因此在满足 P{cUd}=1αP\{c \leq U \leq d\}=1-\alpha 的条件下
想使得 dcd-c 最小, 就只能选 c=0c=0, 而 dd 满足 α=P{U>d}=en(n+1)2dd=2lnαn(n+1)\alpha=P\{U>d\}=e^{-\frac{n(n+1)}{2} d} \Rightarrow d=\frac{-2 \ln \alpha}{n(n+1)}.
又知道 U=Y(1)=SnθU=Y_{(1)}=S_{n}-\theta, 故 θ\theta 的最短置信区间是 [Sn+2lnαn(n+1),Sn]\left[S_{n}+\frac{2 \ln \alpha}{n(n+1)}, S_{n}\right].

(3) U=Y(1)=SnθExp(n(n+1)2)U=Y_{(1)}=S_{n}-\theta \sim \operatorname{Exp}\left(\frac{n(n+1)}{2}\right), 故 E(Snθ)=2n(n+1)E(Sn2n(n+1))=θE\left(S_{n}-\theta\right)=\frac{2}{n(n+1)} \Rightarrow E\left(S_{n}-\frac{2}{n(n+1)}\right)=\theta, 故 Gn=Sn2n(n+1)G_{n}=S_{n}-\frac{2}{n(n+1)}θ\theta 的无偏估计.

(4) ET Tn=1ni=1nE[Xiiθ]+θ1ni=1n1iT_{n}=\frac{1}{n} \sum_{i=1}^{n} E\left[\frac{X_{i}}{i}-\theta\right]+\theta-\frac{1}{n} \sum_{i=1}^{n} \frac{1}{i}, 由(2)知 Yi=XiiθExp(i)Y_{i}=\frac{X_{i}}{i}-\theta \sim Exp(i), 故 ETn=1ni=1nE[Xiiθ]+θ1ni=1n1i=θE T_{n}=\frac{1}{n} \sum_{i=1}^{n} E\left[\frac{X_{i}}{i}-\theta\right]+\theta-\frac{1}{n} \sum_{i=1}^{n} \frac{1}{i}=\theta, 因此 TnT_{n}θ\theta 的无偏估计.

(5) Var(Gn)=Var(Sn)=Var(Sn+θ)=Var(Exp(n(n+1)2))=4n2(n+1)2\operatorname{Var}\left(G_{n}\right)=\operatorname{Var}\left(S_{n}\right)=\operatorname{Var}\left(S_{n}+\theta\right)=\operatorname{Var}\left(\operatorname{Exp}\left(\frac{n(n+1)}{2}\right)\right)=\frac{4}{n^{2}(n+1)^{2}},

Var(Tn)=1n2i=1nVar(Xii1i)=1n2i=1nVar(Xii)=1n2i=1n1i2,\operatorname{Var}\left(T_{n}\right)=\frac{1}{n^{2}} \sum_{i=1}^{n} \operatorname{Var}\left(\frac{X_{i}}{i}-\frac{1}{i}\right)=\frac{1}{n^{2}} \sum_{i=1}^{n} \operatorname{Var}\left(\frac{X_{i}}{i}\right)=\frac{1}{n^{2}} \sum_{i=1}^{n} \frac{1}{i^{2}},

limnVar(Gn)Var(Tn)=limn4(n+1)21i=1n1i2=limn4(n+1)26π20\lim _{n \rightarrow \infty} \frac{\operatorname{Var}\left(G_{n}\right)}{\operatorname{Var}\left(T_{n}\right)}=\lim _{n \rightarrow \infty} \frac{4}{(n+1)^{2}} \frac{1}{\sum_{i=1}^{n} \frac{1}{i^{2}}}=\lim _{n \rightarrow \infty} \frac{4}{(n+1)^{2}} \cdot \frac{6}{\pi^{2}} \rightarrow 0, 因此 GnG_{n} 更有效.

四、(40分) 有简单随机样本 X1,X2,X3,,XnX_{1}, X_{2}, X_{3}, \cdots, X_{n}Y1,Y2,Y3,,YmY_{1}, Y_{2}, Y_{3}, \cdots, Y_{m}, 其中 X1X_{1} \sim Beta(μ,1),Y1(\mu, 1), Y_{1} \sim Beta(θ,1)(\theta, 1) .

(1)(10分) 用似然比检验法给出 H0:μ=θH_{0}: \mu=\theta vs H1:μθH_{1}: \mu \neq \theta 的检验法;

(2)(10分) 证明(1)中的检验也可由统计量

S=i=1nlnXii=1nlnXi+j=1mlnYjS=\frac{\sum_{i=1}^{n} \ln X_{i}}{\sum_{i=1}^{n} \ln X_{i}+\sum_{j=1}^{m} \ln Y_{j}}

等同给出;

(3)(10分) 当 H0H_{0} 成立时, SS 的分布;

(4)(10分) 基于(3)给出(1)中真实水平为 0.95 的检验.

Solution:
首先我们要将Beta 分布做出转换, 令

Ui=lnXiExp(μ),i=1,2,,n,Vj=lnYjExp(θ),j=1,2,,m.U_{i}=-\ln X_{i} \sim \operatorname{Exp}(\mu), i=1,2, \ldots, n, V_{j}=-\ln Y_{j} \sim \operatorname{Exp}(\theta), j=1,2, \ldots, m .

因此我们知道 μ,θ\mu, \theta 的 MLE 分别是 1u,1=\frac{1}{u}, \frac{1}{=}, 而当 μ=θ\mu=\theta 时, 将两者看作来自同一个总体 的样本, 有 μ\mu 的 MLE 是 n+mnuˉ+mvˉ\frac{n+m}{n \bar{u}+m \bar{v}}.
我们写出似然函数: L(μ,θ)=μnθme(nμuˉ+mθvˉ)L(\mu, \theta)=\mu^{n} \theta^{m} e^{-(n \mu \bar{u}+m \theta \bar{v})},

 令 Λ=supL(μ,θ)supμ=θL(μ,θ)=L(uˉ1,vˉ1)L(n+mnμˉ+mvˉ,n+mnμˉ+mvˉ)=uˉnvˉm(nμˉ+mvˉn+m)(m+n)\text { 令 } \Lambda =\frac{\text{sup}L\left( \mu ,\theta \right)}{\sup_{\mu =\theta}L\left( \mu ,\theta \right)}=\frac{L\left( \bar{u}^{-1},\bar{v}^{-1} \right)}{L\left( \frac{n+m}{n\bar{\mu}+m\bar{v}},\frac{n+m}{n\bar{\mu}+m\bar{v}} \right)}=\frac{\bar{u}^{-n}\bar{v}^{-m}}{\left( \frac{n\bar{\mu}+m\bar{v}}{n+m} \right) ^{-(m+n)}} \text {, }

因此 W={Λ>C}={uˉnvˉm(nuˉ+mvˉn+m)(n+m)>C}={(nuˉ)n(mvˉ)m(nuˉ+mvˉ)m+n<C1}W=\{\Lambda >C\}=\left\{ \frac{\bar{u}^{-n}\bar{v}^{-m}}{\left( \frac{n\bar{u}+m\bar{v}}{n+m} \right) ^{-\left( n+m \right)}}>C \right\} =\left\{ \frac{\left( n\bar{u} \right) ^n\left( m\bar{v} \right) ^m}{\left( n\bar{u}+m\bar{v} \right) ^{m+n}}<C_1 \right\},
f(x)=xn(1x)mf(x)=x^{n}(1-x)^{m}, 其中 0<x<10<x<1, 我们讨论 ff 的单调性:

f(x)=xn1(1x)m1[(m+n)xn]f^{\prime}(x)=-x^{n-1}(1-x)^{m-1}[(m+n) x-n]

可以很明显的看出 f(x)f(x)nm+n\frac{n}{m+n} 左侧单调递增, 在右侧单调递减, 故对于 aa, 存在

b,d(b<nm+n<d) 使得 {f(x)<a}={x<b}{x>d}.b, d\left(b<\frac{n}{m+n}<d\right) \text { 使得 }\{f(x)<a\}=\{x<b\}\cup \{x>d\} .

因此, 拒绝域可以写为:

W={Λ>C}={f(nuˉnuˉ+mvˉ)<C1}={nuˉnuˉ+mvˉ<λ1}{nuˉnuˉ+mvˉ>λ2}W=\{\Lambda>C\}=\left\{f\left(\frac{n \bar{u}}{n \bar{u}+m \bar{v}}\right)<C_{1}\right\}=\left\{ \frac{n\bar{u}}{n\bar{u}+m\bar{v}}<\lambda _1 \right\} \cup \left\{ \frac{n\bar{u}}{n\bar{u}+m\bar{v}}>\lambda _2 \right\}

现在我们知道 LRT 统计量是 nuˉnuˉ+mvˉ=i=1nlnXii=1nlnXi+j=1mlnYj\frac{n \bar{u}}{n \bar{u}+m \bar{v}}=\frac{\sum_{i=1}^{n} \ln X_{i}}{\sum_{i=1}^{n} \ln X_{i}+\sum_{j=1}^{m} \ln Y_{j}}, 第(2)问得证.

根据伽马分布的可加性, 当 H0H_{0} 真时, 2μi=1nlnXiχ2(2n),2μi=1mlnYiχ2(2m)-2 \mu \sum_{i=1}^{n} \ln X_{i} \sim \chi^{2}(2 n),-2 \mu \sum_{i=1}^{m} \ln Y_{i} \sim \chi^{2}(2 m), 因此 S=2μi=1nlnXi2μi=1nlnXi2μj=1mlnYiBeta(n,m)S=\frac{-2 \mu \sum_{i=1}^{n} \ln X_{i}}{-2 \mu \sum_{i=1}^{n} \ln X_{i}-2 \mu \sum_{j=1}^{m} \ln Y_{i}} \sim \operatorname{Beta}(n, m). 第(3)问得解.

重新考虑拒绝域 W={S<λ1}{S>λ2}W=\left\{ S<\lambda _1 \right\} \cup \left\{ S>\lambda _2 \right\}, 根据上述的论证, 除了 λ1<nm+n<λ2\lambda_{1}<\frac{n}{m+n}<\lambda_{2}, λ1,λ2\lambda_{1}, \lambda_{2} 应满足 P({S<λ1}{S>λ2}H0)=αP\left( \left\{ S<\lambda _1 \right\} \cup \left\{ S>\lambda _2 \right\} \mid H_0 \right) =\alpha 以及 f(λ1)=f(λ2)f\left(\lambda_{1}\right)=f\left(\lambda_{2}\right), 其中 f(x)=xn(1x)mf(x)=x^{n}(1-x)^{m}.
我们发现原假设成立时 SBeta(n,m)S \sim \operatorname{Beta}(n, m), 而 Γ(m+n+2)Γ(m+1)Γ(n+1)f(x)\frac{\Gamma(m+n+2)}{\Gamma(m+1) \Gamma(n+1)} f(x) 恰好是 Beta(n+1,m+1)\operatorname{Beta}(n+1, m+1) 的概率密度函数. 我们记 Bem,n(x)B e_{m, n}(x)Beta(n,m)\operatorname{Beta}(n, m) 的密度函数, 则该 问题的水平为 α\alpha 的拒绝域是 W={S<λ1}{S>λ2}W=\left\{ S<\lambda _1 \right\} \cup \left\{ S>\lambda _2 \right\}, 其中 λ1,λ2\lambda_{1}, \lambda_{2} 满足

{λ1λ2Ben,m(x)dx=1α,Ben+1,m+1(λ1)=Ben+1,m+1(λ2).\left\{\begin{array}{l} \int_{\lambda_{1}}^{\lambda_{2}} B e_{n, m}(x) d x=1-\alpha, \\ B e_{n+1, m+1}\left(\lambda_{1}\right)=B e_{n+1, m+1}\left(\lambda_{2}\right) . \end{array}\right.

第(1)问得解.
当给定 α=0.05\alpha=0.05, 拒绝域为 W={S<λ1}{S>λ2}W=\left\{ S<\lambda _1 \right\} \cup \left\{ S>\lambda _2 \right\}, 其中 λ1,λ2\lambda_{1}, \lambda_{2} 满足

{λ1λ2Ben,m(x)dx=0.95,Ben+1,m+1(λ1)=Ben+1,m+1(λ2).\left\{\begin{array}{l} \int_{\lambda_{1}}^{\lambda_{2}} B e_{n, m}(x) d x=0.95, \\ B e_{n+1, m+1}\left(\lambda_{1}\right)=B e_{n+1, m+1}\left(\lambda_{2}\right) . \end{array}\right.

第(4)问得解.