清华大学-432统计学-2018年

一、(20分) 设有独立的随机变量序列 {Xn},\left\{X_{n}\right\}, 其中 P(Xn=1)=1n,P(Xn=0)=11nP\left(X_{n}=1\right)=\frac{1}{n}, P\left(X_{n}=0\right)=1-\frac{1}{n},

(1)(6分) 当 n+n \rightarrow+\infty,EXn, E X_{n}DXnD X_{n} 是否趋于0,0, 请说明理由;

(2)(7分) 当 n+n \rightarrow+\infty 时, 是否有 XnP0,X_{n} \stackrel{P}{\rightarrow} 0, 请说明理由;

(3)(7分) 当 n+n \rightarrow+\infty 时, 是否有 Xna.s.0,X_{n} \stackrel{\text {a.s.}}{\rightarrow} 0, 请说明理由.

Solution:
(1) EXn=1n,EXn2=1n,Var(Xn)=1n1n2=n1n2E X_{n}=\frac{1}{n}, E X_{n}^{2}=\frac{1}{n}, \operatorname{Var}\left(X_{n}\right)=\frac{1}{n}-\frac{1}{n^{2}}=\frac{n-1}{n^{2}}.
因此 EXn=1n0,Var(Xn)=n1n20E X_{n}=\frac{1}{n} \rightarrow 0, \operatorname{Var}\left(X_{n}\right)=\frac{n-1}{n^{2}} \rightarrow 0.

(2) 对于 ε>0\forall \varepsilon>0, 有 P(Xn>ε)P(Xn0)=1n0P\left(\left|X_{n}\right|>\varepsilon\right) \leqslant P\left(X_{n} \neq 0\right)=\frac{1}{n} \rightarrow 0, 因此 XnP0X_{n} \stackrel{P}{\rightarrow} 0.

(3) 此时由于诸 XiX_{i} 独立, 且对于 ε(0,1),i=1nP(Xi>ε)=i=1n1i\forall \varepsilon \in(0,1), \sum_{i=1}^{n} P\left(\left|X_{i}\right|>\varepsilon\right)=\sum_{i=1}^{n} \frac{1}{i} \rightarrow \infty, 所以由独 立场合的 Borel-Cantelli 引理, 有 Xn0X_{n} \nrightarrow 0 a.s.

二、(20分) 设有一批产品100件,其中4件次品. 现从中任取3件, 若检验出其中有次品, 则认为该批次产品不合格. 检验时, 正品误判成次品的概率是0.05, 次品误判成正品的概率0.01. 试求该批产品检验结果合格的概率.

Solution:

用随机变量 XX 表示该次抽检中抽到次品的数量, 事件 AA 表示检验结果
合格. 则 P(A)=k=03P(AX=k)P(X=k)P(A)=\sum_{k=0}^{3} P(A \mid X=k) P(X=k)

P(X=k)=C4kC963kC1003={71448085,k=03042695,k=14813475,k=2140425,k=3P(AX=k)=(10.05)3k(0.01)k={0.857375,k=09.025×103,k=19.5×105,k=21×106,k=3\begin{gathered} P(X=k)=\frac{C_{4}^{k} C_{96}^{3-k}}{C_{100}^{3}}= \begin{cases}\frac{7144}{8085}, & k=0 \\ \frac{304}{2695}, & k=1 \\ \frac{48}{13475}, & k=2 \\ \frac{1}{40425}, & k=3\end{cases} \\ P(A \mid X=k)=(1-0.05)^{3-k}(0.01)^{k}= \begin{cases}0.857375, & k=0 \\ 9.025 \times 10^{-3}, & k=1 \\ 9.5 \times 10^{-5}, & k=2 \\ 1 \times 10^{-6}, & k=3\end{cases} \end{gathered}

因此 P(A)=k=03P(AX=k)P(X=k)0.7586P(A)=\sum_{k=0}^{3} P(A \mid X=k) P(X=k) \approx 0.7586.
[点评] 在不能带计算器的前提下, 此类题不可能再考察. 但计算方法仍需掌握.

三、(20分) 某班级成员一星期迟到共计 50 次, 其中星期一 12 次, 星期二 11 次, 星期三 9 次, 星期四 10 次, 星期五 8 次. 问迟到是否与星期几有关?(注 : 记 fχ2(n)(x)f_{\chi^{2}(n)}(x) 是卡方分布 χ2(n)\chi^{2}(n) 的密度函数, 且 09.48fχ2(4)(x)dx0.95,011.07fχ2(5)(x)dx0.95\int_{0}^{9.48} f_{\chi^{2}(4)}(x) d x \approx 0.95, \int_{0}^{11.07} f_{\chi^{2}(5)}(x) d x \approx 0.95)

Solution:
利用卡方拟合优度检验, 设 XX 是某一次迟到可能发生在星期 kk 的概率
(k=1,,5)(k=1, \cdots, 5), 建立假设检验问题: H0:P(X=k)=15(k=1,,5)\quad H_{0}: P(X=k)=\frac{1}{5}(k=1, \cdots, 5)
构造卡方检验统计量 χ2=k=1r(npknk)2npk\chi^{2}=\sum_{k=1}^{r} \frac{\left(n p_{k}-n_{k}\right)^{2}}{n p_{k}}, 其中 rr 表示随机变量可能的取值个数,
此处 r=5,nr=5, n 为样本总数此时 n=50,nkn=50, n_{k} 为随机变量 X=kX=k 的观测值总数, pkp_{k} 等于
原假设中的 P(X=k)P(X=k) 此处 pk15p_{k} \equiv \frac{1}{5}. 而 W={χ2χ1α2(r1)}W=\left\{\chi^{2} \geqslant \chi_{1-\alpha}^{2}(r-1)\right\}, 此时

W={χ2χ0.952(4)}={χ29.48}.W=\left\{\chi^{2} \geqslant \chi_{0.95}^{2}(4)\right\}=\left\{\chi^{2} \geqslant 9.48\right\} .

算得 χ2=k=1r(npknk)2npk=4+1+1+0+410=1W\chi^{2}=\sum_{k=1}^{r} \frac{\left(n p_{k}-n_{k}\right)^{2}}{n p_{k}}=\frac{4+1+1+0+4}{10}=1 \notin W. 所以不能拒绝原假设, 某一次 迟到可能发生在星期 kk 的概率应该是相同的, 即迟到与星期几无关.

四、(50分) 随机变量 XX 的密度函数为 f(xθ)=θ(22x)(2xx2)θ1,f(x | \theta)=\theta(2-2 x)\left(2 x-x^{2}\right)^{\theta-1}, 其中 0<x<1,θ>00<x<1, \theta>0 . 现有简单随机样本 X1,X2,,XnX_{1}, X_{2}, \cdots, X_{n}.

(1)(10分) 记 Y=ln(2XX2)Y=-\ln \left(2 X-X^{2}\right),试求 YY 的密度函数;

(2)(10分) 求 XX 分布的中位数, 以及 EY;E Y ;

(3)(10分) 求 θ\theta 的极大似然估计 θ^L;\widehat{\theta}_{L} ;

(4)(10分) 求 θ^L\hat{\theta}_{L} 的密度函数;

(5)(10分) 求 θ\theta 的充分统计量.

Solution:
(1) Y=ln(2XX2)Y=-\ln \left(2 X-X^{2}\right), 则 2XX2=ey2 X-X^{2}=e^{-y} 由公式法, 有

fY(y)=fX(y)dxdy=θ(22x)(ey)θ1dydx1=θ(22x)(ey)θ1(22x2xx2)1=θeθy\begin{aligned} f_{Y}(y) &=f_{X}(y)\left|\frac{d x}{d y}\right|=\theta(2-2 x)\left(e^{-y}\right)^{\theta-1}\left|\frac{d y}{d x}\right|^{-1} \\ &=\theta(2-2 x)\left(e^{-y}\right)^{\theta-1}\left(\frac{2-2 x}{2 x-x^{2}}\right)^{-1} \\ &=\theta e^{-\theta y} \end{aligned}

根据 Y=ln(2XX2)Y=-\ln \left(2 X-X^{2}\right), 可确定 fY(y)=θeθy(y>0)f_{Y}(y)=\theta e^{-\theta y}(y>0), 即 YExp(θ)Y \sim \operatorname{Exp}(\theta).

(2) 显然 EY=1θEY = \frac{1}{\theta}.

XX 的分布函数, 对 x(0,1),FX(x)=0xf(t)dt=(2xx2)θ\forall x \in(0,1), F_{X}(x)=\int_{0}^{x} f(t) d t=\left(2 x-x^{2}\right)^{\theta}
则令 FX(x0.5)=12F_{X}\left(x_{0.5}\right)=\frac{1}{2}, 解二次方程可得

x0.5=11(12)1θ( 还有一根为 1+1(12)1θ>1 需舍去 )x_{0.5}=1-\sqrt{1-\left(\frac{1}{2}\right)^{\frac{1}{\theta}}}\left(\text { 还有一根为 } 1+\sqrt{1-\left(\frac{1}{2}\right)^{\frac{1}{\theta}}}>1 \text { 需舍去 }\right)

(3) 似然函数 L(X;θ)=θni=1n(22xi)(2xixi2)θ1L(\mathbf{X} ; \theta)=\theta^{n} \prod_{i=1}^{n}\left(2-2 x_{i}\right)\left(2 x_{i}-x_{i}^{2}\right)^{\theta-1}
对数似然函数 lnL=nlnθ+i=1nln(22xi)+(θ1)i=1nln(2xixi2)\ln L=n \ln \theta+\sum_{i=1}^{n} \ln \left(2-2 x_{i}\right)+(\theta-1) \sum_{i=1}^{n} \ln \left(2 x_{i}-x_{i}^{2}\right)

 令 lnLθ=nθ+i=1nln(2xixi2)=0, 得 θ^L=ni=1nln(2xixi2)\text { 令 } \frac{\partial \ln L}{\partial \theta}=\frac{n}{\theta}+\sum_{i=1}^{n} \ln \left(2 x_{i}-x_{i}^{2}\right)=0 \text {, 得 } \hat{\theta}_{L}=\frac{n}{-\sum_{i=1}^{n} \ln \left(2 x_{i}-x_{i}^{2}\right)}

由于总体服从单参指数族分布, 所以驻点一定是极大值点,

θ^L=ni=1nln(2xixi2)=ni=1nyi.\hat{\theta}_{L}=\frac{n}{-\sum_{i=1}^{n} \ln \left(2 x_{i}-x_{i}^{2}\right)}=\frac{n}{\sum_{i=1}^{n} y_{i}} .

(4) 由于 YiiidExp(θ)Y_{i} i i d \sim \operatorname{Exp}(\theta), 由伽马分布的可加性可知 T=i=1nyiGa(n,θ)T=\sum_{i=1}^{n} y_{i} \sim G a(n, \theta), 则求 θ^L=nT\hat{\theta}_{L}=\frac{n}{T} 的分布.

P(θ^L=t)=P(nT=t)=P(T=nt)(nt>0)=θnΓ(n)(nt)n1eθntd(nt)=θn(n1)!(nt)n1eθntnt2dt=(nθ)n(n1)!(1t)n+1enθtdt(t>0)\begin{aligned} P\left(\hat{\theta}_{L}=t\right) &=P\left(\frac{n}{T}=t\right)=P\left(T=\frac{n}{t}\right) \quad\left(\frac{n}{t}>0\right) \\ &=\frac{\theta^{n}}{\Gamma(n)}\left(\frac{n}{t}\right)^{n-1} e^{-\theta \frac{n}{t}}\left|d\left(\frac{n}{t}\right)\right| \\ &=\frac{\theta^{n}}{(n-1) !}\left(\frac{n}{t}\right)^{n-1} e^{-\theta \frac{n}{t}} \frac{n}{t^{2}} d t \\ &=\frac{(n \theta)^{n}}{(n-1) !}\left(\frac{1}{t}\right)^{n+1} e^{-\frac{n \theta}{t}} d t \quad(t>0) \end{aligned}

因此 θ^L\hat{\theta}_{L} 的密度函数为逆伽马分布 f(t)=(nθ)n(n1)!(1t)n+1enθt(t>0)f(t)=\frac{(n \theta)^{n}}{(n-1) !}\left(\frac{1}{t}\right)^{n+1} e^{-\frac{n \theta}{t}} \quad(t>0)

(5) 似然函数 L(X;θ)=θni=1n(22xi)(2xixi2)θ1L(\mathbf{X} ; \theta)=\theta^{n} \prod_{i=1}^{n}\left(2-2 x_{i}\right)\left(2 x_{i}-x_{i}^{2}\right)^{\theta-1}, 由因子分解定理可知:i=1n(2XiXi2)\prod_{i=1}^{n}\left(2 X_{i}-X_{i}^{2}\right)θ\theta 的充分统计量.

五、(40分) 有观测数据 (x1,Y1),(x2,Y2),,(xn,Yn)\left(x_{1}, Y_{1}\right),\left(x_{2}, Y_{2}\right), \cdots,\left(x_{n}, Y_{n}\right). 并有线性回归模型 Yi=βxi+εi;i=1,2,n,Y_{i}=\beta x_{i}+\varepsilon_{i} ; i=1,2, \cdots n, xix_{i} 为不为 0 的随机设置点.不可观测的随机误差变量 εiN(0,xi2σ2)β,σ2\varepsilon_{i} \sim N\left(0, x_{i}{ }^{2} \sigma^{2}\right)_{\circ} \beta, \sigma^{2} 为未知参数, 则 :

(1)(20分) 求 β\beta 的最小二乘估计 β^LSE\widehat{\beta}_{L S E}β\beta 的极大似然估计 β^MLE,\widehat{\beta}_{M L E}, 以及 σ2\sigma^{2} 的极大似然估计;

(2)(10分) β^LSE,β^MLE\widehat{\beta}_{L S E}, \widehat{\beta}_{M L E} 是否为 β\beta 的无偏估计? 并比较二者的有效性 ;

(3)(10分) 利用似然比检验法给出假设检验问题 H0:β=1H_{0}: \beta=1 vs H1:β1H_{1}: \beta \neq 1 的检验拒绝域.

Solution:
(1) β\beta 的最小二乘估计大家已经很熟悉了, β^LSE=i=1nxiYii=1nxi2\hat{\beta}_{L S E}=\frac{\sum_{i=1}^{n} x_{i} Y_{i}}{\sum_{i=1}^{n} x_{i}^{2}}. 现在我们继
续求极大似然估计: 令 Zi=YixiN(β,σ2),i=1,2,,nZ_{i}=\frac{Y_{i}}{x_{i}} \sim N\left(\beta, \sigma^{2}\right), i=1,2, \ldots, n, 这就是独立同正态分布样本 的估计了, 我们很明显知道

β^MLE=Zˉ=1ni=1nYixi,σ^MLE2=1ni=1n(ZiZˉ)2=1ni=1n(Yixi1nj=1nYjxj)2.\hat{\beta}_{M L E}=\bar{Z}=\frac{1}{n} \sum_{i=1}^{n} \frac{Y_{i}}{x_{i}}, \hat{\sigma}_{M L E}^{2}=\frac{1}{n} \sum_{i=1}^{n}\left(Z_{i}-\bar{Z}\right)^{2}=\frac{1}{n} \sum_{i=1}^{n}\left(\frac{Y_{i}}{x_{i}}-\frac{1}{n} \sum_{j=1}^{n} \frac{Y_{j}}{x_{j}}\right)^{2} .

(2)先求期望, Eβ^LSE=i=1nxiEYii=1nxi2=i=1nβxi2i=1nxi2βE \hat{\beta}_{L S E}=\frac{\sum_{i=1}^{n} x_{i} E Y_{i}}{\sum_{i=1}^{n} x_{i}^{2}}=\frac{\sum_{i=1}^{n} \beta x_{i}^{2}}{\sum_{i=1}^{n} x_{i}^{2}} \beta, 因此 β^LSE\hat{\beta}_{L S E} 是无偏估计,
Eβ^MLE=EZˉ=βE \widehat{\beta}_{M L E}=E \bar{Z}=\beta, 因此 β^MLE\hat{\beta}_{M L E} 也是无偏估计. 再求方差, 有

Var(β^LSE)=i=1nxi2Var(Yi)(i=1nxi2)2=i=1nxi4(i=1nxi2)2σ21nσ2, 当且仅当 x1==xn 取等. \operatorname{Var}\left(\hat{\beta}_{L S E}\right)=\frac{\sum_{i=1}^{n} x_{i}^{2} \operatorname{Var}\left(Y_{i}\right)}{\left(\sum_{i=1}^{n} x_{i}^{2}\right)^{2}}=\frac{\sum_{i=1}^{n} x_{i}^{4}}{\left(\sum_{i=1}^{n} x_{i}^{2}\right)^{2}} \sigma^{2} \geq \frac{1}{n} \sigma^{2} \text {, 当且仅当 } x_{1}=\cdots=x_{n} \text { 取等. }

(注意运用柯西-施瓦茨不等式 (i=1n1ai)2(i=1n12)(i=1nai2)=ni=1nai2)\left.\left(\sum_{i=1}^{n} 1 \cdot a_{i}\right)^{2} \leq\left(\sum_{i=1}^{n} 1^{2}\right)\left(\sum_{i=1}^{n} a_{i}^{2}\right)=n \sum_{i=1}^{n} a_{i}^{2}\right)
Var(β^MLE)=Var(Zˉ)=1nσ2\operatorname{Var}\left(\hat{\beta}_{M L E}\right)=\operatorname{Var}(\bar{Z})=\frac{1}{n} \sigma^{2}. 因此 β^MLE\widehat{\beta}_{M L E} 是更有效的. 实际上, 由于正态分布总体 均值的估计是有效估计, 因此本题只需想方设法证明 LSE 的方差更大即可.

(3) 仍然借助 Zi=YixiN(β,σ2),i=1,2,,nZ_{i}=\frac{Y_{i}}{x_{i}} \sim N\left(\beta, \sigma^{2}\right), i=1,2, \ldots, n, 似然函数为

L(β,σ2)=(2πσ2)n2exp{12σ2i=1n(ziβ)2},L\left(\beta, \sigma^{2}\right)=\left(2 \pi \sigma^{2}\right)^{-\frac{n}{2}} \exp \left\{-\frac{1}{2 \sigma^{2}} \sum_{i=1}^{n}\left(z_{i}-\beta\right)^{2}\right\},

β^=zˉ,σ^2=1ni=1n(zizˉ)2\widehat{\beta}=\bar{z}, \hat{\sigma}^{2}=\frac{1}{n} \sum_{i=1}^{n}\left(z_{i}-\bar{z}\right)^{2}, 分别是 β,σ2\beta, \sigma^{2} 的 MLE.
当不加限制条件时,

supL(β,σ2)=(2πσ^2)n2exp{12σ^2i=1n(ziβ^)2}=(2πσ^2)n2exp{n2},\sup L\left(\beta, \sigma^{2}\right)=\left(2 \pi \hat{\sigma}^{2}\right)^{-\frac{n}{2}} \exp \left\{-\frac{1}{2 \widehat{\sigma}^{2}} \sum_{i=1}^{n}\left(z_{i}-\widehat{\beta}\right)^{2}\right\}=\left(2 \pi \hat{\sigma}^{2}\right)^{-\frac{n}{2}} \exp \left\{-\frac{n}{2}\right\},

当限制 β=1\beta=1 时, 记 σ~2=1ni=1n(zi1)2\tilde{\sigma}^{2}=\frac{1}{n} \sum_{i=1}^{n}\left(z_{i}-1\right)^{2} 是此时 σ2\sigma^{2} 的 MLE, 则

supβ=1L(β,σ2)=(2πσ~2)n2exp{12σ~2i=1n(zi1)2}=(2πσ~2)n2en2\sup _{\beta=1} L\left(\beta, \sigma^{2}\right)=\left(2 \pi \tilde{\sigma}^{2}\right)^{-\frac{n}{2}} \exp \left\{-\frac{1}{2 \tilde{\sigma}^{2}} \sum_{i=1}^{n}\left(z_{i}-1\right)^{2}\right\}=\left(2 \pi \widetilde{\sigma}^{2}\right)^{-\frac{n}{2}} e^{-\frac{n}{2}}

因此有

Λ=supLsupβ=1L=(σ^2σ~2)n2=[i=1n(zi1)2i=1n(zizˉ)2]n2=[i=1n(zizˉ+zˉ1)2]n2i=1n(zizˉ)2]n2=[1+n(zˉ1)2i=1n(zizˉ)2]n2=[1+T2n1]n2\Lambda =\frac{\text{sup}L}{\sup_{\beta =1}L}=\left( \frac{\hat{\sigma}^2}{\tilde{\sigma}^2} \right) ^{-\frac{n}{2}}=\left[ \frac{\sum_{i=1}^n{\left( z_i-1 \right)}^2}{\sum_{i=1}^n{\left( z_i-\bar{z} \right)}^2} \right] ^{\frac{n}{2}}=\left[ \frac{\left. \sum_{i=1}^n{\left( z_i-\bar{z}+\bar{z}-1 \right)}^2 \right] ^{\frac{n}{2}}}{\sum_{i=1}^n{\left( z_i-\bar{z} \right)}^2} \right] ^{\frac{n}{2}}=\left[ 1+\frac{n\left( \bar{z}-1 \right) ^2}{\sum_{i=1}^n{\left( z_i-\bar{z} \right)}^2} \right] ^{\frac{n}{2}}=\left[ 1+\frac{T^2}{n-1} \right] ^{\frac{n}{2}}

其中 T=n(zˉ1)i=1n(zizˉ)2/(n1)T=\frac{\sqrt{n}(\bar{z}-1)}{\sqrt{\sum_{i=1}^{n}\left(z_{i}-\bar{z}\right)^{2} /(n-1)}}, 而 Λ\Lambda 显然是 T2T^{2} 的单调增函数, 故拒绝域为

W={Λλ}={TC}W=\{\Lambda \geq \lambda\}=\{|T| \geq C\}

其中 CC 是由显著性水平确定的常数, 由于当 β=1\beta=1 时, Tt(n1)T \sim t(n-1), 故水平为 α\alpha 的拒 绝域为 W={Tt1a2(n1)}W=\left\{|T| \geq t_{1-\frac{a}{2}}(n-1)\right\}.