中山大学-432统计学-2022年

一、选择题

1、甲乙两人轮流掷骰子, 先掷出1或6者取胜, 问先掷者获胜的概率是( ).

A.13\frac{1}{3};
B.12\frac{1}{2};
C.25\frac{2}{5};
D.35\frac{3}{5}.

Solution: D

13i=0(23)i=1311(23)2=35\frac{1}{3}\sum_{i=0}^{\infty}{\left( \frac{2}{3} \right) ^i}=\frac{1}{3}\cdot \frac{1}{1-\left( \frac{2}{3} \right) ^2}=\frac{3}{5}

2、 现有两个盒子, 第一个盒中装有2个红球与3个白球, 第二个盒子中装有3个红球和5个白球, 先随机选择一个盒子, 再从该盒中摸球, 现知摸出的是红球, 其来自于第一个盒子的概率是( ).

A.1631\frac{16}{31};
B.25\frac{2}{5};
C.15\frac{1}{5};
D.1531\frac{15}{31}.

Solution: A

用贝叶斯公式, 有

P(A1R)=P(RA1)P(A1)P(RA1)P(A1)+P(RA2)P(A2)=25122512+3812=1631\begin{aligned} P\left( A_1\mid R \right) &=\frac{P\left( R\mid A_1 \right) P\left( A_1 \right)}{P\left( R\mid A_1 \right) P\left( A_1 \right) +P\left( R\mid A_2 \right) P\left( A_2 \right)} \\ &=\frac{\frac{2}{5}\cdot \frac{1}{2}}{\frac{2}{5}\cdot \frac{1}{2}+\frac{3}{8}\cdot \frac{1}{2}}=\frac{16}{31} \end{aligned}

3、随机变量XN(μ,σ2)X\sim \mathcal{N}\left( \mu ,\sigma ^2 \right), 对于固定的a>0a > 0, 在σ\sigma增大时, 概率P(Xμ<a)P\left( \left| X-\mu \right|<a \right)的变化趋势是 ( ).

A. 减小;
B. 增大;
C. 不变;
D. 先增后减.

Solution: A

P(Xμ<a)=P(Xμσ<aσ)P\left( \left| X-\mu \right|<a \right) =P\left( \frac{\left| X-\mu \right|}{\sigma}<\frac{a}{\sigma} \right)σ\sigma的单调减函数.

4、X1,X2,,XnX_1,X_2,\cdots,X_n是来自正态总体N(μ,σ2)\mathcal{N}\left( \mu ,\sigma ^2 \right)的简单随机样本, 其中μ,σ2\mu,\sigma^2均未知, 则样本方差s2s^2σ2\sigma^2的( ).

A. 最大似然估计;
B. 有效估计;
C. 相合估计;
D. 以上都是.

Solution: C

最大似然估计是σ^2=1ni=1n(XiXˉ)2=n1ns2\hat{\sigma}^2=\frac{1}{n}\sum_{i=1}^n{\left( X_i-\bar{X} \right) ^2}=\frac{n-1}{n}s^2, 有效估计不存在, 相合性可由大数定律得到.

5、设[a,b][a,b]是根据一组随机样本得到的关于未知参数θ\theta的 95% 置信区间, 则以下说法正确的是 ( ).

A. 有 95% 的随机样本落入该区间;

B. 对于假设检验问题H0:θ=θ0 vs H1:θθ0H_0:\theta =\theta _0\ vs\ H_1:\theta \ne \theta _0, 在0.05的显著性水平下, 若θ0[a,b]\theta_0 \notin [a,b], 则拒绝原假设;

C.θ\theta的估计量θ^\hat{\theta}以 95% 概率落入该区间;

D.θ\theta的真实值以 95% 概率落入该区间.

Solution: B

反转一个接受域可得到置信区间, 而反转一个置信区间也可得到接受域, 故B正确.

D项表述不正确,θ\theta不是随机变量, 不能谈概率. 正确的表述是"有95%的把握称θ\theta的真实值落入该区间."

6、 考虑pp值检验, 若pp值越小, 则( ).

A. 更有理由认为原假设不成立;

B. 更有理由认为原假设成立;

C. 以更大概率拒绝原假设;

D. 以更大概率接受原假设.

Solution: A

C项表述不正确, 在一般的场合, 我们要么做出拒绝原假设的决定, 要么做出接受原假设的决定, 概率是不变的. (注: 若考虑随机化检验, 则有时会以某个概率拒绝原假设, 但该概率也不随pp值改变).

7、X1,X2,,XnX_1,X_2,\cdots,X_n是来自正态总体N(μ,σ2)\mathcal{N}\left( \mu ,\sigma ^2 \right)的简单随机样本, 其中μ,σ2\mu,\sigma^2均未知, 记Xˉ=1ni=1nXi,S2=1n1i=1n(XiXˉ)2\bar{X}=\frac{1}{n}\sum_{i=1}^n{X_i},S^2=\frac{1}{n-1}\sum_{i=1}^n{\left( X_i-\bar{X} \right) ^2}, 下列说法正确的是 ( ).

A.Xˉ,S,X1X2S\bar{X},S,\frac{X_1-X_2}{S}两两独立;

B.2(X1X2)σN(0,1)\frac{\sqrt{2}\left( X_1-X_2 \right)}{\sigma}\sim N\left( 0,1 \right);

C.X1X2St(n1)\frac{X_1-X_2}{S}\sim t\left( n-1 \right);

D.n(Xˉμ)St(n)\frac{\sqrt{n}\left( \bar{X}-\mu \right)}{S}\sim t\left( n \right).

Solution: A

前两个的独立性由Fisher引理. 而Xˉ,S2\bar{X},S^2分别是μ,σ2\mu,\sigma^2的充分完备统计量,X1X2S\frac{X_1-X_2}{S}关于这两个参数均为辅助统计量, 根据Basu引理得独立性.

二、填空题

1、 设f(x)=aex,xRf\left( x \right) =ae^{-\left| x \right|},x\in \mathcal{R}是某个随机变量的p.d.f, 则a=a=____.

Solution: 1/2

根据概率密度函数的正则性即可.

2、a,bU(0,2)a,b\sim \mathcal{U}\left( 0,2 \right), 且二者独立, 则方程x2+ax+b2=0x^2+ax+b^2=0有实根的概率是 ____.

Solution: 1/4

Δ=a24b20\Delta =a^2-4b^2\ge 0时, 方程有实根, 则

P(a24b20)=P(a24b2)=P(a2b)=P(a2b)=14P\left( a^2-4b^2\ge 0 \right) =P\left( a^2\ge 4b^2 \right) =P\left( \left| a \right|\ge 2\left| b \right| \right) =P\left( a\ge 2b \right) =\frac{1}{4}

3、已知有nXndN(0,1)\sqrt{n}X_n\rightarrow _d\mathcal{N}\left( 0,1 \right), 则n(eXn1)\sqrt{n}\left( e^{X_n}-1 \right)的依分布收敛极限是 ____.

Solution:N(0,1)\mathcal{N}\left( 0,1 \right)

用delta方法, 取g(x)=exg\left( x \right) =e^x, 则g(0)=1g'\left( 0 \right) =1, 于是有

n(g(Xn)g(0))dN(0,[g(0)]2)=N(0,1)\sqrt{n}\left( g\left( X_n \right) -g\left( 0 \right) \right) \rightarrow _d\mathcal{N}\left( 0,\left[ g'\left( 0 \right) \right] ^2 \right) =\mathcal{N}\left( 0,1 \right)

4、X1,X2,,X9X_1,X_2,\cdots,X_9是来自N(μ1,σ12)\mathcal{N}\left( \mu _1,\sigma _{1}^{2} \right)的简单随机样本,Y1,Y2,,Y12Y_1,Y_2,\cdots,Y_12是来自N(μ2,σ22)\mathcal{N}\left( \mu _2,\sigma _{2}^{2} \right)的简单随机样本, 其中σ12=3σ22\sigma _{1}^{2}=3\sigma _{2}^{2},σ22\sigma_2^2未知, 则μ1μ2\mu _1-\mu _21α1-\alpha置信区间是 ____.

Solution:(XˉYˉ)±51283SX2+11SY219t1α2(19)\left( \bar{X}-\bar{Y} \right) \pm \sqrt{\frac{5}{12}}\sqrt{\frac{\frac{8}{3}S_{X}^{2}+11S_{Y}^{2}}{19}}\cdot t_{1-\frac{\alpha}{2}}\left( 19 \right)

5、设XU(0,1)X\sim \mathcal{U}\left( 0,1 \right), 则Y=X2Y = X^2的p.d.f 是 ____.

Solution:fY(y)=12y,0<y<1f_Y\left( y \right) =\frac{1}{2\sqrt{y}},0<y<1

fY(y)=fX(y)12y,0<y<1=12y,0<y<1f_Y\left( y \right) =f_X\left( \sqrt{y} \right) \left| \frac{1}{2\sqrt{y}} \right|,0<y<1=\frac{1}{2\sqrt{y}},0<y<1

6、甲欲检验某枚硬币掷出正面的概率是否小于12\frac{1}{2}, 即考虑假设检验问题H0:p=12 vs H1:p<12H_0:p=\frac{1}{2}\ vs\ H_1:p<\frac{1}{2}. 现10次试验中有2次掷出正面, 则此时pp值是 ____.

Solution:727\frac{7}{2^{7}}

P(X2p=12)=k=02C10k(12)10=56210=727P\left( X \le 2\mid p=\frac{1}{2} \right) =\sum_{k=0}^2{C_{10}^{k}\left( \frac{1}{2} \right) ^{10}}=\frac{56}{2^{10}} = \frac{7}{2^7}.

7、X1,X2,,XnX_1,X_2,\cdots,X_n是来自正态总体N(μ,σ2)\mathcal{N}\left( \mu ,\sigma ^2 \right)的简单随机样本, 其中μ,σ2\mu,\sigma^2均未知, 则σ2\sigma^2的 MLE 的均方误差是 ____.

Solution:2n1nσ4\frac{2n-1}{n}\sigma ^4

σ2\sigma^2的 MLE 是n1nS2\frac{n-1}{n}S^2, 于是

MSE(n1nS2)=E(n1nS2σ2)2=Var(n1nS2)+(En1nS2σ2)2=(n1)2n22σ4n1+σ4n2=2n1n2σ4\begin{aligned} MSE\left( \frac{n-1}{n}S^2 \right) &=E\left( \frac{n-1}{n}S^2-\sigma ^2 \right) ^2 \\ &=Var\left( \frac{n-1}{n}S^2 \right) +\left( E\frac{n-1}{n}S^2-\sigma ^2 \right) ^2 \\ &=\frac{\left( n-1 \right) ^2}{n^2}\cdot \frac{2\sigma ^4}{n-1}+\frac{\sigma ^4}{n^2}=\frac{2n-1}{n^2}\sigma ^4 \end{aligned}

三、解答题

1、设(X,Y)N(0,0;1,1;ρ)\left( X,Y \right) \sim \mathcal{N}\left( 0,0;1,1;\rho \right), 试求Z=XYZ = \left| X-Y \right|的 p.d.f 以及其数学期望期望.

Solution:

XYN(0,22ρ)X-Y\sim \mathcal{N}\left( 0,2-2\rho \right), 故Z=XYZ = \left| X-Y \right|是一个对称分布, 其 p.d.f 是

fZ(z)=1π(1ρ)ez24(1ρ),z>0f_Z\left( z \right) =\frac{1}{\sqrt{\pi \left( 1-\rho \right)}}e^{-\frac{z^2}{4\left( 1-\rho \right)}}, z>0

以及EZ=21ρπEZ=2\sqrt{\frac{1-\rho}{\pi}}.

2、对于来自负二项分布NB(r,p)NB\left( r,p \right)的单个样本XX, 其分布列是P(X=x)=Cx1r1pr(1p)xrP\left( X=x \right) =C_{x-1}^{r-1}p^r\left( 1-p \right) ^{x-r}, 试求pkp^k的UMVUE(其中k<rk<r).

Solution:

拆分分布列, 对于xr\forall x \ge r, 有

P(X=x)=Cx1r1pr(1p)xrP(X=x)=Cx1r1Cxk1rk1pkCxk1rk1prk(1p)xrCxk1rk1Cx1r1P(X=x)=pkCxk1rk1prk(1p)xr\begin{aligned} P\left( X=x \right) &=C_{x-1}^{r-1}p^r\left( 1-p \right) ^{x-r} \\ P\left( X=x \right) &=\frac{C_{x-1}^{r-1}}{C_{x-k-1}^{r-k-1}}p^kC_{x-k-1}^{r-k-1}p^{r-k}\left( 1-p \right) ^{x-r} \\ \frac{C_{x-k-1}^{r-k-1}}{C_{x-1}^{r-1}}P\left( X=x \right) &=p^kC_{x-k-1}^{r-k-1}p^{r-k}\left( 1-p \right) ^{x-r} \end{aligned}

两侧同时取在x=r,r+1,,x = r,r+1,\cdots,\infty上求和, 有

x=r+Cxk1rk1Cx1r1P(X=x)=pkx=r+Cxk1rk1prk(1p)xrx=r+(xk1)!(rk1)!(xr)!(x1)!(r1)!(xr)!P(X=x)=pkz=v+Cz1v1pv(1p)zvE[(Xk1)!(r1)!(X1)!(rk1)!]=pk\begin{aligned} \sum_{x=r}^{+\infty}{\frac{C_{x-k-1}^{r-k-1}}{C_{x-1}^{r-1}}P\left( X=x \right)}&=p^k\sum_{x=r}^{+\infty}{C_{x-k-1}^{r-k-1}p^{r-k}\left( 1-p \right) ^{x-r}} \\ \sum_{x=r}^{+\infty}{\frac{\frac{\left( x-k-1 \right) !}{\left( r-k-1 \right) !\left( x-r \right) !}}{\frac{\left( x-1 \right) !}{\left( r-1 \right) !\left( x-r \right) !}}P\left( X=x \right)}&=p^k\sum_{z=v}^{+\infty}{C_{z-1}^{v-1}p^v\left( 1-p \right) ^{z-v}} \\ E\left[ \frac{\left( X-k-1 \right) !\left( r-1 \right) !}{\left( X-1 \right) !\left( r-k-1 \right) !} \right] &=p^k \end{aligned}

根据Lehamnn-Scheffe定理, 有T=(Xk1)!(r1)!(X1)!(rk1)!T=\frac{\left( X-k-1 \right) !\left( r-1 \right) !}{\left( X-1 \right) !\left( r-k-1 \right) !}pkp^k的UMVUE.

3、有来自总体f(x)=θx2I{xθ}f\left( x \right) =\frac{\theta}{x^2}I_{\left\{ x\ge \theta \right\}}的随机样本X1,X2,,XnX_1,X_2,\cdots,X_n, 其中未知参数θ>0\theta > 0, 试解决下述问题.

(1). 试求θ\theta的MLE;

(2). 判断1)中的MLE是否为充分统计量;

(3). 求θ\theta的95% 置信区间.

Solution:

(1) 先写出似然函数

L(θ)=θni=1nxi2I{θx(1)},L\left( \theta \right) =\frac{\theta ^n}{\prod_{i=1}^n{x_{i}^{2}}}I_{\left\{ \theta \le x_{\left( 1 \right)} \right\}},

这显然是 θ\theta 的增函数, 故 θ\thetaX(1)X_{(1)} 时似然函数也达到最大. θ^=X(1)\hat{\theta}=X_{\left( 1 \right)};

(2) 是, 直接根据因子分解定理;

(3) 由于X(1)f1(x)=nθnxn+1I{xθ}X_{\left( 1 \right)}\sim f_1\left( x \right) =\frac{n\theta ^n}{x^{n+1}}I_{\left\{ x\ge \theta \right\}}, 故T=X(1)θfT(t)=ntn+1I{t1}T=\frac{X_{\left( 1 \right)}}{\theta}\sim f_T\left( t \right) =\frac{n}{t^{n+1}}I_{\left\{ t\ge 1 \right\}}, 其分布与θ\theta无关, 可作为枢轴量. 算得FT(t)=(11tn)I{t1}F_T\left( t \right) =\left( 1-\frac{1}{t^n} \right) I_{\left\{ t\ge 1 \right\}}.

若有P(aTb)=1αP\left( a\le T\le b \right) =1-\alpha, 则可反解得到θ\theta1α1-\alpha置信区间[X(1)b,X(1)a]\left[ \frac{X_{\left( 1 \right)}}{b},\frac{X_{\left( 1 \right)}}{a} \right], 考虑到 X(1)θX_{(1)} \ge \theta, 我们在上限处 aa11, 由此解

1bntn+1dt=1α\int_1^b{\frac{n}{t^{n+1}}dt}=1-\alpha

b=α1/nb=\alpha^{-1/n}, 因此置信区间[(0.05)1nX(1),X(1)]\left[ \left( 0.05 \right) ^{\frac{1}{n}}X_{\left( 1\right)},X_{\left( 1 \right)} \right].

4、为验证某骰子是否均匀, 某人进行了100次试验, 其中数字1,2,3,4,5,6出现的次数分别为15,18,19,14,16,18. 试用数学方法建立模型并解答, 无需代入具体数值计算.

Solution: 用拟合优度检验, 记一次投掷出现数字ii的概率是pi(i=1,2,,6)p_i\left( i=1,2,\cdots ,6 \right), 考虑假设检验问题:

H0:pi=16(i=1,2,,6)H_0:p_i=\frac{1}{6}\left( i=1,2,\cdots ,6 \right)

卡方统计量为χ2=i=16(nin6)2n6H0χ52\chi ^2=\sum_{i=1}^6{\frac{\left( n_i-\frac{n}{6} \right) ^2}{\frac{n}{6}}}\overset{H_0}{\sim}\chi _{5}^{2}, 故在α\alpha的显著性水平下, 当χ2χ5,1α2\chi ^2\ge \chi _{5,1-\alpha}^{2}时拒绝原假设.

5、现有来自总体f(x)=θxθ1I{0x1}f\left( x \right) =\theta x^{\theta -1}I_{\left\{ 0\le x\le 1 \right\}}的简单随机样本X1,X2,,XnX_1,X_2,\cdots,X_n, 考虑假设检验问题:

H0:θ=1 vs H1:θ1H_0:\theta =1\ vs\ H_1:\theta \ne 1

(1) 求上述问题显著性水平α\alpha的广义似然比拒绝域;

(2) 求 (1) 中检验的功效函数;

(3) 问 (1) 中检验是否为UMP检验?

Solution: (1) 注意到总体是Beta(θ,1)Beta\left( \theta ,1 \right), 对总体取负对数变换则为指数分布, 即Yi=logXiE(θ)Y_i=-\log X_i\sim \mathcal{E}\left( \theta \right). 可基于我们熟悉的指数分布样本YiY_i构建拒绝域.

最终拒绝域可基于T=i=1nYi=i=1nlogXiT=\sum_{i=1}^n{Y_i}=-\sum_{i=1}^n{\log X_i}给出, 其形式为W={Ta}{Tb}W=\left\{ T\le a \right\} \cup \left\{ T\ge b \right\}. 其中a,ba,b满足aea=bebae^{-a}=be^{-b}以及2θ0a2θ0bf2n(t)dt=1α\int_{2\theta _0a}^{2\theta _0b}{f_{2n}\left( t \right) dt}=1-\alpha, 这里f2n(t)f_{2n}\left( t \right)表示χ2n2\chi _{2n}^{2}的 p.d.f.

或直接取等尾, 得近似LRT,W={Tχ2n,α222θ0}{Tχ2n,1α222θ0}W=\left\{ T\le \frac{\chi _{2n,\frac{\alpha}{2}}^{2}}{2\theta _0} \right\} \cup \left\{ T\ge \frac{\chi _{2n,1-\frac{\alpha}{2}}^{2}}{2\theta _0} \right\}. 注意本题中 θ0\theta_0是 1.

(2)

βW(θ)=Pθ(Ta)+Pθ(Tb)=1Pθ(aTb)=1Pθ(2θa2θT2θb)=12θa2θbf2n(t)dt\begin{aligned} \beta _W\left( \theta \right) &=P_{\theta}\left( T\le a \right) +P_{\theta}\left( T\ge b \right) \\ &=1-P_{\theta}\left( a\le T\le b \right) \\ &=1-P_{\theta}\left( 2\theta a\le 2\theta T\le 2\theta b \right) \\ &=1-\int_{2\theta a}^{2\theta b}{f_{2n}\left( t \right) dt} \end{aligned}

这里的a,ba,b由 (1) 中的LRT条件给出.

(3) 不是UMPT. 考虑任意θ1>θ0\theta_1 > \theta_0, 根据N-P引理, 在θ1\theta_1处唯一功效最大的检验是W1={T2θ0χα2}W_1=\left\{ T\le 2\theta _0\chi _{\alpha}^{2} \right\}, 而我们前面得到的拒绝域WW显然与它不一样, 故不可能是UMP检验.

实际上该假设检验问题的UMP检验是不存在的, 可以再考虑任意θ2<θ0\theta_2 < \theta_0, 根据N-P引理, 在θ2\theta_2处唯一功效最大的检验是W2={T2θ0χ1α2}W_2=\left\{ T\ge 2\theta _0\chi _{1-\alpha}^{2} \right\}. 若W0W_0是该假设检验问题的 UMP拒绝域, 则必须W0=W1,a.s.W_0=W_1,a.s.以及W0=W2,a.s.W_0=W_2,a.s., 这显然是做不到的.