南开大学-432统计学-2020年

一、选择题 (每题 4 分, 共 28 分)

  1. 随机变量XX在1-3的正整数中等概率取值, 随机变量YY在1-XX的正整数中等概率取值, 则P(X=Y)=P(X=Y)=( ).

A. 1;

B. 1/5

C. 11/18;

D. 1/2.

Solution: C
由全概率公式

P(X=Y)=i=13P(X=i)P(Y=iX=i)=i=1313×1i=1118\begin{aligned} P(X=Y) &=\sum_{i=1}^{3} P(X=i) P(Y=i \mid X=i) \\ &=\sum_{i=1}^{3} \frac{1}{3} \times \frac{1}{i}=\frac{11}{18} \end{aligned}

  1. 已知(X,Y)(X,Y)服从以(0,1),(1,1),(1,0)(0,1),(1,1),(1,0)三点组成的三角形上的均匀分布, 则EY=EY=( ).

A. 1/2;

B. 2/3;

C. 1/3;

D. 1/6.

Solution: B
设题目所提区域为 DD, 则 SD=12S_{D}=\frac{1}{2}, 于是 f(x,y)=2,(x,y)Df(x, y)=2,(x, y) \in D. 则

EY=01ydy1y12dx=201y2dy=23\begin{aligned} E Y &=\int_{0}^{1} y d y \int_{1-y}^{1} 2 d x \\ &=2 \int_{0}^{1} y^{2} d y=\frac{2}{3} \end{aligned}

  1. 随机变量XX以0.5概率取1和-1, YY服从标准正态分布且与XX独立, 则XYXY的分布函数的间断点个数是( ).

A. 0;

B. 1;

C. 2;

D. 3.

Solution: A
先求 Z=XYZ=X Y 的分布函数, 根据全概率公式有

FZ(z)=P(XYz)=P(X=1)P(Yz)+P(X=1)P(Yz)=12Φ(z)+12(1Φ(z))=Φ(z)\begin{aligned} F_{Z}(z) &=P(X Y \leqslant z) \\ &=P(X=1) P(Y \leqslant z)+P(X=-1) P(Y \geqslant-z) \\ &=\frac{1}{2} \Phi(z)+\frac{1}{2}(1-\Phi(-z)) \\ &=\Phi(z) \end{aligned}

于是 Z=XYN(0,1)Z=X Y \sim N(0,1), 是连续性分布, 其分布函数没有间断点.

  1. 已知命题p:p:随机变量XXYY相互独立; 命题q:q: X+YX+Y的特征函数是XXYY特征函数的乘积, 则( ).

A. pp成立可推出qq成立, 但反之不行;

B. qq成立可推出pp成立, 但反之不行;

C. 它们互为充要条件;

D. 以上说法都不对.

Solution: A
pp 推出 qq 是显然的, qq 不能推 pp 的反例是: X=YCauchy(0,1)X=Y \sim \operatorname{Cauchy}(0,1), 则 X+YX+Y 的特征 函数 φX+Y(t)=e2t=φX(t)φY(t)\varphi_{X+Y}(t)=e^{-2|t|}=\varphi_{X}(t) \varphi_{Y}(t), 但 X,YX, Y 显然是不独立的.

  1. 如果总体的方差存在, 关于样本均值Xˉ\bar{X}和样本方差S2=1n1i=1n(XiXˉ)2S^2=\frac{1}{n-1}\sum_{i=1}^n(X_i-\bar{X})^2, 说法正确的是( ).

A. Xˉ\bar{X}S2S^2相互独立;

B. Xˉ\bar{X}是总体期望的无偏估计, 但S2S^2不是总体方差的无偏估计;

C. Xˉ\bar{X}不是总体期望的无偏估计, S2S^2是总体方差的无偏估计;

D. 它们分别是总体期望、方差的相合估计.

Solution: D
选项 A 仅正态分布时成立;
选项 B、C:分别是总体期望、总体方差的无偏估计;
由大数定律, 相合性是显然的.

  1. 有来自总体XX的随机样本X1,,XnX_1,\cdots,X_n, 问当XX服从何种分布时, i=1nXi\sum_{i=1}^n X_i不是充分统计量? ( )

A. XP(λ)X \sim \mathcal P(\lambda);

B. XGe(p)X \sim Ge(p);

C. XN(μ,1)X \sim N(\mu,1);

D. XU(θ,θ+1)X \sim U(\theta,\theta+1).

Solution: D
对于选项 D, 由因子分解定理有, (X(1),X(n))\left(X_{(1)}, X_{(n)}\right) 为其充分统计量.

  1. 有来自总体XN(μ,σ2)X\sim N(\mu,\sigma^2)的随机样本X1,,XnX_1,\cdots,X_n, 其中μ,σ2\mu,\sigma^2未知, 考虑假设检验问题

H0:μ=70vsH1:μ70,H_0:\mu = 70 \quad \mathrm{vs} \quad H_1:\mu \neq 70,

给定显著性水平α\alpha, 则拒绝域的形式是( ).

A. {n(xˉ70)σ>z1α}\left\{ \left| \frac{\sqrt{n}\left( \bar{x}-70 \right)}{\sigma} \right|>z_{1-\alpha} \right\};

B. {n(xˉ70)σ>z1α/2}\left\{ \left| \frac{\sqrt{n}\left( \bar{x}-70 \right)}{\sigma} \right|>z_{1-\alpha/2} \right\};

C. {n(xˉ70)s>t1α(n1)}\left\{ \left| \frac{\sqrt{n}\left( \bar{x}-70 \right)}{s} \right|>t_{1-\alpha}\left( n-1 \right) \right\};

D. {n(xˉ70)s>t1α/2(n1)}\left\{ \left| \frac{\sqrt{n}\left( \bar{x}-70 \right)}{s} \right|>t_{1-\alpha/2}\left( n-1 \right) \right\}.

Solution: D
方差 σ2\sigma^{2} 末知,故使用 t\mathrm{t}-检验,排除 A B\mathrm{A} 、 \mathrm{~B}, 又根据备择假设双侧,排除 C\mathrm{C} 选项.

二、填空题(每题4分, 共32分)

  1. 某班级有2001年出生的nn个同学, 则没有任何两个人在同一天生日的概率是________.

Solution: 365!365n(365n)!\frac{365 !}{365^{n}(365-n) !}

P=(365n)n!365n=365!365n(365n)!P=\frac{\left(\begin{array}{c} 365 \\ n \end{array}\right) n !}{365^{n}}=\frac{365 !}{365^{n}(365-n) !}

  1. 标准正态分布的特征函数是________.

Solution: exp(t22)\exp \left(-\frac{t^{2}}{2}\right)

EeitX=+12πexp(x22)exp(itx)dx=exp(t22)+12πexp((xit)22)dx=exp(t22)\begin{aligned} E e^{i t X} &=\int_{-\infty}^{+\infty} \frac{1}{\sqrt{2 \pi}} \exp \left(-\frac{x^{2}}{2}\right) \exp (i t x) d x \\ &=\exp \left(-\frac{t^{2}}{2}\right) \int_{-\infty}^{+\infty} \frac{1}{\sqrt{2 \pi}} \exp \left(-\frac{(x-i t)^{2}}{2}\right) d x \\ &=\exp \left(-\frac{t^{2}}{2}\right) \end{aligned}

  1. 甲投掷2019次硬币, 乙投掷2018次硬币, 则甲投掷出的正面次数大于乙的概率是________.

Solution: 12\frac{1}{2}
根据对称性, P(P( 甲正 >> 乙正 )=P()=P( 甲反 >> 乙反 )), 同时利用该离散型随机变量仅 能取整数, 得到

P( 甲正 > 乙正 )=P(2019 甲正 2018 乙正 )=P( 甲反 乙反 )P(\text { 甲正 }>\text { 乙正 })=P(2019-\text { 甲正 } \leqslant 2018-\text { 乙正 })=P(\text { 甲反 } \leqslant \text{乙反 })

所以 P(P( 甲正 >> 乙正 )+P()+P( 甲反 >> 乙反 )=1)=1, 因此 P(P( 甲正 >> 乙正 )=12)=\frac{1}{2}.

  1. 在单位圆上任取3点, 恰能连成锐角三角形的概率是________.

Solution: 14\frac{1}{4}
本题可以用条件概率积分做, 解析给出另一种思路:
对于每一个锐角三角形来说,取任意顶点过圆心做射线与圆周相交, 可构成(三角形对 应顶点换成射线顶点)一个新的钝角三角形, 而锐角三角形有 3 个顶点, 由此对于每一个锐 角三角形对应三个钝角三角形, 又因为构成直角三角形的概率为 0 , 于是我们可得:

{3P构成锐角三角形=P构成钝角三角形P构成锐角三角形+P构成钝角三角形=1P构成锐角三角形=14\left\{ \begin{array}{l} 3P_{\text{构成锐角三角形}}=P_{\text{构成钝角三角形}}\\ P_{\text{构成锐角三角形}}+P_{\text{构成钝角三角形}}=1\\ \end{array}\Rightarrow P_{\text{构成锐角三角形}}=\frac{1}{4} \right.

  1. 已知X1,,XnX_1,\cdots,X_n独立同服从分布函数F(x)F(x), 则T=2i=1nlnF(Xi)T=-2\sum_{i=1}^n{\ln F\left( X_i \right)}的分布是________.

Solution: χ2(2n)\chi^{2}(2 n)
Yi=F(Xi)Y_{i}=F\left(X_{i}\right) i.i.d U(0,1)\sim U(0,1), 而对于 z>0z>0, 有

P(lnYiz)=P(Yiez)=1ezP\left(-\ln Y_{i} \leqslant z\right)=P\left(Y_{i} \geqslant e^{-z}\right)=1-e^{-z}

Zi=lnYiZ_{i}=-\ln Y_{i} i.i.d Exp(1)\sim \operatorname{Exp}(1), 因此 2Ziχ2(2)2 Z_{i} \sim \chi^{2}(2), 根据卡方分布的可加性有

T=i=1n2Ziχ2(2n)T=\sum_{i=1}^{n} 2 Z_{i} \sim \chi^{2}(2 n)

  1. 已知XExp(λ)X\sim Exp(\lambda), 则λ\lambda的Fisher信息量是________.

Solution: 1λ2\frac{1}{\lambda^{2}}
XX 的密度函数是 p(x,λ)=λexp{λx},x>0p(x, \lambda)=\lambda \exp \{-\lambda x\}, x>0, 取对数有 lnp(x,λ)=lnλλx\ln p(x, \lambda)=\ln \lambda-\lambda x
所以 Fisher 信息量是

I(λ)=E(lnpλ)2=E(1λX)2=Var(X)=1λ2I(\lambda)=E\left(\frac{\partial \ln p}{\partial \lambda}\right)^{2}=E\left(\frac{1}{\lambda}-X\right)^{2}=\operatorname{Var}(X)=\frac{1}{\lambda^{2}}

  1. 有来自总体XN(μ,4)X \sim N(\mu, 4)nn个随机样本,为使得使得 μ\mu 的 95%置信区间长度不大于0.01, 则nn至少应为________.

Solution: 614656
置信区间是, μ[Xˉ1.96×2n,Xˉ+1.96×2n]\mu \in\left[\bar{X}-\frac{1.96 \times 2}{\sqrt{n}}, \bar{X}+\frac{1.96 \times 2}{\sqrt{n}}\right], 区间长度是 1.96×4n\frac{1.96 \times 4}{\sqrt{n}}.
1.96×4n0.01\frac{1.96 \times 4}{\sqrt{n}} \leqslant 0.01, 得到 n614656n \geqslant 614656.

  1. A,B,CA,B,C是三个事件, 则其中不多于两个发生的事件可表示为________.

Solution: ABC\overline{A B C}
多于两个事件发生即三个事件发生, 即 ABCA B C. 题目所提便是其对立事件.

三、解答题(90分)

1.(10分)在(0,1)(0,1)中随机取nn点, 求最远2点的距离不超过1/2的概率.

Solution:
即求 P(X(n)X(1)12)P\left(X_{(n)}-X_{(1)} \leqslant \frac{1}{2}\right), 由于 XiU(0,1)X_{i} \sim U(0,1), 于是根据标准均匀分布的极差的分 布 X(n)X(1)Beta(n1,2)X_{(n)}-X_{(1)} \sim \operatorname{Beta}(n-1,2), 有

P(X(n)X(1)12)=012n(n1)xn2(1x)dx=n+12nP\left(X_{(n)}-X_{(1)} \leqslant \frac{1}{2}\right)=\int_{0}^{\frac{1}{2}} n(n-1) x^{n-2}(1-x) d x=\frac{n+1}{2^{n}}

2.(10分)已知当X=xX=x时, YY服从(0,x)(0,x)上的均匀分布, 又XExp(1)X\sim Exp(1), 试求EYEY.

Solution:
由题意可知 YX=xU(0,x),XExp(1)Y \mid X=x \sim U(0, x), X \sim \operatorname{Exp}(1), 于是根据重期望公式

EY=E(E(YX))=E(X2)=12E Y=E(E(Y \mid X))=E\left(\frac{X}{2}\right)=\frac{1}{2}

3.(10分)有来自总体XXnn个随机样本X1,,XnX_1,\cdots,X_n, 样本均值Xˉ=1nXi\bar{X}=\frac{1}{n}X_i, 样本方差Sn2=1ni=1n(XiXˉ)2S^2_n=\frac{1}{n}\sum_{i=1}^n(X_i-\bar{X})^2, 求证: Sn2Pσ2S_{n}^{2}\xrightarrow{P}\sigma ^2.

Solution:
根据辛钦大数定律, Xˉ=1ni=1nXiPEX,1ni=1nXi2PEX2\bar{X}=\frac{1}{n} \sum_{i=1}^{n} X_{i} \stackrel{P}{\rightarrow} E X, \frac{1}{n} \sum_{i=1}^{n} X_{i}{ }^{2} \stackrel{P}{\rightarrow} E X^{2}, 所以

Sn2=1ni=1nXi2Xˉ2PEX2(EX)2=σ2S_{n}^{2}=\frac{1}{n} \sum_{i=1}^{n} X_{i}^{2}-\bar{X}^{2} \stackrel{P}{\rightarrow} E X^{2}-(E X)^{2}=\sigma^{2}

4.(10分) 设X1,,XmX_1,\cdots,X_m独立同服从N(μ,σ2)N(\mu,\sigma^2), Y1,,YnY_1,\cdots,Y_n独立同服从N(θ,σ2)N(\theta,\sigma^2), SX2,SY2S_X^2,S_Y^2分别是这两个样本对应的样本方差, 求证

Sw2=(m1)SX2+(n1)SY2σ2χ2(m+n2).S_w^2=\frac{(m-1)S_X^2+(n-1)S_Y^2}{\sigma^2} \sim \chi^2(m+n-2).

Solution:
根据 Fisher 引理知, (m1)SX2σ2χ2(m1),(n1)SY2σ2χ2(n1)\frac{(m-1) S_{X}^{2}}{\sigma^{2}} \sim \chi^{2}(m-1), \frac{(n-1) S_{Y}^{2}}{\sigma^{2}} \sim \chi^{2}(n-1), 并且二者 相互独立,再根据卡方分布的可加性可知

(m1)SX2σ2+(n1)SY2σ2χ2(m+n2)\frac{(m-1) S_{X}^{2}}{\sigma^{2}}+\frac{(n-1) S_{Y}^{2}}{\sigma^{2}} \sim \chi^{2}(m+n-2)

5.(15分) 现有甲、乙两种工艺, 挑选30名工人测试他们完成两种工艺所花费的时间, 分别记作Xi,YiX_i,Y_i. 若欲探究两种工艺所需工时的差异, 请回答:

(1) 若X,YX,Y服从正态分布, 给出检验全过程;

(2) 若不知道X,YX,Y的分布, 问应该怎么采取检验?

Solution:
(1) 为消除个人能力差异引起的误差, 本题应采取成对数据假设检验.
XiX_{i}YiY_{i} 分别表示第 ii 个工人在甲、乙工艺上的耗时,则有

Zi=XiYiN(μ,σ2)Z_{i}=X_{i}-Y_{i} \sim N\left(\mu, \sigma^{2}\right)

考虑假设检验问题 H0:μ=0H1:μ0H_{0}: \mu=0 \longleftrightarrow H_{1}: \mu \neq 0
检验统计量为 T=nZˉst(n1)T=\sqrt{n} \frac{\bar{Z}}{s} \sim t(n-1), 其中 s2s^{2}Z1,Z2,,ZnZ_{1}, Z_{2}, \cdots, Z_{n} 的样木本差.
检验的拒绝域为 W={Tt1α2(n1)}W=\left\{|T| \geqslant t_{1-\frac{\alpha}{2}}(n-1)\right\}, 其中 n=30n=30. 再计算检验统计量的观 测值, 判断是否属于拒绝域, 再作出统计推断.
(2) 若 X,YX, Y 的分布末知, 大样本场合根据中心极限定理依然可采用近似 t\mathrm{t} 检验. 在小样本场合, 可采用符号检验或 Wilcoxon 符号秩和检验.

6.(15分) 有来自总体P(θ)\mathcal P(\theta)nn个随机样本, 考虑假设检验问题:

H0:θ=2vsH1:θ=3,\mathrm{H}_0:\theta=2 \quad \mathrm{vs} \quad \mathrm{H}_1:\theta=3,

有拒绝域W={xˉ2.8}W=\{ \bar{x} \ge 2.8\}, 问

(1) n=5n=5时, 犯两类错误的概率分别是多少?

(2) nn趋于无穷时, 犯两类错误的概率会有什么变化? 请说明.

Solution: (1) 根据泊松分布的可加性, 有 nXˉP(nθ)n \bar{X} \sim P(n \theta), 再计算两类错误

α=P(Xˉ2.8θ=2)=P(5Xˉ14θ=2)=i=14+10ii!e100.1355β=P(Xˉ<2.8θ=3)=P(5Xˉ<14θ=3)=i=01315ii!e150.3632\begin{aligned} &\alpha=P(\bar{X} \geqslant 2.8 \mid \theta=2)=P(5 \bar{X} \geqslant 14 \mid \theta=2)=\sum_{i=14}^{+\infty} \frac{10^{i}}{i !} e^{-10} \approx 0.1355 \\ &\beta=P(\bar{X}<2.8 \mid \theta=3)=P(5 \bar{X}<14 \mid \theta=3)=\sum_{i=0}^{13} \frac{15^{i}}{i !} e^{-15} \approx 0.3632 \end{aligned}

(2) 对于犯第一类错误的概率, 利用切比雪夫不等式, 有

α=P(Xˉ2.8θ=2)=P(nXˉ2.8nθ=2)=P(nXˉ2n0.8nθ=2)P(nXˉ2n0.8nθ=2)2n(0.8n)20\begin{aligned} \alpha &=P(\bar{X} \geqslant 2.8 \mid \theta=2) \\ &=P(n \bar{X} \geqslant 2.8 n \mid \theta=2) \\ &=P(n \bar{X}-2 n \geqslant 0.8 n \mid \theta=2) \leqslant P(|n \bar{X}-2 n| \geqslant 0.8 n \mid \theta=2) \\ & \leqslant \frac{2 n}{(0.8 n)^{2}} \longrightarrow 0 \end{aligned}

对于犯第二类错误的概率, 利用中心极限定理, 有

β=P(Xˉ<2.8θ=3)=P(nXˉ<2.8nθ=3)=P(nXˉ3n3n<0.2n3nθ=3)Φ(0.2n3n)0\begin{aligned} \beta &=P(\bar{X}<2.8 \mid \theta=3) \\ &=P(n \bar{X}<2.8 n \mid \theta=3) \\ &=P\left(\frac{n \bar{X}-3 n}{\sqrt{3 n}}<\frac{-0.2 n}{\sqrt{3 n}} \mid \theta=3\right) \sim \Phi\left(\frac{-0.2 n}{\sqrt{3 n}}\right) \rightarrow 0 \end{aligned}

7.(20分) 有来均匀分布总体U(0,θ)U(0,\theta)nn个随机样本, 求θ\theta

(1) 最大似然估计θ^\hat{\theta}, 问其是否无偏, 并在cθ^c\hat{\theta}形式的估计量中找出使得均方误差最小的估计;

(2) 基于θ^\hat{\theta}给出θ\theta1α1-\alpha最短置信区间.

Solution: (1) 似然函数为 L(θ)=1θnI{X(n)θ}L(\theta)=\frac{1}{\theta^{n}} I_{\left\{X_{(n)} \leqslant \theta\right\}}, 它是 θ\theta[X(n),+)\left[X_{(n)},+\infty\right) 上的单调递减函数, 因此 θ\theta 的极大似然估计是 θ^MLE=X(n)\hat{\theta}_{M L E}=X_{(n)}, 同时容易求得 X(n)θBeta(n,1)\frac{X_{(n)}}{\theta} \sim \operatorname{Beta}(n, 1).
所以 EX(n)=nn+1θθE X_{(n)}=\frac{n}{n+1} \theta \neq \theta, 则它不是无偏估计. 再考虑均方误差准则,

MSE(cθ^)=Var(cθ^)+(E(cθ^θ))2=c2Var(X(n))+(ncn1n+1θ)2=nc2(n+1)2(n+2)θ2+(ncn1)2(n+1)2θ2 令 MSE(cθ^)c=2cnθ2(n+1)2(n+2)+2n(ncn1)θ2(n+1)2=0,\begin{gathered} M S E(c \hat{\theta})=\operatorname{Var}(c \hat{\theta})+(E(c \hat{\theta}-\theta))^{2} \\ =c^{2} \operatorname{Var}\left(X_{(n)}\right)+\left(\frac{n c-n-1}{n+1} \theta\right)^{2} \\ =\frac{n c^{2}}{(n+1)^{2}(n+2)} \theta^{2}+\frac{(n c-n-1)^{2}}{(n+1)^{2}} \theta^{2} \\ \text { 令 } \frac{\partial M S E(c \hat{\theta})}{\partial c}=\frac{2 c n \theta^{2}}{(n+1)^{2}(n+2)}+\frac{2 n(n c-n-1) \theta^{2}}{(n+1)^{2}}=0, \end{gathered}

解得 c=n+2n+1c=\frac{n+2}{n+1}.
(2)以 X(n)θBeta(n,1)\frac{X_{(n)}}{\theta} \sim \operatorname{Beta}(n, 1) 为枢轴量, 令 0c<d10 \leqslant c<d \leqslant 1 满足

1α=P(c<X(n)θ<d)=cdnxn1dx=dncn1-\alpha=P\left(c<\frac{X_{(n)}}{\theta}<d\right)=\int_{c}^{d} n x^{n-1} d x=d^{n}-c^{n}

反解得到置信区间 [X(n)d,X(n)c]\left[\frac{X_{(n)}}{d}, \frac{X_{(n)}}{c}\right], 则我们需在 dncn=1αd^{n}-c^{n}=1-\alpha 条件下求出使得 L(c,d)=1c1dL(c, d)=\frac{1}{c}-\frac{1}{d} 取到最小值的点.
用消元法, dncn=1αd^{n}-c^{n}=1-\alphac=(dn+α1)1nc=\left(d^{n}+\alpha-1\right)^{\frac{1}{n}}, 则 L(c,d)=1c1dL(c, d)=\frac{1}{c}-\frac{1}{d} 可化为关 于 dd 的一元函数, 即 L(d)=(dn+α1)1nd1L(d)=\left(d^{n}+\alpha-1\right)^{\frac{1}{n}}-d^{-1}.
自变量的取值范围为 0(dn+α1)1n<d10 \leqslant\left(d^{n}+\alpha-1\right)^{\frac{1}{n}}<d \leqslant 1(1α)1nd1(1-\alpha)^{\frac{1}{n}} \leqslant d \leqslant 1.

L(d)=dn1(dn+α1)n+1n+1d2=d2[1dn+1(dn+α1)n+1n]=d2[1(dc)n+1]<0\begin{aligned} L^{\prime}(d) &=-d^{n-1} \cdot\left(d^{n}+\alpha-1\right)^{-\frac{n+1}{n}}+\frac{1}{d^{2}} \\ &=d^{-2}\left[1-\frac{d^{n+1}}{\left(d^{n}+\alpha-1\right)^{\frac{n+1}{n}}}\right]=d^{-2}\left[1-\left(\frac{d}{c}\right)^{n+1}\right]<0 \end{aligned}

因此 L(d)L(d) 是单调递减函数, 则 d=1d=1 时其取最小值, 此时 c=α1nc=\alpha^{\frac{1}{n}}.
所以由该枢轴量构造的最短置信区间为 [X(n),X(n)α1n]\left[X_{(n)}, \frac{X_{(n)}}{\alpha^{\frac{1}{n}}}\right].