北京师范大学-432统计学-2021年

一、选择题(每题3分, 总计24分)

  1. A\mathrm{A}B\mathrm{B} 相互独立, 下列选项正确的是()
    A. P(ABˉ)=P(A)P(Bˉ)P(A \bar{B})=P(A) P(\bar{B}) \quad
    B. P(ABˉ)>P(A)P(Bˉ)P(A \bar{B})>P(A) P(\bar{B})
    C. P(AB)<P(A)P(B)P(\mathrm{A} \overline{\mathrm{B}})<\mathrm{P}(\mathrm{A}) \mathrm{P}(\overline{\mathrm{B}})
    D. 以上都不正确

Solution: A. A,BA,B 独立意味着 A,BˉA,\bar{B} 也独立.

  1. 某校学生的成绩服从正态分布 XN(μ,36)X \sim N(\mu, 36), 在显著性水平 α=0.05\alpha=0.05 的情况下, 则要使估计 μ\mu 的测量误差控制在 ±1\pm1 之内, 需要多少样本量()
    A. 139
    B. 2238
    C. 48
    D. 934

Solution: A. XˉN(μ,36n)\bar{X}\sim N(\mu,\frac{36}{n}), 令 P(Xˉμ1)=0.95P(|\bar{X}-\mu|\le 1) = 0.95, 化简得

P(Xˉμ6/nn6)=0.95,P\left( \frac{|\bar{X}-\mu |}{6/\sqrt{n}}\le \frac{\sqrt{n}}{6} \right) =0.95,

这也意味着 n6=u0.025=1.96\frac{\sqrt{n}}{6}=u_{0.025}=1.96, 解得 n=621.962=138.298n=6^2\cdot 1.96^2=138.298.

  1. 下列关于直方图和箱线图不正确的是()
    A. 直方图柱形面积之和可以大于 1
    B. 箱线图可以展示更多数据
    C. 直方图分组时需要依据总体数量来分组
    D. 在绘制箱线图时, 需要的统计量有最小值、最大值、平均数、 x0.25x_{0.25} 分位数和 x0.75x_{0.75} 分位数

Solution: D. 还应该有中位数.

  1. 对于随机变量 XXYY, XN(0,1)X \sim \mathrm{N}(0,1), YN(0,1)Y \sim \mathrm{N}(0,1), 那么 X+YX+Y 的方差为 ()(\quad)
    A. 等于 2
    B. 大于 2
    C. 小于2
    D. 不确定

Solution: D. 不知道 Cov(X,Y)Cov(X,Y), 无法确定.

  1. 下列说法错误的是( )
    A. 两类错误之和可以大于 1
    B. 假设检验与置信区间没有联系
    C. 增大样本量可以同时提高置信度和精度
    D. 独立一定不相关

Solution: B. 假设检验的接受域与置信区间有对偶关系.

  1. 已知 XXYY 均服从伯努利分布, b(1,p)b(1, p), 且 Cov(X,Y)=0\operatorname{Cov}(X,Y)=0, 则 ( )
    A. XXYY 独立
    B. XXYY 不独立
    C. X,YX, Y 的方差等于 00
    D. XXYY 相关

Solution: A. 两值随机变量不相关等价于独立(茆书原题).

  1. 关于置信区间, 不正确的是( )
    A. 置信区间端点一点是统计量
    B. 置信区间中点一定是无偏估计量
    C. 置信区间可由反转假设检验接受域得到
    D. 置信区间常由枢轴量法构造

Solution: B. 置信区间形式为 T1θT2T_1\le \theta \le T_2, 其中 T1T_1, T2T_2 必须是统计量不然无法计算 P(T1θT2)P(T_1\le \theta \le T_2). 此外, 置信区间中点不一定是无偏估计, 只有很特殊时, 如用正态或者 tt 分布此类对称分布构造置信区间时, 才有中点是无偏估计.

  1. XN(μ,σ2)X\sim N(\mu,\sigma^2), 则当 σ\sigma 增大时, 概率 P(Xμ<σ)P(|X-\mu|<\sigma) 逐渐( )
    A. 增大
    B. 减小
    C. 不变
    D. 无法确定

Solution: C. P(Xμ<σ)=P(Xμσ<1)=Φ(1)Φ(1)P(|X-\mu|<\sigma)=P(\frac{|X-\mu|}{\sigma}<1)=\Phi(1)-\Phi(-1) 是定值.

二、计算分析题(共126分)

  1. (16分) 一个不透明的箱子里有 aa 个白球和 bb 个红球, kk 个人不放回地抽球, 且 k<a+bk<a+b, 求第 ii 个人抽到红球的概率.

【提示】: 类似茆书原题1.5.26, 1.5.27, 用数学归纳法. 这里我们用另外一种条件期望法做.

Solution: 设 XiX_{i} 表示第 ii 个人抽球时盒中红球数量, 很显然

X1=b,P(i个人抽到红球)=E(Xia+b(i1))=1a+b(i1)E(Xi),X_1 = b,\quad P(\text{第} i \text{个人抽到红球}) = E\left(\frac{X_i}{a+b-(i-1)}\right) = \frac{1}{a+b-(i-1)}\cdot E(X_i),

如果 Xi1=xX_{i-1}=x 已知, 则有

P(Xi=Xi11Xi1)=Xi1a+b(i2),P(Xi=Xi1Xi1)=1Xi1a+b(i2),P(X_i=X_{i-1}-1|X_{i-1})=\frac{X_{i-1}}{a+b-\left( i-2 \right)},P(X_i=X_{i-1}|X_{i-1})=1-\frac{X_{i-1}}{a+b-\left( i-2 \right)},

求得条件期望为

E(XiXi1)=Xi1(11a+b(i2)),E\left( X_i\mid X_{i-1} \right) =X_{i-1}\left( 1-\frac{1}{a+b-\left( i-2 \right)} \right) ,

用重期望公式得

E(Xi)=E(Xi1)(a+b(i1)a+b(i2)),E\left( X_i \right) =E\left( X_{i-1} \right) \left( \frac{a+b-\left( i-1 \right)}{a+b-\left( i-2 \right)} \right) ,

用递推式得到

E(Xi)=E(X1)a+b1a+ba+b2a+b1a+b(i1)a+b(i2)=a+b(i1)a+bb,E\left( X_i \right) =E\left( X_1 \right) \cdot \frac{a+b-1}{a+b}\cdot \frac{a+b-2}{a+b-1}\cdots \frac{a+b-\left( i-1 \right)}{a+b-\left( i-2 \right)}=\frac{a+b-\left( i-1 \right)}{a+b}b,

代入得

P(i个人抽到红球)=E(Xia+b(i1))=1a+b(i1)E(Xi)=ba+b.P(\text{第} i \text{个人抽到红球}) = E\left(\frac{X_i}{a+b-(i-1)}\right) = \frac{1}{a+b-(i-1)}\cdot E(X_i) = \frac{b}{a+b}.


  1. (16分) 两个人打乒乓球, 甲每局获胜概率为 p>0.5p>0.5, 问:
    (1)(8分) 五局三胜和三局两胜哪个对甲有利?
    (2)(8分) 选择五局三胜, 甲获胜的实际局数的概率分布.

Solution: (1) 设 Xb(3,p)X\sim b(3,p), Yb(5,p)Y\sim b(5,p), 则有

P(X2)=p3+3p2(1p),P(Y3)=p5+5p4(1p)+10p3(1p)2,\begin{aligned} &P\left( X\ge 2 \right) =p^3+3p^2\left( 1-p \right) ,\\ &P\left( Y\ge 3 \right) =p^5+5p^4\left( 1-p \right) +10p^3\left( 1-p \right) ^2, \end{aligned}

构造函数

g(p)=P(Y3)P(Y2)=3p2(2p35p2+4p1),g\left( p \right) =P\left( Y\ge 3 \right) -P\left( Y\ge 2 \right) =3p^2\left( 2p^3-5p^2+4p-1 \right) ,

考虑 h(p)=2p35p2+4p1h\left( p \right) =2p^3-5p^2+4p-1, 显然有 h(1/2)=h(1)=0h(1/2)=h(1)=0, 求导得

h(p)=6p210p+4=2(3p25p+2)=2(3p2)(p1),h'\left( p \right) =6p^2-10p+4=2\left( 3p^2-5p+2 \right) =2\left( 3p-2 \right) \left( p-1 \right) ,

看出 h(p)h(p)(1/2,2/3)(1/2,2/3) 严格递增, 但在 (2/3,1)(2/3,1) 严格递减, 而 h(1/2)=h(1)=0h(1/2)=h(1)=0, 因此对 p(1/2,1)p\in(1/2,1), 有 h(p)>0h(p) > 0, 即 P(Y3)>P(X2).P(Y\ge 3)>P(X\ge2).

(2) 设甲实际获胜时的局数是 Z{3,4,5}Z \in \{3,4,5\}, 有

P(Z=3)=p3,P(Z=4)=C31(1p)p3,P(Z=5)=C42(1p)2p3.P(Z=3) = p^3,\quad P(Z=4) = C_3^1(1-p)p^3,\quad P(Z=5)=C_4^2(1-p)^2p^3.

  1. (16分) 设 X1,,XnX_1,\cdots,X_n 是i.i.d.的 N(μ,σ2)N(\mu,\sigma^2), 定义

T=12n(n1)i=1nj=1n(XiXj)2,T=\frac{1}{2n\left( n-1 \right)}\sum_{i=1}^n{\sum_{j=1}^n{\left( X_i-X_j \right) ^2}},

TT 是否可作为离散程度的衡量标准.

Solution: 可以, 因为 TT 就是样本方差 S2S^2 的恒等变形.

i=1nj=1n(XiXj)2=i=1nj=1n(Xi2+Xj22XiXj)=i=1nj=1n(Xi2+Xj22XiXj)=i=1n(nXi2+j=1nXj22nXiXˉ)=ni=1nXi2+nj=1nXj22n2Xˉ2=2n(i=1nXi2nXˉ2),\begin{aligned} \sum_{i=1}^n{\sum_{j=1}^n{\left( X_i-X_j \right) ^2}}&=\sum_{i=1}^n{\sum_{j=1}^n{\left( X_{i}^{2}+X_{j}^{2}-2X_iX_j \right)}}\\ &=\sum_{i=1}^n{\sum_{j=1}^n{\left( X_{i}^{2}+X_{j}^{2}-2X_iX_j \right)}}\\ &=\sum_{i=1}^n{\left( nX_{i}^{2}+\sum_{j=1}^n{X_{j}^{2}}-2nX_i\bar{X} \right)}\\ &=n\sum_{i=1}^n{X_{i}^{2}}+n\sum_{j=1}^n{X_{j}^{2}}-2n^2\bar{X}^2\\ &=2n\left( \sum_{i=1}^n{X_{i}^{2}-n\bar{X}^2} \right) ,\\ \end{aligned}

因此看出

T=i=1nXi2nXˉ2n1=1n1i=1n(XiXˉ)2=S2.T=\frac{\sum_{i=1}^n{X_{i}^{2}-n\bar{X}^2}}{n-1}=\frac{1}{n-1}\sum_{i=1}^n{\left( X_i-\bar{X} \right) ^2}=S^2.

  1. (16分) 设某电子产品的寿命服从如下分布:

F(x;α,β)={1exαβ,xα0,x<αF(x ; \alpha, \beta)= \begin{cases}1-e^{-\frac{x-\alpha}{\beta}}, & x \geq \alpha \\ 0, & x<\alpha\end{cases}

现测得 nn 个该电子产品的寿命为 X1,X2,,XnX_1, X_2, \cdots, X_n, 试求末知参数 α,β\alpha, \beta 的矩估计和极大似然估计.

Solution: 总体服从双参数指数分布 Exp(α,1β)\operatorname{Exp}\left(\alpha, \frac{1}{\beta}\right) ,其中 α\alpha 是位置参数, β\beta 是尺度参数, 所 以 EX=α+β,Var(X)=β2E X=\alpha+\beta, \operatorname{Var}(X)=\beta^2 ,所以令 {xˉ=α+βs2=β\left\{\begin{array}{l}\bar{x}=\alpha+\beta \\ s^2=\beta\end{array}\right. ,解得矩估计是

{α^M=xˉs,β^M=s,\left\{\begin{array}{l} \hat{\alpha}_M=\bar{x}-s, \\ \hat{\beta}_M=s, \end{array}\right.

样本的似然函数是

L(α,β)=1βnexp{i=1n(xiα)β}I{x(1)α}=1βnenxˉβeαβI{x(1)α},\begin{aligned} L(\alpha, \beta) &=\frac{1}{\beta^n} \exp \left\{-\frac{\sum_{i=1}^n\left(x_i-\alpha\right)}{\beta}\right\} \mathbf{I}_{\left\{x_{(1)} \geqslant \alpha\right\}} \\ &=\frac{1}{\beta^n} e^{-\frac{n \bar{x}}{\beta}} e^{\frac{\alpha}{\beta}} \mathbf{I}_{\left\{x_{(1)} \geqslant \alpha\right\}}, \end{aligned}

显然它是关于 α\alpha(,x(1)]\left(-\infty, x_{(1)}\right] 上的增函数,于是 α^L=x(1)\hat{\alpha}_L=x_{(1)}α\alpha 的极大似然估计. 再求 β\beta 的极大似然估计,考虑将对数似然函数的偏导置 零, 即

lnL(α,β)β=nβ+i=1n(xiα)β2=0,\frac{\partial \ln L(\alpha, \beta)}{\partial \beta}=-\frac{n}{\beta}+\frac{\sum_{i=1}^n\left(x_i-\alpha\right)}{\beta^2}=0,

解得 β=1ni=1n(xiα)\beta=\frac{1}{n} \sum_{i=1}^n\left(x_i-\alpha\right) ,代入 α^L=x(1)\hat{\alpha}_L=x_{(1)} , 得 β^L=xˉx(1)\hat{\beta}_L=\bar{x}-x_{(1)}β\beta 的极大似然估计.

  1. (16分) 设 X1,,XnX_1,\cdots,X_n 是i.i.d.的 N(μ,σ2)N(\mu,\sigma^2), 其中 μ\mu 已知, σ2\sigma^2 未知.

(1)(8分) 试用两种方法给出 σ2\sigma^2 的置信区间.

(2)(8分) 给出 σ4\sigma^4 的置信区间.

Solution: (1) 可以分别利用

(n1)s2σ2χ2(n1),i=1n(xiμ)2σ2χ2(n)\frac{\left( n-1 \right) s^2}{\sigma ^2}\sim \chi ^2\left( n-1 \right) ,\quad \frac{\sum_{i=1}^n{\left( x_i-\mu \right) ^2}}{\sigma ^2}\sim \chi ^2\left( n \right)

来构造区间估计, 它们分别是

[(n1)s2χα22(n1),(n1)s2χ1α22(n1)],[i=1n(xiμ)2χα22(n),i=1n(xiμ)2χ1α22(n)].\left[ \frac{\left( n-1 \right) s^2}{\chi _{\frac{\alpha}{2}}^{2}\left( n-1 \right)},\frac{\left( n-1 \right) s^2}{\chi _{1-\frac{\alpha}{2}}^{2}\left( n-1 \right)} \right] ,\quad \left[ \frac{\sum_{i=1}^n{\left( x_i-\mu \right) ^2}}{\chi _{\frac{\alpha}{2}}^{2}\left( n \right)},\frac{\sum_{i=1}^n{\left( x_i-\mu \right) ^2}}{\chi _{1-\frac{\alpha}{2}}^{2}\left( n \right)} \right] .

(2) 由于 {aσ2b}={a2σ4b2}\left\{ a\le \sigma ^2\le b \right\} =\left\{ a^2\le \sigma ^4\le b^2 \right\}, 直接得到 σ4\sigma^4 的区间是

[[i=1n(xiμ)2]2χα24(n),[i=1n(xiμ)2]2χ1α24(n)].\left[ \frac{\left[ \sum_{i=1}^n{\left( x_i-\mu \right) ^2} \right] ^2}{\chi _{\frac{\alpha}{2}}^{4}\left( n \right)},\frac{\left[ \sum_{i=1}^n{\left( x_i-\mu \right) ^2} \right] ^2}{\chi _{1-\frac{\alpha}{2}}^{4}\left( n \right)} \right] .

  1. (16分) 从 N(μ,1)N(\mu,1) 总体抽取 100 个随机样本 x1,,x100x_1,\cdots,x_{100}, 为讨论假设检验问题

H0:μ=0vsH1:μ0H_0:\mu = 0 \quad \mathrm{vs} \quad H_1:\mu \neq 0

构造拒绝域 W={xˉ<0.001}W=\{|\bar{x}|<0.001\}.

(1)(8分) 已知 Φ(0.01)<0.505\Phi(0.01)<0.505, 证明犯第一类错误概率 α<0.01\alpha <0.01;
(2)(8分) WW 是一个合适的拒绝域吗? 为什么?

Solution: (1) 样本均值 xˉN(μ,1100)\bar{x}\sim N\left( \mu ,\frac{1}{100} \right), 故有

α=Pμ=0(Xˉ<0.001)=Pμ=0(10Xˉ<0.01)=2Φ(0.01)1<0.01.\alpha =P_{\mu =0}\left( \left| \bar{X} \right|<0.001 \right) =P_{\mu =0}\left( \left| 10\bar{X} \right|<0.01 \right) =2\Phi \left( 0.01 \right) -1<0.01.

(2) 不是, xˉ<0.001|\bar{x}|<0.001 实际正反应了 μ|\mu| 比较小, 接近于 0, 正确的拒绝域形式应是形如 {xˉ>c}\{|\bar{x}|>c\}, 其中 cc 可由显著性水平确定.

  1. (15分) 已知 Y1,,YnY_1,\cdots,Y_n 是独立随机变量, 其中 YiN(a+bXi,σ2)Y_i\sim N(a+bX_i,\sigma^2), 其中 X1,,XnX_1,\cdots,X_n 是给定常数, 满足 Xi=0\sum X_i=0, Xi2>0\sum X_i^2 >0, 试给出

T1=Yˉ,T2=i=1nXiYii=1nXi2T_1 = \bar{Y}, \quad T_2 = \frac{\sum_{i=1}^nX_iY_i}{\sum_{i=1}^n X_i^2}

的分布.

Solution: 它们都是正态的线性组合, 故都是正态分布, 只需求出它们的期望方差即可, 有

E(T1)=1ni=1nE(Yi)=a+bXˉ=a,Var(T1)=1n2i=1nVar(Yi)=σ2n,E\left( T_1 \right) =\frac{1}{n}\sum_{i=1}^n{E\left( Y_i \right)}=a+b\bar{X}=a,\quad Var\left( T_1 \right) =\frac{1}{n^2}\sum_{i=1}^n{Var\left( Y_i \right)}=\frac{\sigma ^2}{n},

因此 T1N(a,σ2n)T_1 \sim N(a,\frac{\sigma^2}{n}). 再看 T2T_2, 有

E(T2)=i=1nXi(a+bXi)i=1nXi2=ai=1nXi+bi=1nXi2i=1nXi2=bE\left( T_2 \right) =\frac{\sum_{i=1}^n{X_i\left( a+bX_i \right)}}{\sum_{i=1}^n{X_{i}^{2}}}=\frac{a\sum_{i=1}^n{X_i}+b\sum_{i=1}^n{X_{i}^{2}}}{\sum_{i=1}^n{X_{i}^{2}}}=b

以及

Var(T2)=i=1nXi2σ2(i=1nXi2)2=σ2i=1nXi2,Var\left( T_2 \right) =\frac{\sum_{i=1}^n{X_{i}^{2}\sigma ^2}}{\left( \sum_{i=1}^n{X_{i}^{2}} \right) ^2}=\frac{\sigma ^2}{\sum_{i=1}^n{X_{i}^{2}}},

因此 T2N(b,σ2i=1nXi2)T_2\sim N\left( b,\frac{\sigma ^2}{\sum_{i=1}^n{X_{i}^{2}}} \right).

  1. (15分) 检验某产品的次品率 pp, 假设检验问题为:

H0:p=0.1vsH1:p=0.3H_0: p=0.1 \quad \mathrm{vs}\quad H_1:p=0.3

检验方法为: 先抽 2 个产品, 都是次品则拒绝原假设, 否则再抽 1 个, 如果第3个是次品, 也拒绝原假设(有放回). 求犯第二类错误的概率.

Solution: 设 Xk=1X_k=1 表示第 kk 个是次品. 犯第二类错误的概率是

β(0.3)=Pp=0.3(X1=0,X2=0,X3=0)+Pp=0.3(X1=1,X2=0,X3=0)+Pp=0.3(X1=0,X2=1,X3=0)=0.73+2×0.3×0.72=0.637.\begin{aligned} \beta \left( 0.3 \right) =&P_{p=0.3}\left( X_1=0,X_2=0,X_3=0 \right) +P_{p=0.3}\left( X_1=1,X_2=0,X_3=0 \right)\\ &+P_{p=0.3}\left( X_1=0,X_2=1,X_3=0 \right) =0.7^3+2\times 0.3\times 0.7^2=0.637.\\ \end{aligned}