北京师范大学-432统计学-2019年

一、选择题(每题5分, 总计30分)

  1. 在某公司进行的英语水平测试中,新员工的平均得分是80分,标准差是 5 分,中位数是85分,则新员工得分的分布形状是 ( ).
    A. 对称的
    B. 左偏的
    C. 右偏的
    D. 无法确定

Solution: B. 平均值小于中位数, 说明是左偏的.

  1. 从 0-9 选一个数字, 检查学号尾号是此数的学生, 这种抽样方法是 ( )
    A. 简单随机抽样
    B. 系统抽样
    C. 方便抽样
    D. 整群抽样

Solution: B.

  1. 根据样本已经得到了 θ\theta95%95\% 置信区间 (θ^1,θ^2)(\hat{\theta}_1,\hat{\theta}_2), 正确的是( ).
    A. 该区间以 95%95 \% 的概率包含真值
    B. 参数 θ\theta 在该区间内的概率为 95%95 \%
    C. 该区间有 95%95 \% 的可能性包含参数 θ\theta
    D. 参数 θ\theta 或者在 (θ^1,θ^2)(\hat{\theta}_1,\hat{\theta}_2) 内, 或者不在 (θ^1,θ^2)(\hat{\theta}_1,\hat{\theta}_2)

Solution: D. 此时已经根据样本值得到了一个固定的置信区间, 参数要么在这个固定的区间中, 要么不在其中. 注意如果题干改为抽样之前, 则由于样本还未获得, 两个区间端点都是随机的, 随机区间 (θ^1,θ^2)(\hat{\theta}_1,\hat{\theta}_2) 覆盖参数真值 θ\theta 的概率是 95%95\%. 但现在, 区间已定, 参数也是个常数, 要么在里面, 要么不在里面.

  1. 线性回归分析的说法, 正确的是 ( )
    A. 选择解释变量时, 残差平方和越小越好
    B. 线性检验是指对系数的线性关系检验
    C. 一元线性回归中, tt 检验与 FF 检验等价
    D. 残差与误差有相同的分布, 可用残差估计误差

Solution: C. 变量越多, 残差平方和一定越小, 而选择解释变量时, 以变量对应系数是否能显著为准; 线性检验是对变量之间线性关系的检验; 一元回归时单个系数的显著性 tt 检验与方程整体的 FF 检验一致, 注意 t2(1,n1)=F(1,n1)t^2(1,n-1)=F(1,n-1); 误差 εi=yiabxiN(0,σ2)\varepsilon_i = y_i - a - bx_i \sim N(0,\sigma^2), 残差指 ε^i=yiy^i=yia^b^xi\hat{\varepsilon}_i=y_i-\hat{y}_i=y_i-\hat{a}-\hat{b}x_i, 它们分布不相同.

  1. X,YX,Y 各自服从: XN(μ1,σ12),YN(μ2,σ22)X \sim N\left(\mu_1, \sigma_1^2\right), Y \sim N\left(\mu_2, \sigma_2^2\right), 当 P(Xμ1<1)>P(Yμ2<1)P\left( |X-\mu _1|<1 \right) >P\left( |Y-\mu _2|<1 \right) 时, 比较 ( ).
    A. μ1>μ2\mu_1>\mu_2
    B. μ1<μ2\mu_1<\mu_2
    C. σ1>σ2\sigma_1>\sigma_2
    D. σ1<σ2\sigma_1<\sigma_2

Solution: D. 显然不等式条件无法分辨 μ1\mu_1μ2\mu_2. 而我们知道

2Φ(1σ1)1=P(Xμ1<1)>P(Yμ2<1)=2(1σ2)1,2\Phi \left( \frac{1}{\sigma _1} \right) -1=P\left( |X-\mu _1|<1 \right) >P\left( |Y-\mu _2|<1 \right) =2\left( \frac{1}{\sigma _2} \right) -1,

这说明 σ1<σ2\sigma_1<\sigma_2.

  1. X1,X2,,XnX_1, X_2, \ldots, X_n 为来自正态分布 N(μ,σ2)N\left(\mu, \sigma^2\right) 的样本,其中 σ2\sigma^2 为已知, Xˉ\bar{X} 为 样本均值. 考虑如下假设检验: H0:μμ0H_0: \mu \leq \mu_0 v.s. H1H_1 : μ>μ0\mu>\mu_0, 标准正态分布的 95%95 \% 分位数为 1.6451.645, 在显著性水平为 0.050.05 时, 拒绝 H0H_0 等价于 (\quad).
    A. 单侧区间 (Xˉ+1.645σn,+)\left(\bar{X}+1.645 \frac{\sigma}{\sqrt{n}},+\infty\right) 不包含 μ0\mu_0
    B. 单侧区间 (,Xˉ1.645σn)\left(-\infty, \bar{X}-1.645 \frac{\sigma}{\sqrt{n}}\right) 包含 μ0\mu_0
    C. 单侧区间 (,Xˉ1.645σn)\left(-\infty, \bar{X}-1.645 \frac{\sigma}{\sqrt{n}}\right) 不包含 μ0\mu_0
    D. 单侧区间 (Xˉ+1.645σn,+)\left(\bar{X}+1.645 \frac{\sigma}{\sqrt{n}},+\infty\right) 包含 μ0\mu_0

Solution: B. 依题意, 可知这是一个正态总体均值的右单侧检验, 拒绝域为

W={Xˉμ0σ/n>1.645}W=\left\{\frac{\bar{X}-\mu_0}{\sigma / \sqrt{n}}>1.645\right\}

这等价于 μ0<Xˉ1.645σn\mu_0<\bar{X}-1.645 \frac{\sigma}{\sqrt{n}}, 所以选项B 正确.

二、分析计算题(共120分)

  1. (12分) 10 份外卖订单完成时间为 23.34.45.39.822.87.115.521.526.227.023.3 、 4.4 、 5.3 、 9.8 、 22.8 、 7.1 、 15.5 、 21.5 、 26.2 、 27.0, (单位 min),要求用至少两种统计指标和统计图进行分析报告.

Solution: 统计图: 可用茎叶图 , 箱线图, 直方图.
统计指标: 平均数, 中位数 , 众数, 方差, 极差等.

  1. (15分) 将 A,B,C\mathrm{A}, \mathrm{B}, \mathrm{C} 三个字母之一输入信道, 输出原字母的概率为 α\alpha, 而输出其它任一 字母的概率都是 (1α)/2(1-\alpha) / 2. 现将字母串 AAA\mathrm{AAA} , BBB, CCC 之一输入信道, 输入 AAA, BBB, CCC 的概率分别为 0.4,0.3,0.30.4,0.3,0.3. 已知输出为 ABC\mathrm{ABC}, 问输 入的是 AAA\mathrm{AAA} 概率是多少? (假设信道传输 每个字母的工作是独立的)

Solution: 根据贝叶斯公式有

P(IN:AAAOUT:ABC)=P(OUT:ABCIN:AAA)P(IN:AAA)P(OUT:ABC)P(\mathrm{IN}: A A A \mid \mathrm{OUT}: A B C)=\frac{P(\mathrm{OUT}: A B C \mid \mathrm{IN}: A A A) P(\mathrm{IN}: A A A)}{P(\mathrm{OUT}: A B C)}

其中 P(IN:AAA)=0.4,P(OUT:ABCIN:AAA)=α(1α2)2P(\operatorname{IN}: A A A)=0.4, P(\mathrm{OUT}: A B C \mid \operatorname{IN}: A A A)=\alpha\left(\frac{1-\alpha}{2}\right)^2, 而

P(OUT:ABC)=x{AAA,BBB,CCC}P(OUT:ABCIN:x)P(IN:x)=[0.4α(1α2)2+0.3α(1α2)2+0.3α(1α2)2]=(1α2)2α\begin{aligned} P(\mathrm{OUT}: A B C) &=\sum_{x \in\{A A A, B B B, C C C\}} P(\mathrm{OUT}: A B C \mid \mathrm{IN}: x) P(\operatorname{IN}: x) \\ &=\left[0.4 \alpha\left(\frac{1-\alpha}{2}\right)^2+0.3 \alpha\left(\frac{1-\alpha}{2}\right)^2+0.3 \alpha\left(\frac{1-\alpha}{2}\right)^2\right] \\ &=\left(\frac{1-\alpha}{2}\right)^2 \alpha \end{aligned}

因此 P(IN:AAAOUT:ABC)=0.4P(\mathrm{IN}: A A A \mid \mathrm{OUT}: A B C)=0.4.

  1. (15分) 概率为1的事件的积事件一定是概率1事件吗? 说明你的理由.

Solution: 是的. 设A1,A2,A_1,A_2,\cdots都是概率1事件, 则它们对立事件都是0概率事件, 则有

P(i=1Ai)=1P(i=1Aˉi)1i=1P(Aˉi)=1,P\left( \bigcap_{i=1}^{\infty}{A_i} \right) =1-P\left( \bigcup_{i=1}^{\infty}{\bar{A}_i} \right) \ge 1-\sum_{i=1}^{\infty}{P\left( \bar{A}_i \right)}=1,

其中用到了德摩根公式和次可加性.

  1. (16分) 某天体专家取多次测量平均值作为实际估计值.假设各测量值 是独立同分布的随机变量, 已知测量方差为 44, 若想以 95%95 \% 的把握使误差控制在 ±0.5\pm 0.5 之内, 问: 至少需要测量多少次?

Solution: 以 Xˉ\bar{X} 估计 μ\mu, 假设是正态分布,

XˉAN(μ,4n),\bar{X}\sim AN\left( \mu ,\frac{4}{n} \right),

根据题设要求

0.95=P(Xˉμ0.5)=P(n4Xˉμ0.5n4)=2Φ(0.5n4)1,0.95=P\left( \left| \bar{X}-\mu \right|\le 0.5 \right) =P\left( \sqrt{\frac{n}{4}}\left| \bar{X}-\mu \right|\le 0.5\sqrt{\frac{n}{4}} \right) =2\Phi \left( 0.5\sqrt{\frac{n}{4}} \right) -1,

意味着 0.5n4=u0.025=1.960.5\sqrt{\frac{n}{4}}=u_{0.025}=1.96, 解得

n=61.4656n=61.4656

即至少 6262 次.

  1. (15分) 总体 XN(μ1,σ02)X \sim N\left(\mu_1, \sigma_0^2\right), σ02\sigma_0^2 已知, 样本量为 n1n_1. 总体 YN(μ2,σ12)Y \sim N\left(\mu_2, \sigma_1^2\right), 样本量为 n2n_2. 两组样本独立.
    (1)(5分) 写出 μ1\mu_11α1-\alpha 置信区间;
    (2)(5分) 写出 μ2\mu_21α1-\alpha 置信区间;
    (3)(5分) 若 σ02=σ12\sigma_0^2=\sigma_1^2, 写出 (μ1μ2)\left(\mu_1-\mu_2\right)1α1-\alpha 置信区间.

Solution: (1) 方差已知, 用枢轴量

u=Xˉμ1σ0/n1N(0,1),u=\frac{\bar{X}-\mu _1}{\sigma _0/\sqrt{n_1}}\sim N\left( 0,1 \right) ,

置信区间是

μ1[Xˉσ0n1uα2,Xˉ+σ0n1uα2].\mu _1\in \left[ \bar{X}-\frac{\sigma _0}{\sqrt{n_1}}u_{\frac{\alpha}{2}},\bar{X}+\frac{\sigma _0}{\sqrt{n_1}}u_{\frac{\alpha}{2}} \right] .

(2) 方差未知, 用枢轴量

t=Yˉμ1SY/nt(n21),t=\frac{\bar{Y}-\mu _1}{S_Y/\sqrt{n}}\sim t\left( n_2-1 \right) ,

置信区间是

μ2[YˉSYn2tα2(n21),Yˉ+SYn2tα2(n21)].\mu _2\in \left[ \bar{Y}-\frac{S_Y}{\sqrt{n_2}}t_{\frac{\alpha}{2}}\left( n_2-1 \right) ,\bar{Y}+\frac{S_Y}{\sqrt{n_2}}t_{\frac{\alpha}{2}}\left( n_2-1 \right) \right] .

(3) 由于 σ0=σ1\sigma_0 = \sigma_1 已知, 故有

XˉYˉN(μ1μ2,(1n1+1n2)σ02),\bar{X}-\bar{Y}\sim N\left( \mu _1-\mu _2,\left( \frac{1}{n_1}+\frac{1}{n_2} \right) \sigma _{0}^{2} \right) ,

枢轴量为

(XˉYˉ)(μ1μ2)σ0(1n1+1n2)N(0,1),\frac{\left( \bar{X}-\bar{Y} \right) -\left( \mu _1-\mu _2 \right)}{\sigma _0\sqrt{\left( \frac{1}{n_1}+\frac{1}{n_2} \right)}}\sim N\left( 0,1 \right) ,

因此置信区间为

μ1μ2[XˉYˉuα2σ0(1n1+1n2),XˉYˉ+uα2σ0(1n1+1n2)].\mu _1-\mu _2\in \left[ \bar{X}-\bar{Y}-u_{\frac{\alpha}{2}}\sigma _0\sqrt{\left( \frac{1}{n_1}+\frac{1}{n_2} \right)},\bar{X}-\bar{Y}+u_{\frac{\alpha}{2}}\sigma _0\sqrt{\left( \frac{1}{n_1}+\frac{1}{n_2} \right)} \right] .

  1. (16分) 设X1,,XnX_1,\cdots,X_n是i.i.d.的U(θ1,θ+1)U(\theta-1,\theta+1)的随机样本.

(1)(8分) 求矩估计和极大似然估计;
(2)(8分) 比较说明矩估计和极大似然估计及其优缺点.

Solution: (1) 先求矩估计, 期望是E(X)=θE(X)=\theta, 则矩估计θ^m=xˉ\hat{\theta}_m = \bar{x}. 再看极大似然估计, 似然函数是

L(θ)=12nI{x(n)1<θ<x(1)+1},L(\theta) = \frac{1}{2^n} I_{\{x_{(n)-1}<\theta<x_{(1)}+1\}},

看出, 区间[x(n)1,x(1)+1][x_{(n)}-1,x_{(1)}+1]中任意一个值都是θ\theta的MLE.

(2) 根据大数定律, 矩估计总是相合的; 但矩估计不一定是充分统计量的函数. MLE则一般都和充分统计量有关, 但缺点是可能不唯一.

  1. (16分) 从 N(μ,1)N(\mu,1) 总体抽取 100 个随机样本 x1,,x100x_1,\cdots,x_{100}, 为讨论假设检验问题

H0:μ=0vsH1:μ0H_0:\mu = 0 \quad \mathrm{vs} \quad H_1:\mu \neq 0

构造拒绝域 W={xˉ<0.001}W=\{|\bar{x}|<0.001\}.

(1)(8分) 已知 Φ(0.01)<0.505\Phi(0.01)<0.505, 证明犯第一类错误概率 α<0.01\alpha <0.01;
(2)(8分) WW 是一个合适的拒绝域吗? 为什么?

Solution: (1) 样本均值 xˉN(μ,1100)\bar{x}\sim N\left( \mu ,\frac{1}{100} \right), 故有

α=Pμ=0(Xˉ<0.001)=Pμ=0(10Xˉ<0.01)=2Φ(0.01)1<0.01.\alpha =P_{\mu =0}\left( \left| \bar{X} \right|<0.001 \right) =P_{\mu =0}\left( \left| 10\bar{X} \right|<0.01 \right) =2\Phi \left( 0.01 \right) -1<0.01.

(2) 不是, xˉ<0.001|\bar{x}|<0.001 实际正反应了 μ|\mu| 比较小, 接近于 0, 正确的拒绝域形式应是形如 {xˉ>c}\{|\bar{x}|>c\}, 其中 cc 可由显著性水平确定.

  1. (16分) 设有位置模型:

Xi=μ+εi,X_i = \mu + \varepsilon_i,

其中ε1,,εn\varepsilon_1,\cdots,\varepsilon_n独立同分布, 期望为 00, 方差为 σ2\sigma^2.

(1)(8分) 给出 μ\mu 的两种估计及统计原理.
(2)(8分) 给出 σ2\sigma^2 的无偏估计 σ^2\hat{\sigma}^2, 并判断 σ^\hat{\sigma} 是否为 σ\sigma 的无偏估计.

Solution: (1) 第一种: 矩估计, 用矩替换. 求期望得 E(X1)=μE(X_1) = \mu, 因此 μ^=xˉ\hat{\mu} = \bar{x}.

第二种: 最小二乘法. 令

Q(μ)=i=1n(Xiμ)2Q(\mu) = \sum_{i=1}^n (X_i -\mu)^2

最小, 也得 μ^=xˉ\hat{\mu} = \bar{x}.

第三种: 最小一乘法. 令

Q(μ)=i=1nXiμQ(\mu) = \sum_{i=1}^n |X_i -\mu|

最小, 得 μ^=x0.5\hat{\mu} = x_{0.5}, 即样本中位数.

注意这里没有分布条件, 不能求MLE.

(2) 样本方差是总体方差的无偏估计, 故

σ^2=s2=1n1i=1n(xixˉ)2.\hat{\sigma}^2 =s^2= \frac{1}{n-1}\sum_{i=1}^n (x_i -\bar{x})^2.

但是由于

E(s2)=Var(s)+[E(s)]2,E(s^2) = Var(s) + [E(s)]^2,

即有

E(s)=E(s2)Var(s)<E(s2)=σ.E(s) = \sqrt{E(s^2)-Var(s)} <\sqrt{E(s^2)} = \sigma.

它不是无偏估计.