北京师范大学-432统计学-2016年

一、选择题(15分)

  1. 下面关于箱线图和算术平均数正确的是( ).

    A. 平均数大于15
    B. 平均数等于15
    C. 平均数小于15
    D. 无法判断

Solution: A.

  1. 技术人员对某生产线上的产品每隔100件抽样一次, 他使用的抽样方法是( ).
    A. 简单随机抽样
    B. 整群抽样
    C. 分层抽样
    D. 系统抽样

Solution: D.

  1. 根据样本已经得到了 θ\theta95%95\% 置信区间 (θ^1,θ^2)(\hat{\theta}_1,\hat{\theta}_2), 正确的是( ).
    A. 该区间以 95%95 \% 的概率包含真值
    B. 参数 θ\theta 在该区间内的概率为 95%95 \%
    C. 该区间有 95%95 \% 的可能性包含参数 θ\theta
    D. 参数 θ\theta 或者在 (θ^1,θ^2)(\hat{\theta}_1,\hat{\theta}_2) 内, 或者不在 (θ^1,θ^2)(\hat{\theta}_1,\hat{\theta}_2)

Solution: D. 此时已经根据样本值得到了一个固定的置信区间, 参数要么在这个固定的区间中, 要么不在其中. 注意如果题干改为抽样之前, 则由于样本还未获得, 两个区间端点都是随机的, 随机区间 (θ^1,θ^2)(\hat{\theta}_1,\hat{\theta}_2) 覆盖参数真值 θ\theta 的概率是 95%95\%. 但现在, 区间已定, 参数也是个常数, 要么在里面, 要么不在里面.

  1. XN(μ,σ2)X\sim N(\mu,\sigma^2), 则当 σ\sigma 增大时, 概率 P(Xμ<σ)P(|X-\mu|<\sigma) 逐渐( )
    A. 增大
    B. 减小
    C. 不变
    D. 无法确定

Solution: C. P(Xμ<σ)=P(Xμσ<1)=Φ(1)Φ(1)P(|X-\mu|<\sigma)=P(\frac{|X-\mu|}{\sigma}<1)=\Phi(1)-\Phi(-1) 是定值.

  1. 某校学生的成绩服从正态分布 XN(μ,36)X \sim N(\mu, 36), 在显著性水平 α=0.05\alpha=0.05 的情况下, 则要使估计 μ\mu 的测量误差控制在 ±1\pm1 之内, 需要多少样本量()
    A. 139
    B. 2238
    C. 48
    D. 934

Solution: A. XˉN(μ,36n)\bar{X}\sim N(\mu,\frac{36}{n}), 令 P(Xˉμ1)=0.95P(|\bar{X}-\mu|\le 1) = 0.95, 化简得

P(Xˉμ6/nn6)=0.95,P\left( \frac{|\bar{X}-\mu |}{6/\sqrt{n}}\le \frac{\sqrt{n}}{6} \right) =0.95,

这也意味着 n6=u0.025=1.96\frac{\sqrt{n}}{6}=u_{0.025}=1.96, 解得 n=621.962=138.298n=6^2\cdot 1.96^2=138.298.

二、问答题

  1. (10分) 抽样调查的主要优点有哪些?

Solution:
1、抽样调查可以减少调查的工作量,调查内容可以求多、求全或求专,可以保证调查对象的完整性。

2、可以从数量上以部分推算总体,利用概率论和数理统计原理,以一定的概率保证推算结果的可靠程度,起到全面调查认识总体的功能,可以保证调查的精度。

3、因为抽样调查是针对总体中的一部分单位进行的,抽样调查可以大大减少调查费用,提高调查效率。

4、收集、整理数据、综合样本的速度快,保证调查的时效性。

2.(10分) 某篮球队队员年龄为 37,35,32,28,27,27,24,22,1937, 35, 32, 28, 27, 27, 24, 22, 19, 写出这组数据的分析报告.

Solution:
(i) 可以用 平均值、中位数、标准差 等统计量作分析;
(ii) 可以用 箱线图、茎叶图 等图形作分析;
(iii) 可以用 集中趋势、离散趋势、分布形状作分析.

这里, 有
xˉ=27.89\bar{x} = 27.89, s=5.93s=5.93, 变异系数 C=0.21C=0.21, 中位数 M=27M = 27.

茎叶图为

3 7 5 2
2 8 7 7 4 2
1 9

分析:
变异系数较小, 仅为 0.21, 说明数据集中程度较高. 茎叶图中可以也看出, 年龄主要集中在20多岁.

  1. (12分) 一个罐子里有黑球和白球, 有放回地抽取一个样本容量为 nn 的样本, 其中有 kk 个白球, 问: 罐子里黑球和白球数之比 RR 的极大似然估计量如何?

Solution: 有放回取球, 取出的白球数 kB(n,p)k\sim B(n,p), 其中 pp 是白球的比例. 有 p^=kn\hat{p}=\frac{k}{n}, 而 1pp=R\frac{1-p}{p}=R, 根据MLE的不变性, 有

R^=1knkn=nkk.\hat{R}=\frac{1-\frac{k}{n}}{\frac{k}{n}}=\frac{n-k}{k}.

  1. (12分) 机场大巴从起点站到西单站恰有nn站, 某次大巴从机场开出时有mm位旅客, 每位旅客在每站下车都是等可能的(即每人都有nn次下车选择), 如果无人下车则中途不停车. 求机场大巴到西单站的平均停车次数.

n[1(11n)m]n\left[ 1-\left( 1-\frac{1}{n} \right) ^m \right]. 设X1,,XnX_1,\cdots,X_n分别是各站停车次数, X1=1X_1=1表示在第一站停车, X1=0X_1=0表示不停车, 则题目所求即为E(X)=E(X1++Xn)=E(X1)++E(Xn)=nE(X1)E(X)=E(X_1+\cdots+X_n)=E(X_1)+\cdots+E(X_n)=nE(X_1). 而

E(X1)=P(X1=1)=1P(X1=0)=1(11n)m,E\left( X_1 \right) =P\left( X_1=1 \right) =1-P\left( X_1=0 \right) =1-\left(1- \frac{1}{n} \right) ^m,

因此E(X)=n[1(11n)m]E\left( X \right) =n\left[ 1-\left( 1-\frac{1}{n} \right) ^m \right].

  1. (15分) 下面论述是否正确? 正确的给出证明, 错误的举出反例.
    (1) 概率为 0 的事件是不可能事件;
    (2) 概率为 1 的事件是必然事件;
    (3) 小概率事件迟早会发生.

(1) 错误. 如设 Ω=[0,1]\Omega=[0,1], A={12}A=\{\frac{1}{2}\}, 显然 AA 并非不可能事件(并非 \emptyset ), 但 P(A)=0P(A)=0, 在线段上取到单点的概率为 0.

(2) 错误, 如设 Ω=[0,1]\Omega=[0,1], A=[0,1)A=[0,1), 显然 AA 并非必然事件(并非全集Ω\Omega), 但 P(A)=1P(A)=1.

(3) 正确, 设事件 A1,A2,...A_1,A_2,... 发生的概率都非常小, 为 ε>0\varepsilon>0, 一直不发生的概率为

P(i=1Aˉi)=i=1P(Aˉi)=limn(1ε)n=0.P\left( \bigcap_{i=1}^{\infty}{\bar{A}_i} \right) =\prod_{i=1}^{\infty}{P\left( \bar{A}_i \right)}=\lim_{n\rightarrow \infty} \left( 1-\varepsilon \right) ^n=0.

因此迟早会发生.

  1. (20分) 设 X1,,XnX_1,\cdots,X_n 是来自 N(μ,σ2)N(\mu,\sigma^2) 的独立样本.
    (1) (7分) 求 μ,σ2\mu, \sigma^2 的MLE, 它们是无偏估计吗?
    (2) (6分) 写出样本方差的表达式, 它是无偏估计吗?
    (3) (7分) 如果 σ2=4\sigma^2 =4, 求 μ\mu1α1-\alpha 置信区间.

似然函数为

L(μ,σ2)=(2πσ2)n2e12σ2i=1n(xiμ)2,L\left( \mu,\sigma ^2 \right) =\left( 2\pi \sigma ^2 \right) ^{-\frac{n}{2}}e^{-\frac{1}{2\sigma ^2}\sum_{i=1}^n{\left( x_i-\mu \right) ^2}},

对数似然函数是

(μ,σ2)=n2ln(2π)n2lnσ212σ2i=1n(xiμ)2,\ell \left( \mu,\sigma ^2 \right) =-\frac{n}{2}\ln \left( 2\pi \right) -\frac{n}{2}\ln \sigma ^2-\frac{1}{2\sigma ^2}\sum_{i=1}^n{\left( x_i-\mu \right) ^2},

求导得

(μ)=2i=1n(xiμ)2σ2,(σ2)=n2σ2+i=1n(xiμ)22σ4,\ell'(\mu)=-\frac{-2\sum_{i=1}^n(x_i-\mu)}{2\sigma^2}, \quad \ell '\left( \sigma ^2 \right) =-\frac{n}{2\sigma ^2}+\frac{\sum_{i=1}^n{\left( x_i-\mu \right) ^2}}{2\sigma ^4},

令其为 00, 解得

μ^=xˉ,σ^2=1ni=1n(xixˉ)2.\hat{\mu}=\bar{x},\quad\hat{\sigma}^2=\frac{1}{n}\sum_{i=1}^n{\left( x_i-\bar{x} \right) ^2}.

E(μ^)=μE(\hat{\mu})=\mu, 是无偏估计. 但由于i=1n(xixˉ)2σ2χ2(n1)\frac{\sum_{i=1}^n(x_i-\bar{x})^2}{\sigma^2}\sim \chi^2(n-1), 因此 E(σ^2)=n1nσ2E(\hat{\sigma}^2)=\frac{n-1}{n}\sigma^2, 不是无偏估计.

(2) 样本方差的表达式是

S2=1n1i=1n(xixˉ)2,S^2 = \frac{1}{n-1}\sum_{i=1}^n (x_i-\bar{x})^2,

根据第(1)问的论述, 它是 σ2\sigma^2 的无偏估计.

(3) 利用 XˉN(μ,4n)\bar{X}\sim N(\mu,\frac{4}{n}) 构造区间, 即有

μ[Xˉuα22n,Xˉ+uα22n].\mu \in \left[ \bar{X}-u_{\frac{\alpha}{2}}\frac{2}{\sqrt{n}},\bar{X}+u_{\frac{\alpha}{2}}\frac{2}{\sqrt{n}} \right] .

  1. (15分) 设 X1,,XnX_1,\cdots,X_n 是来自一个期望为 μ\mu, 方差为 σ2\sigma^2 的正态总体独立样本.
    (1) (7分) 为使得 Ci=1n1(Xi+1Xi)2C \sum_{i=1}^{n-1}\left(X_{i+1}-X_i\right)^2σ2\sigma^2 的无偏估 计, 求 CC.
    (2) (8分) xˉ2\bar{x}^2μ2\mu^2 的无偏估计吗? 若不是, 给出 μ2\mu^2 的一个无偏估计.

(1) 由正态分布性质, 有Xi+1XiN(0,2σ2)X_{i+1}-X_i \sim N(0,2\sigma^2), 故E(Xi+1Xi)2=2σ2E(X_{i+1}-X_i)^2 = 2\sigma^2, 由期望的线性可加性, 有

E[Ci=1n1(Xi+1Xi)2]=C(n1)2σ2,E[C \sum_{i=1}^{n-1}\left(X_{i+1}-X_i\right)^2] = C\cdot(n-1)\cdot2\sigma^2,

因此C=12(n1)C=\frac{1}{2(n-1)}.

(2) 由于 xˉN(μ,σ2n)\bar{x} \sim N(\mu,\frac{\sigma^2}{n}), 故 E(xˉ2)=μ2+σ2nE(\bar{x}^2) = \mu^2 +\frac{\sigma^2}{n}, 它不是 μ2\mu^2 的无偏估计, 修正后看出 xˉ2S2n\bar{x}^2 - \frac{S^2}{n} 恰好是 μ2\mu^2 的无偏估计, 其中 S2S^2 是样本方差.

  1. (15分) 从 N(μ,1)N(\mu,1) 总体抽取 100 个随机样本 x1,,x100x_1,\cdots,x_{100}, 为讨论假设检验问题

H0:μ=0vsH1:μ0H_0:\mu = 0 \quad \mathrm{vs} \quad H_1:\mu \neq 0

构造拒绝域 W={xˉ<0.001}W=\{|\bar{x}|<0.001\}.

(1)(8分) 已知 Φ(0.01)<0.505\Phi(0.01)<0.505, 证明犯第一类错误概率 α<0.01\alpha <0.01;
(2)(7分) WW 是一个合适的拒绝域吗? 为什么?

Solution: (1) 样本均值 xˉN(μ,1100)\bar{x}\sim N\left( \mu ,\frac{1}{100} \right), 故有

α=Pμ=0(Xˉ<0.001)=Pμ=0(10Xˉ<0.01)=2Φ(0.01)1<0.01.\alpha =P_{\mu =0}\left( \left| \bar{X} \right|<0.001 \right) =P_{\mu =0}\left( \left| 10\bar{X} \right|<0.01 \right) =2\Phi \left( 0.01 \right) -1<0.01.

(2) 不是, xˉ<0.001|\bar{x}|<0.001 实际正反应了 μ|\mu| 比较小, 接近于 0, 正确的拒绝域形式应是形如 {xˉ>c}\{|\bar{x}|>c\}, 其中 cc 可由显著性水平确定.

  1. (20分) 有下述一元线性回归模型

Yi=a+bXi+εiY_i = a + b X_i + \varepsilon_i

以及对应的方差分析表.

变量 平方和 自由度 均方 FF Prob(>F>F)
回归 1212 1 0.0001
残差
1888 29

(1)(7分) 补齐方差分析表.
(2)(8分) 给定 α=0.05\alpha=0.05, 方程是否显著? 写出原假设和备择假设.

Solution:
[注]: 自由度与样本量、参数的关系是:
假设有 nn 个样本、kk 个参数, 如 y=a+bxy=a+bx 是2个参数, 如 y=a+b1x1+b2x2y=a+b_1x_1 + b_2x_2 是3个参数, 则总自由度 n1n-1, 回归自由度 k1k-1, 残差自由度 nkn-k.

(1) 补齐后如下:

变量 平方和 自由度 均方 FF Prob(>F>F)
回归 1212 1 1212 50.21 0.0001
残差 676 28 24.14
1888 29

(2) 方程是显著的, 因为 FF 检验的 p 值是 0.0001<0.05, 拒绝原假设. 对应的原假设和备择假设是

H0:β=0vsH1:β0H_0:\beta = 0 \quad \mathrm{vs} \quad H_1:\beta \neq 0