北京师范大学-432统计学-2018年

一、选择题(每题3分, 共15分)

  1. 箱线图最中间的线表明的数据是( ).
    A. 平均数
    B. 中位数
    C. 众数
    D. 都不是

Solution: B.

  1. 技术人员对某生产线上的产品每隔100件抽样一次, 他使用的抽样方法是( ).
    A. 简单随机抽样
    B. 整群抽样
    C. 分层抽样
    D. 系统抽样

Solution: D.

  1. 根据样本已经得到了 θ\theta95%95\% 置信区间 (θ^1,θ^2)(\hat{\theta}_1,\hat{\theta}_2), 正确的是( ).
    A. 该区间以 95%95 \% 的概率包含真值
    B. 参数 θ\theta 在该区间内的概率为 95%95 \%
    C. 该区间有 95%95 \% 的可能性包含参数 θ\theta
    D. 参数 θ\theta 或者在 (θ^1,θ^2)(\hat{\theta}_1,\hat{\theta}_2) 内, 或者不在 (θ^1,θ^2)(\hat{\theta}_1,\hat{\theta}_2)

Solution: D. 此时已经根据样本值得到了一个固定的置信区间, 参数要么在这个固定的区间中, 要么不在其中. 注意如果题干改为抽样之前, 则由于样本还未获得, 两个区间端点都是随机的, 随机区间 (θ^1,θ^2)(\hat{\theta}_1,\hat{\theta}_2) 覆盖参数真值 θ\theta 的概率是 95%95\%. 但现在, 区间已定, 参数也是个常数, 要么在里面, 要么不在里面.

  1. 线性回归分析的说法, 正确的是 ( )
    A. 选择解释变量时, 残差平方和越小越好
    B. 线性检验是指对变量的线性关系检验
    C. 线性回归中, tt 检验与 FF 检验等价
    D. 残差与误差有相同的分布, 可用残差估计误差

Solution: B. 变量越多, 残差平方和一定越小, 而选择解释变量时, 以变量对应系数是否能显著为准, A错误; 线性检验是对变量之间线性关系的检验, B正确; 一元回归时单个系数的显著性 tt 检验与方程整体的 FF 检验一致, 注意 t2(1,n1)=F(1,n1)t^2(1,n-1)=F(1,n-1), 但多元回归中并不等价, C错误; 误差 εi=yiabxiN(0,σ2)\varepsilon_i = y_i - a - bx_i \sim N(0,\sigma^2), 残差指 ε^i=yiy^i=yia^b^xi\hat{\varepsilon}_i=y_i-\hat{y}_i=y_i-\hat{a}-\hat{b}x_i, 它们分布不相同, D错误.

  1. 如果 Var(X)\operatorname{Var}(X) 存在, 下面说法错误的是( ).
    A. EXE X 一定存在
    B. EX2>(EX)2E X^2>(E X)^2 一定成立
    C. 对于 CEX,Var(X)<E(XC)2C \neq E X, \operatorname{Var}(X)<E(X-C)^2
    D. 标准差 Var(X)\sqrt{\operatorname{Var}(X)} 一定存在

Solution: B. 如果Var(X)=0Var(X)=0, 则P(X=c)=1P(X=c)=1, 说明EX2=(EX)2EX^2=(EX)^2.

二、问答题

  1. (10分) 为什么总体可以用随机变量表示?

Solution: 在统计推断过程中, 待研究的对象是总体的分布或总体分布中的某些参数, 我们需要根据得到的随机样本来推断出总体分布或参数的信息. 如果总体不是随机变量而是常数或已知数, 那么也没有必要去研究它的分布和参数. 一般而言, 我们假设总体是一个有分布 f(x;θ)f(x;\theta) 的随机变量, 而 x1,,xnx_1,\cdots,x_n 是来自该分布的随机样本, 通过样本的信息我们可以得到一些关于 θ\theta 的信息.

  1. (10分) 某高校教研室老师年龄为 60,58,46,46,41,43,38,38,34,3160,58,46,46,41,43,38,38,34,31, 写出这组数据的分析报告.

Solution:
(i) 可以用 平均值、中位数、标准差 等统计量作分析;
(ii) 可以用 箱线图、茎叶图 等图形作分析;
(iii) 可以用 集中趋势、离散趋势、分布形状作分析.

这里, 有
xˉ=43.5\bar{x} = 43.5, s=9.48s=9.48, 变异系数 C=0.28C=0.28, 中位数 M=42M = 42.

茎叶图为

6 0
5 8
4 6 6 3 1
3 8 8 4 1

分析:
变异系数较小, 仅为 0.28, 说明数据集中程度较高. 茎叶图中可以也看出, 年龄主要集中在30多岁和40多岁.

  1. (15分) 一架主机、两架副机被派遣前往目的地执行轰炸任务, 目标是击毁敌方的“火种源”. 到达目的地的过程中需要主机为两架副机持续提供燃油, 到达目的地后独立执行轰炸任务, 每架飞机击中“火种源”的概率是0.3. 但是在前往目的地的过程中要经过敌区, 在此过程中每架飞机均有0.2的概率被击落. 问: “火种源”被击中的概率是多少?

Solution: 我们先思考: “有哪些我方战机能到达目的地”, 根据题意, 主机如果被击毁, 没有燃油, 副机也到不了目的地, 故

B1={三架战斗机均到达目的地},P(B1)=0.83=0.512,B2={主机和一架副机到达目的地},P(B2)=20.820.2=0.256,B3={只有主机到达目的地},P(B3)=0.80.22=0.032,B4={无人到达目的地},P(B4)=10.5120.2560.032=0.2,\begin{aligned} &B_1=\left\{ \text{三架战斗机均到达目的地} \right\} ,\quad P\left( B_1 \right) =0.8^3=0.512,\\ &B_2=\left\{ \text{主机和一架副机到达目的地} \right\} ,\quad P\left( B_2 \right) =2\cdot 0.8^2\cdot 0.2=0.256,\\ &B_3=\left\{ \text{只有主机到达目的地} \right\} ,\quad P\left( B_3 \right) =0.8\cdot 0.2^2=0.032,\\ &B_4=\left\{ \text{无人到达目的地} \right\} ,\quad P\left( B_4 \right) =1-0.512-0.256-0.032=0.2,\\ \end{aligned}

再用全概率公式, 得

P(A)=0.512(10.73)+0.256(10.72)+0.0320.3=0.476544.P\left( A \right) =0.512\cdot \left( 1-0.7^3 \right) +0.256\cdot \left( 1-0.7^2 \right) +0.032\cdot 0.3=0.476544.

  1. (15分) 设X1,,XnX_1,\cdots,X_n是i.i.d.的U(θ,θ+1)U(\theta,\theta+1)的随机样本.

(1)(8分) 求矩估计和极大似然估计;
(2)(7分) 比较说明矩估计和极大似然估计及其优缺点.

Solution: (1) 先求矩估计, 期望是E(X)=θ+12E(X)=\theta+\frac{1}{2}, 则矩估计θ^m=xˉ12\hat{\theta}_m = \bar{x}-\frac{1}{2}. 再看极大似然估计, 似然函数是

L(θ)=I{x(n)1<θ<x(1)},L(\theta) = I_{\{x_{(n)-1}<\theta<x_{(1)}\}},

看出, 区间[x(n)1,x(1)][x_{(n)}-1,x_{(1)}]中任意一个值都是θ\theta的MLE.

(2) 根据大数定律, 矩估计总是相合的; 但矩估计不一定是
充分统计量的函数. MLE则一般都和充分统计量有关, 但缺点是可能不唯一.

  1. (15分) 设有 nn 个独立工作的元件, 故障率为 0.1, 现在某项任务一定要 80%80\% 以上原件工作才能完成. 为了以 95%95\% 的把握保证这一事件的成立, 问 nn 至少应为多少?

Solution: 设 X1,,XnX_1,\cdots,X_n i.i.d. 服从 B(1,0.9)B(1,0.9), 且 Xi=1X_i=1 表示第 ii 个元件正常工作, 题设要求为

P(i=1nXi>0.8n)=0.95,P\left( \sum_{i=1}^n{X_i}>0.8n \right) =0.95,

由于大样本下近似有 i=1nXiN(0.9n,0.09n)\sum_{i=1}^n{X_i}\sim N\left( 0.9n,0.09n \right), 故

0.95=P(i=1nXi>0.8n)=P(i=1nXi0.9n0.3n>n3)=Φ(n3),0.95=P\left( \sum_{i=1}^n{X_i}>0.8n \right) =P\left( \frac{\sum_{i=1}^n{X_i}-0.9n}{0.3\sqrt{n}}>-\frac{\sqrt{n}}{3} \right) =\Phi \left( \frac{\sqrt{n}}{3} \right) ,

这意味着 n3=1.645\frac{\sqrt{n}}{3}=1.645, 即 n=24.35n=24.35, 故至少为 2525.

  1. (15分) 设 X1,,XnX_1,\cdots,X_n 是 i.i.d. 的 N(μ,σ2)N(\mu,\sigma^2) 的随机样本, 其中 μ,σ2\mu,\sigma^2 是未知参数.
    (1) (7分) 写出样本方差表达式, 它是总体方差无偏估计吗?
    (2) (8分) xˉ2\bar{x}^2μ2\mu^2 的无偏估计吗? 若不是, 给出 μ2\mu^2 的一个无偏估计.

Solution: (1) 样本方差是

S2=1n1i=1n(xixˉ)2,S^2 = \frac{1}{n-1} \sum_{i=1}^n (x_i-\bar{x})^2,

它是总体方差的无偏估计.

(2) 由于 xˉN(μ,σ2n)\bar{x} \sim N(\mu,\frac{\sigma^2}{n}), 故 E(xˉ2)=μ2+σ2nE(\bar{x}^2) = \mu^2 +\frac{\sigma^2}{n}, 它不是 μ2\mu^2 的无偏估计, 修正后看出 xˉ2S2n\bar{x}^2 - \frac{S^2}{n} 恰好是 μ2\mu^2 的无偏估计.

  1. (15分) 从 N(μ,1)N(\mu,1) 总体抽取 100 个随机样本 x1,,x100x_1,\cdots,x_{100}, 为讨论假设检验问题

H0:μ=0vsH1:μ0H_0:\mu = 0 \quad \mathrm{vs} \quad H_1:\mu \neq 0

构造拒绝域 W={xˉ<0.001}W=\{|\bar{x}|<0.001\}.

(1)(8分) 已知 Φ(0.01)<0.505\Phi(0.01)<0.505, 证明犯第一类错误概率 α<0.01\alpha <0.01;
(2)(7分) WW 是一个合适的拒绝域吗? 为什么?

Solution: (1) 样本均值 xˉN(μ,1100)\bar{x}\sim N\left( \mu ,\frac{1}{100} \right), 故有

α=Pμ=0(Xˉ<0.001)=Pμ=0(10Xˉ<0.01)=2Φ(0.01)1<0.01.\alpha =P_{\mu =0}\left( \left| \bar{X} \right|<0.001 \right) =P_{\mu =0}\left( \left| 10\bar{X} \right|<0.01 \right) =2\Phi \left( 0.01 \right) -1<0.01.

(2) 不是, xˉ<0.001|\bar{x}|<0.001 实际正反应了 μ|\mu| 比较小, 接近于 0, 正确的拒绝域形式应是形如 {xˉ>c}\{|\bar{x}|>c\}, 其中 cc 可由显著性水平确定.

  1. (15分) 设 X1,,XnX_1,\cdots,X_n 是来自 N(μ,σ2)N(\mu,\sigma^2) 的独立样本.
    (1) (7分) 如果 μ=90\mu =90, 求 σ2\sigma^2 的MLE;
    (2) (8分) 如果 σ2=9\sigma^2 =9, 求 μ\mu1α1-\alpha 置信区间.

Solution: (1) μ\mu 已知, 似然函数为

L(σ2)=(2πσ2)n2e12σ2i=1n(xiμ)2,L\left( \sigma ^2 \right) =\left( 2\pi \sigma ^2 \right) ^{-\frac{n}{2}}e^{-\frac{1}{2\sigma ^2}\sum_{i=1}^n{\left( x_i-\mu \right) ^2}},

对数似然函数是

(σ2)=n2ln(2π)n2lnσ212σ2i=1n(xiμ)2,\ell \left( \sigma ^2 \right) =-\frac{n}{2}\ln \left( 2\pi \right) -\frac{n}{2}\ln \sigma ^2-\frac{1}{2\sigma ^2}\sum_{i=1}^n{\left( x_i-\mu \right) ^2},

求导得

(σ2)=n2σ2+i=1n(xiμ)22σ4,\ell '\left( \sigma ^2 \right) =-\frac{n}{2\sigma ^2}+\frac{\sum_{i=1}^n{\left( x_i-\mu \right) ^2}}{2\sigma ^4},

令其为 00, 解得

σ^2=1ni=1n(xiμ)2=1ni=1n(xi90)2.\hat{\sigma}^2=\frac{1}{n}\sum_{i=1}^n{\left( x_i-\mu \right) ^2}=\frac{1}{n}\sum_{i=1}^n{\left( x_i-90 \right) ^2}.

(2) 利用 XˉN(μ,9n)\bar{X}\sim N(\mu,\frac{9}{n}) 构造区间, 即有

μ[Xˉuα23n,Xˉ+uα23n].\mu \in \left[ \bar{X}-u_{\frac{\alpha}{2}}\frac{3}{\sqrt{n}},\bar{X}+u_{\frac{\alpha}{2}}\frac{3}{\sqrt{n}} \right] .

  1. (20分) 有下述线性回归的方差分析表
变量 平方和 自由度 均方 FF Prob(>F>F)
回归 2144.6 2 0.0001
残差 98
8545.6 100

(1)(5分) 样本量和参数分别是几个?
(2)(5分) 补齐方差分析表.
(3)(5分) 给定 α=0.05\alpha=0.05, 方程是否显著?
(4)(5分) 给出 R2R^2, 以及误差方差的估计量.

Solution: (1) 回归平方和的自由度为 2, 说明参数为 3 个. 总平方和的自由度为 100, 说明样本量是 101.
(2) 补齐后为

变量 平方和 自由度 均方 FF Prob(>F>F)
回归 2144.6 2 1072.3 17.5 0.0001
残差 6001.0 98 61.2
8545.6 100

(3) 方程是显著的, 因为 FF 检验的 p 值是 0.0001<0.05, 拒绝原假设.

(4) R2=2144.68545.6=0.251R^2 = \frac{2144.6}{8545.6} = 0.251, 残差方差的估计量是残差对应的均方, 即 61.261.2.