北京师范大学-432统计学-2020年

一、选择题(每题3分, 总计15分)

  1. 如果数据没有离群值, 箱线图显示的信息不包括( ).
    A. 平均数
    B. 四分位数
    C. 极差
    D. 中位数

Solution: A.

  1. 某医生为写论文收集数据, 使用了他自己过往的病情经历, 这种抽样方式称为( ).
    A. 整群抽样
    B. 非随机的方便抽样
    C. 系统抽样
    D. 简单随机抽样

Solution: B.

  1. 构造 θ\theta1α1-\alpha 置信区间 (θ^1,θ^2)(\hat{\theta}_1,\hat{\theta}_2), 正确的是( ).
    A. 总体参数一定在区间中
    B. 区间一定覆盖总体参数
    C. θ^1\hat{\theta}_1θ^2\hat{\theta}_2 是统计量
    D. 置信区间是唯一的

Solution: C.

  1. 在线性回归模型 yi=a+bxi+εi,i=1,,ny_i = a +b x_i +\varepsilon_i, i=1,\cdots,n 中, 正确的是( ).
    A. (a,b)(a,b) 的最小二乘估计与最大似然估计等价
    B. 最小二乘法中的残差和为 00
    C. 参数显著性 tt 检验不需要假设正态分布
    D. 以上均错误

Solution: D. 如果不给定分布, 无法求得最大似然估计, A错, 且只有在 ε\varepsilon 是正态分布时两者等价(高斯-马尔可夫定理). 最小二乘法需求残差平方和最小, 与残差和无关, B错. 如果没有正态假设, 无法导出检验统计量服从 tt 分布, C错.

  1. nn 次硬币, XX 是正面向上次数, YY 是反面向上次数, 则 Corr(X,Y)=\mathrm{Corr}(X,Y)=( ).
    A. -1
    B. 1
    C. 0
    D. 0.5

Solution: A. 由于 X+Y=nX+Y=n, 故 Var(Y)=Var(nX)=Var(X)Var(Y)=Var(n-X)=Var(X), Cov(X,Y)=Cov(X,nX)=Var(X)Cov(X,Y)=Cov(X,n-X)=-Var(X), 因此

Corr(X,Y)=Cov(X,Y)Var(X)Var(Y)=1.\mathrm{Corr}(X,Y) = \frac{Cov(X,Y)}{\sqrt{Var(X)Var(Y)}} = -1.

二、计算题(总计135分)

  1. (10分) 简要给出该组数据统计分析报告(统计指标和统计图).
    甲的射击成绩: 81,88,84,80,90,83,80,90,81,8581,88,84,80,90,83,80,90,81,85
    乙的射击成绩: 92,85,88,81,81,86,81,76,81,8992,85,88,81,81,86,81,76,81,89

Solution: 对甲的射击成绩进行分析:
X甲 =1ni=1nXi=85.8\overline{X_{\text {甲 }}}=\frac{1}{n} \sum_{i=1}^n X_i=85.8,
S甲 2=1n1i=1n(XiXˉ)2=12.4S_{\text {甲 }}^2=\frac{1}{n-1} \sum_{i=1}^n(X i-\bar{X})^2=12.4, S甲 =3.52S_{\text {甲 }}=3.52,
下四分位数位置: (n+1)/4=2.75(n+1 ) / 4=2.75, QL=82+0.75×(8282)=82\mathrm{QL}=82+0.75 \times(82-82)=82,
中位数位置: (n+1)/2=(10+1)/2=5.5(n+1) / 2=(10+1) / 2=5.5, Me=(86+87)/2=86.5\mathrm{Me}=(86+87) / 2=86.5,
上四分位数位置: 3(n+1)/4=8.253(n+1) / 4=8.25, QU=88+0.25×(8988)=88.25\mathrm{QU}=88+0.25 \times(89-88)=88.25,
变异系数: V=sXˉ=3.5285.8=0.041V_{\mathrm{甲}}=\frac{s_{\mathrm{甲}}}{\bar{X}}=\frac{3.52}{85.8}=0.041.

对乙的射击成绩进行分析:
X=1ni=1nXi=83.5\overline{X_乙}=\frac{1}{n} \sum_{i=1}^n X i=83.5
S2=1n1i=1n(XiXˉ)2=20.94S_乙^2=\frac{1}{n-1} \sum_{i=1}^n(X i-\bar{X})^2=20.94, S乙 =4.58S_{\text {乙 }}=4.58,
下四分位数位置: (n+1)/4=2.75(n+1) / 4=2.75, QL=81+0.75×(8181)=81\mathrm{QL}=81+0.75 \times(81-81)=81
中位数位置: (n+1)/2=(10+1)/2=5.5(n+1) / 2=(10+1) / 2=5.5, Me=(81+83)/2=82\mathrm{Me}=(81+83) / 2=82,
上四分位数位置: 3(n+1)/4=8.253(n+1) / 4=8.25, QU=87+0.25×(8887)=87.25\mathrm{QU}=87+0.25 \times(88-87)=87.25,
变异系数: V=s乙 Xˉ=4.5883.5=0.055V_{乙}=\frac{s_{\text {乙 }}}{\bar{X}}=\frac{4.58}{83.5}=0.055.

茎叶图:

叶(甲) 叶(乙)
7 6
9 8 8 7 6 5 2 2 0 8 1 1 1 1 3 5 7 8
1 9 2
  1. (10分) 概率与频率的关系是什么? 频率的极限是概率吗?

Solution: 概率是定义在测度空间上的实值函数, 频率指的则是收集到样本后计算出的事件发生的比例. 从定义上来看, 频率也满足概率的三公理.

在某种意义下, 频率的极限是概率, 以两点分布为例, X1,,XnX_1,\cdots,X_n 是 i.i.d. 的 b(1,p)b(1,p), 这里 pp 是概率, Xˉ\bar{X} 是频率, 根据大数定律, Xˉ\bar{X} 依概率收敛到 pp.

  1. (10分) 一个不透明的袋子有 n1n-1 个黑球和 11 个白球, 每次从中取 11 个并放入 11 个黑球, 问第 nn 次取出的是黑球的概率.

Solution: 茆原题. 设 An=A_n=nn 次摸到黑球, 则

P(An)=1P(Aˉn)=1(11n)n11n,P\left( A_n \right) =1-P\left( \bar{A}_n \right) =1-\left( 1-\frac{1}{n} \right) ^{n-1}\frac{1}{n},

这里 P(Aˉn)P(\bar{A}_n) 即为之前一直抽黑, 第 nn 次取白的概率.

  1. (10分) 甲乙进行一个 5 局 3 胜的比赛, 甲赢一局的概率是 0.60.6, 乙赢一局的概率是 0.40.4, 现在甲已经赢了2局, 问:甲最终获胜的概率.

Solution: 除非乙连续赢3局, 否则都是甲赢, 故

P()=1P()=10.43=0.936.P\left( \text{甲} \right) =1-P\left( \text{乙} \right) =1-0.4^3=0.936.

  1. (10分) 某地质专家想测量某山的高度, 取多次测量取平均值作为实际高度估计值.假设各测量值 是独立同分布的随机变量, 已知测量方差为 22, 若想以 95%95 \% 的把握使误差控制在 ±1\pm 1 之内, 问: 至少需要测量多少次?

Solution: 以 Xˉ\bar{X} 估计 μ\mu, 假设是正态分布,

XˉAN(μ,2n),\bar{X}\sim AN\left( \mu ,\frac{2}{n} \right),

根据题设要求

0.95=P(Xˉμ1)=P(n2Xˉμn2)=2Φ(n2)1,0.95=P\left( \left| \bar{X}-\mu \right|\le 1 \right) =P\left( \sqrt{\frac{n}{2}}\left| \bar{X}-\mu \right|\le \sqrt{\frac{n}{2}} \right) =2\Phi \left( \sqrt{\frac{n}{2}} \right) -1,

意味着 n2=u0.025=1.96\sqrt{\frac{n}{2}}=u_{0.025}=1.96, 解得

n=2×1.962=7.6832,n=2\times 1.96^2=7.6832,

即至少 88 次.

  1. (15分) 总体 XN(μ1,σ02)X \sim N\left(\mu_1, \sigma_0^2\right), σ02\sigma_0^2 已知, 样本量为 n1n_1. 总体 YN(μ2,σ12)Y \sim N\left(\mu_2, \sigma_1^2\right), 样本量为 n2n_2. 两组样本独立.
    (1)(5分) 写出 μ1\mu_11α1-\alpha 置信区间;
    (2)(5分) 写出 μ2\mu_21α1-\alpha 置信区间;
    (3)(5分) 若 σ02=σ12\sigma_0^2=\sigma_1^2, 写出 (μ1μ2)\left(\mu_1-\mu_2\right)1α1-\alpha 置信区间.

Solution: (1) 方差已知, 用枢轴量

u=Xˉμ1σ0/n1N(0,1),u=\frac{\bar{X}-\mu _1}{\sigma _0/\sqrt{n_1}}\sim N\left( 0,1 \right) ,

置信区间是

μ1[Xˉσ0n1uα2,Xˉ+σ0n1uα2].\mu _1\in \left[ \bar{X}-\frac{\sigma _0}{\sqrt{n_1}}u_{\frac{\alpha}{2}},\bar{X}+\frac{\sigma _0}{\sqrt{n_1}}u_{\frac{\alpha}{2}} \right] .

(2) 方差未知, 用枢轴量

t=Yˉμ1SY/nt(n21),t=\frac{\bar{Y}-\mu _1}{S_Y/\sqrt{n}}\sim t\left( n_2-1 \right) ,

置信区间是

μ2[YˉSYn2tα2(n21),Yˉ+SYn2tα2(n21)].\mu _2\in \left[ \bar{Y}-\frac{S_Y}{\sqrt{n_2}}t_{\frac{\alpha}{2}}\left( n_2-1 \right) ,\bar{Y}+\frac{S_Y}{\sqrt{n_2}}t_{\frac{\alpha}{2}}\left( n_2-1 \right) \right] .

(3) 由于 σ0=σ1\sigma_0 = \sigma_1 已知, 故有

XˉYˉN(μ1μ2,(1n1+1n2)σ02),\bar{X}-\bar{Y}\sim N\left( \mu _1-\mu _2,\left( \frac{1}{n_1}+\frac{1}{n_2} \right) \sigma _{0}^{2} \right) ,

枢轴量为

(XˉYˉ)(μ1μ2)σ0(1n1+1n2)N(0,1),\frac{\left( \bar{X}-\bar{Y} \right) -\left( \mu _1-\mu _2 \right)}{\sigma _0\sqrt{\left( \frac{1}{n_1}+\frac{1}{n_2} \right)}}\sim N\left( 0,1 \right) ,

因此置信区间为

μ1μ2[XˉYˉuα2σ0(1n1+1n2),XˉYˉ+uα2σ0(1n1+1n2)].\mu _1-\mu _2\in \left[ \bar{X}-\bar{Y}-u_{\frac{\alpha}{2}}\sigma _0\sqrt{\left( \frac{1}{n_1}+\frac{1}{n_2} \right)},\bar{X}-\bar{Y}+u_{\frac{\alpha}{2}}\sigma _0\sqrt{\left( \frac{1}{n_1}+\frac{1}{n_2} \right)} \right] .

  1. (15分) X1,X2,XnX_1, X_2 \ldots, X_n 来自总体 X[0,2θ]X \sim[0,2 \theta] 的均匀分布.

(1)(8分) 分别求 θ\theta 的矩估计 θ~\tilde{\theta} 和极大似然估计 θ^\hat{\theta}.

(2)(7分) 讨论 θ^\hat{\theta} 的无偏性, 若非无偏, 则给出一个修正后的无偏估计.

Solution: (1) E(X)=θE(X) = \theta, 故矩估计是 θ~=Xˉ\tilde{\theta}=\bar{X}. 似然函数是

L(θ)=12nθnI{X(n)2θ},L(\theta) = \frac{1}{2^n\theta^n} I_{\{X_{(n)}\le 2\theta\}},

似然函数关于 θ\theta 递减, 故最大值在 θ\theta 取最小值时达到, 即 θ^=X(n)2\hat{\theta} = \frac{X_{(n)}}{2}.

(2) 均匀分布次序统计量结论有 X(n)2θBeta(n,1)\frac{X_{(n)}}{2\theta}\sim Beta(n,1), 故期望是 E[X(n)2θ]=nn+1E[\frac{X_{(n)}}{2\theta}] = \frac{n}{n+1}, 因此 E[θ^]=nn+1θE[\hat{\theta}] = \frac{n}{n+1}\theta, 有偏. 修正后的无偏估计是 θ^a=n+12nX(n)\hat{\theta}_a = \frac{n+1}{2n} X_{(n)}.

  1. (15分) X1,,XnX_1,\cdots,X_n 独立同分布, E(X)=μE(X)=\mu, Var(X)=σ2Var(X)=\sigma^2.
    (1)(5分) 给出 μ\mu 的最小二乘估计值;
    (2)(5分) 如何判断是否有离群数据? 若有, (1) 的估计会怎样? 有何改进的想法?
    (3)(5分) 样本均值为 Xˉ\bar{X}, 样本方差为 S2=1n1i=1n(XiXˉ)2,SS^2=\frac{1}{n-1} \sum_{i=1}^n\left(X_i-\bar{X}\right)^2, Sσ\sigma 的无偏估计吗? 为什么?

Solution: (1) 设 Xi=μ+εiX_i = \mu + \varepsilon_i, 其中 ε1,,εn\varepsilon_1,\cdots,\varepsilon_n 是 i.i.d. 零均值随机变量, 方差是 σ2\sigma^2. 则最小二乘估计意味着

Q(μ)=i=1n(Xiμ)2Q(\mu) = \sum_{i=1}^n (X_i-\mu)^2

达到最小, 求导有 Q(μ)=2i=1n(Xiμ)=0Q'(\mu) = -2\sum_{i=1}^n(X_i-\mu) = 0, 解得 μ^=Xˉ\hat{\mu} = \bar{X}.

(2) 利用 3σ3\sigma 准则可以判断是否有离群值. 离群值将会严重影响样本均值, 即上一问的最小二乘估计. 可以去除离群值后再重新估计.

(3) 不是. 已知 E(S2)=σ2E(S^2) =\sigma^2, 而

Var(S)=E(S2)[E(S)]2>0,Var(S) = E(S^2) - [E(S)]^2 >0,

[E(S)]2<E(S2)=σ2[E(S)]^2 < E(S^2) = \sigma^2, 故 E(S)<σE(S)<\sigma.

  1. (20分) 作身高(xx)与臂展(yy)的一元线性回归: 总计有 n=1024n=1024 个样本, 回归结果如下表
Coefficient Estimate Std. Error t-stat Pr(>|t|)
(Intercept) 0.23835 1.91840 0.124 0.901
X 0.99882 0.01096 91.142 0.000

(1)(10分) 写出参数估计表达式, 根据分析结果写出经验回归方程.
(2)(5分) 写出误差方差估计的表达式.
(3)(5分) 说明最后一列 Pr(>|t|) 的含义, 分别写出对应 H0H_0, H1H_1, 并给出假设检验结果.

Solution: (1) 线性回归 y=a+bxy=a+bx 的参数估计表达式是

b^=lxylxx=i=1n(xixˉ)(yiyˉ)i=1n(xixˉ)2,a^=yˉb^xˉ.\hat{b} = \frac{l_{xy}}{l_{xx}} = \frac{ \sum_{i=1}^n (x_i-\bar{x})(y_i-\bar{y}) }{ \sum_{i=1}^n (x_i-\bar{x})^2},\quad \hat{a} = \bar{y}-\hat{b}\bar{x}.

在回归表中, 结果是

y=0.23835+0.99882x.y = 0.23835 + 0.99882 x.

(2) 误差方差的估计是 σ^2=Sen2\hat{\sigma}^2 = \frac{S_e}{n-2}, 其中 SeS_e 是残差平方和, 即 Se=i=1n(yiy^i)2S_e = \sum_{i=1}^n (y_i-\hat{y}_i)^2.

(3) Pr(>|t|)是指系数是否为 0 的显著性检验的 pp 值, 即假设检验问题

H0:a=0H1:a0H_0:a=0\quad H_1:a\neq 0

H0:b=0H1:b0H_0:b=0\quad H_1:b\neq 0

对应的 pp 值. 这里 aa 对应的 pp 值为0.901, 不能拒绝原假设, aa 不显著. 这里 bb 对应的 pp 值为0.000, 拒绝原假设, bb 显著, 身高显著影响臂展.