北京师范大学-432统计学-2017年

一、选择题（15分）

分布中位数小于平均数, 则一般来说, 该分布( ).
A. 左偏
B. 右偏
C. 正偏
D. 无偏

Solution: B.

根据样本已经得到了 $\theta$ 的 $95\%$ 置信区间 $(\hat{\theta}_1,\hat{\theta}_2)$ , 正确的是( ).
A. 该区间以 $95 \%$ 的概率包含真值
B. 参数 $\theta$ 在该区间内的概率为 $95 \%$
C. 该区间有 $95 \%$ 的可能性包含参数 $\theta$
D. 参数 $\theta$ 或者在 $(\hat{\theta}_1,\hat{\theta}_2)$ 内, 或者不在 $(\hat{\theta}_1,\hat{\theta}_2)$ 内

Solution: D. 此时已经根据样本值得到了一个固定的置信区间, 参数要么在这个固定的区间中, 要么不在其中. 注意如果题干改为抽样之前, 则由于样本还未获得, 两个区间端点都是随机的, 随机区间 $(\hat{\theta}_1,\hat{\theta}_2)$ 覆盖参数真值 $\theta$ 的概率是 $95\%$ . 但现在, 区间已定, 参数也是个常数, 要么在里面, 要么不在里面.

下列说法错误的是( )
A. 两类错误之和可以大于 1
B. 假设检验与置信区间没有联系
C. 增大样本量可以同时提高置信度和精度
D. 独立一定不相关

Solution: B. 假设检验的接受域与置信区间有对偶关系.

技术人员对某生产线上的产品每隔10件抽样一次, 他使用的抽样方法是( ).
A. 简单随机抽样
B. 整群抽样
C. 分层抽样
D. 系统抽样

Solution: D.

设有来自方差为 $\sigma^2$ 的总体的随机样本 $X_1,\cdots,X_n$ , 定义样本均值 $\bar{X}$ , 则有 $Var(X_1-\bar{X})=$ ( ).
A. $\sigma ^2$
B. $\frac{n-2}{n}\sigma ^2$
C. $\frac{n+1}{n}\sigma ^2$
D. $\frac{n-1}{n}\sigma ^2$

Solution: D.
注意协方差不为 0, 有

\begin{aligned} Var\left( X_1-\bar{X} \right) &=Var\left( X_1 \right) +Var\left( \bar{X} \right) -2Cov\left( X_1,\bar{X} \right)\\ &=\sigma ^2+\frac{\sigma ^2}{n}-2\frac{\sigma ^2}{n}=\frac{n-1}{n}\sigma ^2.\\ \end{aligned}

二、问答题

(10分) 随机变量的定义是什么?

Solution: 随机变量本质是一个实值函数, 若有可测空间 $(\Omega,\mathcal{F})$ , 则随机变量是

X(\omega):\Omega \rightarrow R,

且满足对任意 $x\in R$ , 有

\{\omega:X(\omega)\le x\} \in \mathcal{F}.

2.(10分) 某篮球队队员年龄为 $37, 35, 32, 28, 27, 27, 24, 22, 19$ , 写出这组数据的分析报告.

Solution:
(i) 可以用平均值、中位数、标准差等统计量作分析;
(ii) 可以用箱线图、茎叶图等图形作分析;
(iii) 可以用集中趋势、离散趋势、分布形状作分析.

这里, 有
$\bar{x} = 27.89$ , $s=5.93$ , 变异系数 $C=0.21$ , 中位数 $M = 27$ .

茎叶图为

茎	叶
3	7 5 2
2	8 7 7 4 2
1	9

分析:
变异系数较小, 仅为 0.21, 说明数据集中程度较高. 茎叶图中可以也看出, 年龄主要集中在20多岁.

3.(12分) 一学生接连参加同一课程的两次考试, 第一次及格的概率是 $p$ , 若第一次及格则第二次及格的概率是 $p$ ; 若第一次不及格则第二次及格的概率是 $\frac{p}{2}$ . 求:
(1) 若至少有一次及格则他能够取得某资格, 求他取得该资格的概率;
(2) 若已知他第二次已经及格, 求他第一次及格的概率.

Solution: (1) 利用对立事件,

P\left( A \right) =1-P\left( \bar{A} \right) =1-\left( 1-p \right) \left( 1-\frac{p}{2} \right) =1-\left( 1-\frac{3p}{2}+\frac{p^2}{2} \right) =\frac{3p-p^2}{2}.

(2) 利用条件概率公式

P\left( B_1|B_2 \right) =\frac{P\left( B_1B_2 \right)}{P\left( B_2 \right)}=\frac{p^2}{p^2+\left( 1-p \right) \frac{p}{2}}=\frac{2p}{p+1}.

(10分) 有奖竞猜活动, 三个门里分别是汽车、羊、羊, 猜中汽车得奖. 你先选一个, 然后主持人把没有汽车的门打开, 问: 你此时要不要换? 为什么?

【注意】: 这里要添加一个前提, 那就是主持人是知道门后的东西的, 即他能保证一定打开一扇门, 门后是山羊.

Solution: 首先, 不换获得汽车的概率是 $\frac{1}{3}$ . 下面我们考虑换门获得汽车的概率.

总共只有三种情况:
(i) 设我们选的是一号羊, 则主持人打开另外一只羊的门, 换门获得汽车;
(ii) 设我们选的是二号羊, 则主持人打开另外一只羊的门, 换门获得汽车;
(iii) 设我们选的是汽车, 则主持人随便打开一只羊的门, 换门不获得汽车.

综上所述, 只要我们一开始没有选对, 换门都将获得汽车, 这一概率是 $\frac{2}{3}$ . 所以我们要换门.

(15分) 设 $X_1,\cdots,X_n$ 是 i.i.d. 的 $N(\mu,\sigma^2)$ 的随机样本, 其中 $\mu,\sigma^2$ 是未知参数.
(1) (7分) 样本标准差是总体标准差无偏估计吗?
(2) (8分) $\bar{x}^2$ 是 $\mu^2$ 的无偏估计吗? 若不是, 给出 $\mu^2$ 的一个无偏估计.

Solution: (1) 不是. 已知 $E(S^2) =\sigma^2$ , 而

Var(S) = E(S^2) - [E(S)]^2 >0,

即 $[E(S)]^2 < E(S^2) = \sigma^2$ , 故 $E(S)<\sigma$ .

(2) 由于 $\bar{x} \sim N(\mu,\frac{\sigma^2}{n})$ , 故 $E(\bar{x}^2) = \mu^2 +\frac{\sigma^2}{n}$ , 它不是 $\mu^2$ 的无偏估计, 修正后看出 $\bar{x}^2 - \frac{S^2}{n}$ 恰好是 $\mu^2$ 的无偏估计.

6.(15分) (1) 比较均值、众数、中位数的特点, 并举例说明;
(2) 比较标准差和变异系数的特点, 并举例说明;
(3) 说明标准分数的计算公式, 并说明其意义.

Solution: (1) 平均数、中位数、众数都是度量一组数据集中趋势的统计量。所谓集中趋势是指一组数据向某一中心值靠拢的倾向，测度集中趋势就是寻找数据一般水平的代表值或中心值。而这三个特征数又各有特点，能够从不同的角度提供信息。
[平均数]
特点：计算用到所有的数据，它能够充分利用数据提供的信息，它具有良好的数学性质，因此在实际应用中较为广泛。但它受极端值的影响较大。
应用场合：没有极端值的情况下数据集中趋势的刻画，例如考研数学平均分衡量今年数学难度。
[中位数]
特点：中位数是一组数据中间位置的代表值。计算简单，不受极端值的影响，但不能充分利用每个数据所提供的信息。
应用场合：有极端值，且无某数据重复出现多次的情况下集中趋势的刻画，例如工资收入的中位数衡量了一个公司员工工资的整体水平。
[众数]
特点：众数是一组数据中出现次数最多的数据。不受极端值的影响，当一组数据中苛些数据多次重复出现时，众数往往是人们最关心的一个量。但它不能象平均数那样充分利用数据提供信息。
应用场合：有极端值，有某些数据多次重复出现时，如某鞋店卖出鞋码的众数应被进货最多。

(2) 1.变异系数是无量纲的，而平均值和标准差的量纲相同都为随机变量的量纲。2.比较量纲不同的两个随机变量的分散度时用变异系数为好。3.量纲相同的两个随机变量但平均值差别较大时用变异系数评价分散度。4.用变异系数评价分散度时消除了平均值大小的影响。

(3) 用公式表示为： $z=(x-\mu)/\sigma$ ; 其中 $z$ 为标准分数; $x$ 为某一具体分数, $\mu$ 为平均数, $\sigma$ 为标准差。
$z$ 值的量代表着原始分数和母体平均值之间的距离，是以标准差为单位计算。在原始分数低于平均值时 $z$ 则为负数，反之则为正数。

7.(15分) 某人每天上班路上花费 $X$ 分钟, 是随机变量 $N(50,100)$ . 七点出发, 八点上班.
(1)(7分) 他某天迟到的概率是多少?
(2)(8分) 一周(5天)最多迟到一天的概率是多少?
可能用到的: $\Phi(1)=0.8413$ , $\Phi(2) =0.9772$ .

Solution: (1) $P(X\ge 60)=P(\frac{X-50}{10} \ge -1)=1- \Phi(-1)=\Phi(1)=0.1587.$
(2) 一周迟到天数是 $Y\sim B(5,0.1587)$ , 而

P(Y\ge 1) = 0.82.

(15分) 设 $X_1,\cdots,X_n$ 是来自 $N(\mu,\sigma^2)$ 的独立样本.
(1) (7分) 求 $\sigma^2$ 的MLE, 它是无偏估计吗?
(2) (8分) 如果 $\sigma^2 =9$ , 求 $\mu$ 的 $1-\alpha$ 置信区间.

Solution: (1) 似然函数为

L\left( \mu,\sigma ^2 \right) =\left( 2\pi \sigma ^2 \right) ^{-\frac{n}{2}}e^{-\frac{1}{2\sigma ^2}\sum_{i=1}^n{\left( x_i-\mu \right) ^2}},

对数似然函数是

\ell \left( \mu,\sigma ^2 \right) =-\frac{n}{2}\ln \left( 2\pi \right) -\frac{n}{2}\ln \sigma ^2-\frac{1}{2\sigma ^2}\sum_{i=1}^n{\left( x_i-\mu \right) ^2},

求导得

\ell'(\mu)=-\frac{-2\sum_{i=1}^n(x_i-\mu)}{2\sigma^2}, \quad \ell '\left( \sigma ^2 \right) =-\frac{n}{2\sigma ^2}+\frac{\sum_{i=1}^n{\left( x_i-\mu \right) ^2}}{2\sigma ^4},

令其为 $0$ , 解得

\hat{\mu}=\bar{x},\quad\hat{\sigma}^2=\frac{1}{n}\sum_{i=1}^n{\left( x_i-\bar{x} \right) ^2}.

由于 $\frac{\sum_{i=1}^n(x_i-\bar{x})^2}{\sigma^2}\sim \chi^2(n-1)$ , 因此 $E(\hat{\sigma}^2)=\frac{n-1}{n}\sigma^2$ , 不是无偏估计.

(2) 利用 $\bar{X}\sim N(\mu,\frac{9}{n})$ 构造区间, 即有

\mu \in \left[ \bar{X}-u_{\frac{\alpha}{2}}\frac{3}{\sqrt{n}},\bar{X}+u_{\frac{\alpha}{2}}\frac{3}{\sqrt{n}} \right] .

9.(15分) 从 $N(\mu,1)$ 总体抽取 100 个随机样本 $x_1,\cdots,x_{100}$ , 为讨论假设检验问题

H_0:\mu = 0 \quad \mathrm{vs} \quad H_1:\mu \neq 0

构造拒绝域 $W=\{|\bar{x}|<0.001\}$ .

(1)(8分) 已知 $\Phi(0.01)<0.505$ , 证明犯第一类错误概率 $\alpha <0.01$ ;
(2)(7分) $W$ 是一个合适的拒绝域吗? 为什么?

Solution: (1) 样本均值 $\bar{x}\sim N\left( \mu ,\frac{1}{100} \right)$ , 故有

\alpha =P_{\mu =0}\left( \left| \bar{X} \right|<0.001 \right) =P_{\mu =0}\left( \left| 10\bar{X} \right|<0.01 \right) =2\Phi \left( 0.01 \right) -1<0.01.

(2) 不是, $|\bar{x}|<0.001$ 实际正反应了 $|\mu|$ 比较小, 接近于 0, 正确的拒绝域形式应是形如 $\{|\bar{x}|>c\}$ , 其中 $c$ 可由显著性水平确定.

(18分) 有下述一元线性的方差分析表

变量	平方和	自由度	Prob( $>F$ )
回归	612	1	0.0001
残差
总	888	29

(1)(4分) 样本量和参数分别是几个?
(2)(4分) 补齐方差分析表.
(3)(5分) 给定 $\alpha=0.05$ , 方程是否显著?
(4)(5分) 给出 $R^2$ , 以及误差方差的估计量.

Solution: (1) 回归平方和的自由度为 1, 说明参数为 2 个. 总平方和的自由度为 29, 说明样本量是 30.
(2) 补齐后为

变量	平方和	自由度	均方	$F$ 比	Prob( $>F$ )
回归	612	1	612	62.07	0.0000
残差	276	28	9.86
总	888	29

(3) 方程是显著的, 因为 $F$ 检验的 p 值是 0.0000<0.05, 拒绝原假设.

(4) $R^2 = \frac{612}{888} = 0.689$ , 残差方差的估计量是残差对应的均方, 即 $9.86$ .