上海交通大学-432统计学-2016年

一.选择题 (10小题，每小题 6 分，共60分)

从一个 600 人的小区里抽住户，先按单元分，抽取若干单元的住户，再从抽取的若干个单元中，按完全随机的办法抽取 60 户，这种是什么抽样方法? ( )
A. 整群抽样
B. 分层抽样
C. 系统抽样
D. 多阶段抽样

Solution: D

多阶段抽样是先将一个很大的总体划分为若干个子总体，即一阶单位，再把一阶单位划分为若干个更小的单位，称为二阶单位，照此继续下去划分出更小的单位，依次称为三阶单位、四阶单位等。然后分别按随机原则逐阶段抽样。

为调查群众戴口罩的频率, 调查者采用问卷调查, 问卷中的一个问题为"您戴口罩的频繁吗?", 选项为“从来不戴”、“极少戴”、“偶尔戴”、“经常戴”. 这一调查包含的误差类型是( )
A.记忆误差
B.理解误差
C.无回答误差
D.有意识误差

Solution: B

自填式问卷调查的缺点是什么? ( )
A. 回收率低
B. 成本太高
C. 只适合复杂的问卷
D. 调查周期短

Solution: A

自填式问卷调查成本低、只适合简单问卷、调查周期长，但回收率低.

一个月份或季度的季节指数指的是该月份或季度数值 ( )
A. 占全年月份或季度数值总和的比率
B. 占以往所有年份相应的月份或季度数值平均的比率
C. 占全年月份或季度数值的平均数的比率
D. 以上选项都不对

Solution: B

季节指数以平均数据进行计算.

设 $X_{1}, \cdots, X_{5}$ 为来自均匀分布 $U(0, \theta)$ 的简单随机样本, 令 $Y_{1}=\min \left\{X_{i}\right\}, Y_{5}=\max \left\{X_{i}\right\}$ , 则 $\theta$ 的 $90 \%$ 置信区间为()
(A) $\left(\frac{Y_{1}}{\sqrt[5]{0.95}}, \frac{Y_{1}}{\sqrt[5]{0.05}}\right)$
(B) $\left(\frac{Y_{5}}{\sqrt[5]{0.95}}, \frac{Y_{5}}{\sqrt[5]{0.05}}\right)$
(C) $\left(\begin{array}{cc}\frac{Y_{1}}{\sqrt[5]{0.9}}, & \frac{Y_{5}}{\sqrt[5]{0.9}}\end{array}\right)$
(D) $\left(\frac{Y_{1}}{1-\sqrt[5]{0.1}}, \frac{Y_{5}}{\sqrt[5]{0.1}}\right)$

Solution: B
$X_{i}$ 的概率密度函数: $f\left(x_{i}\right)= \begin{cases}\frac{1}{\theta} & x \in(0, \theta) \\ 0 & \text { 其他 }\end{cases}$ 所以 $Y_{5}$ 的概率密度函数: $f_{Y_{5}}(y)=\left\{\begin{array}{cc}\frac{5 y^{4}}{\theta^{5}} & y \in(0, \theta) \\ 0 & \text { 其他 }\end{array}\right.$ ，故 $\frac{Y_{5}}{\theta}$ 为枢轴量, 其概率密度函数:

f_{\frac{Y_{5}}{\theta}}(y)=\left\{\begin{array}{cc} 5 y^{4} & y \in(0,1) \\ 0 & \text { 其他 } \end{array}\right.

于是有 $P\left(\sqrt[5]{0.05}<\frac{Y_{5}}{\theta}<\sqrt[5]{0.95}\right)=0.9$ , 反解得到置信区间

\left(\frac{Y_{5}}{\sqrt[5]{0.95}}, \frac{Y_{5}}{\sqrt[5]{0.05}}\right)

甲乙两人轮流掷骰子, 先掷出1或6者取胜, 问先掷者获胜的概率是( ).
A. $\frac{1}{3}$ ;
B. $\frac{1}{2}$ ;
C. $\frac{2}{5}$ ;
D. $\frac{3}{5}$ .

Solution: D

\frac{1}{3}\sum_{i=0}^{\infty}{\left( \frac{2}{3} \right) ^i}=\frac{1}{3}\cdot \frac{1}{1-\left( \frac{2}{3} \right) ^2}=\frac{3}{5}

设 $h(x)=[x]$ , 已知 $\xi \sim \exp (\theta)$ , 则 $h(\xi)$ 的分布是 ( ).
(A) 泊松分布, 参数为 $e^{-\theta}$ ;
(B) 几何分布, 参数为 $e^{-\theta}$ ;
(C) 泊松分布, 参数为 $1-e^{-\theta}$ ;
(D) 几何分布, 参数为 $1-e^{-\theta}$ .

Solution: $h(\xi)+1$ 的分布是参数为 $\left(1-e^{-\theta}\right)$ 的几何分布 $\xi$ 的分布函数是 $F_{\xi}(x)= \begin{cases}1-e^{-\theta x} & x>0 \\ 0 & \text { 其他 }\end{cases}$

\begin{aligned} P(h(\xi)+1=x) &=P([\xi]=x-1) \\ &=P(x-1 \leqslant \xi<x) \\ &=F_{\xi}(x)-F_{\xi}(x-1) \\ &=1-e^{-\theta x}-\left(1-e^{-\theta(x-1)}\right) \\ &=e^{-\theta(x-1)-\theta}-e^{-\theta(x-1)}=e^{-\theta(x-1)}\left(1-e^{-\theta}\right) \end{aligned}

故 $h(\xi)+1$ 服从参数为 $\left(1-e^{-\theta}\right)$ 的几何分布.

已知独立双样本 $X_{1}, \cdots, X_{n} \stackrel{i i d}{\sim} N\left(0, \sigma_{X}^{2}\right), Y_{1}, \cdots, Y_{m} \stackrel{i i d}{\sim} N\left(0, \sigma_{Y}^{2}\right)$ , 原假设为 $\sigma_{X}=\sigma_{Y}$ . 问样本方差之比 $S_{X}^{2} / S_{Y}^{2}$ 在原假设为真时服从的分布是 ( ).
(A) $F(n, m)$ ;
(B) $F(m, n)$ ;
(C) $F(n-1, m-1)$ ;
(D) $F(m-1, n-1)$ .

Solution: C
因为

S_{X}^{2}=\frac{\sum_{i=1}^{n}\left(X_{i}-\bar{X}\right)^{2}}{n-1}, \quad S_{Y}^{2}=\frac{\sum_{i=1}^{m}\left(Y_{i}-\bar{Y}\right)^{2}}{m-1},

当 $\sigma_{X}=\sigma_{Y}$ 时, 有

\frac{S_{X}^{2}}{S_{Y}^{2}}=\frac{\frac{\chi^{2}(n-1)}{n-1}}{\frac{\chi^{2}(m-1)}{m-1}} \sim F(n-1, m-1),

注意这里是“样本方差”, 即使 $\mu$ 已知, 样本方差依然是 $S_{X}^{2}=\frac{\sum_{i=1}^{n}\left(X_{i}-\bar{X}\right)^{2}}{n-1}, \quad S_{Y}^{2}=\frac{\sum_{i=1}^{m}\left(Y_{i}-\bar{Y}\right)^{2}}{m-1}$ .

设 $X_{1}, \cdots, X_{n}$ 为正态分布 $\mathrm{N}\left(\mu, \sigma^{2}\right)$ 的样本, $\mu$ 末知而 $\sigma^{2}$ 已知。 $\bar{X}$ 和 $S^{2}=\frac{1}{n-1} \sum_{i=1}^{n}\left(X_{i}-\bar{X}\right)^{2}$ 为样本均值及样本方差。记, $T_{1}=\frac{\bar{x}-\mu}{\sigma / n}, T_{2}=\frac{\bar{x}-\mu}{s / n}, T_{3}=\frac{(n-1) S^{2}}{\sigma^{2}}$ , 则 $T_{1}, T_{2}, T_{3}$ 中统计量的个数为 ()
(A) 0
(B) 1
(C) 2
(D) 3

Solution: B
统计量指样本的函数 $T\left(X_{1}, X_{2}, \cdots, X_{n}\right)$ ; 统计量依赖且只依赖于样本, 它不含任何末知参数(故一般其分布与末知参数有关). 由于 $\mu$ 末知, 故 $T_{1}, T_{2}$ 不是统计量, $T_{3}$ 是统计量.

设有来自方差为 $\sigma^2$ 的总体的随机样本 $X_1,\cdots,X_n$ , 定义样本均值 $\bar{X}$ , 则有 $Var(X_1-\bar{X})=$ ( ).
A. $\sigma ^2$
B. $\frac{n-2}{n}\sigma ^2$
C. $\frac{n+1}{n}\sigma ^2$
D. $\frac{n-1}{n}\sigma ^2$

Solution: D.

注意协方差不为 0, 有

\begin{aligned} Var\left( X_1-\bar{X} \right) &=Var\left( X_1 \right) +Var\left( \bar{X} \right) -2Cov\left( X_1,\bar{X} \right)\\ &=\sigma ^2+\frac{\sigma ^2}{n}-2\frac{\sigma ^2}{n}=\frac{n-1}{n}\sigma ^2.\\ \end{aligned}

二、简答题

抽样调查的主要优点有哪些?

Solution:
1、抽样调查可以减少调查的工作量，调查内容可以求多、求全或求专，可以保证调查对象的完整性。

2、可以从数量上以部分推算总体，利用概率论和数理统计原理，以一定的概率保证推算结果的可靠程度，起到全面调查认识总体的功能，可以保证调查的精度。

3、因为抽样调查是针对总体中的一部分单位进行的，抽样调查可以大大减少调查费用，提高调查效率。

4、收集、整理数据、综合样本的速度快，保证调查的时效性。

(1) 比较均值、众数、中位数的特点, 并举例说明;
(2) 比较标准差和变异系数的特点, 并举例说明;
(3) 说明标准分数的计算公式, 并说明其意义.

Solution: (1) 平均数、中位数、众数都是度量一组数据集中趋势的统计量。所谓集中趋势是指一组数据向某一中心值靠拢的倾向，测度集中趋势就是寻找数据一般水平的代表值或中心值。而这三个特征数又各有特点，能够从不同的角度提供信息。
[平均数]
特点：计算用到所有的数据，它能够充分利用数据提供的信息，它具有良好的数学性质，因此在实际应用中较为广泛。但它受极端值的影响较大。
应用场合：没有极端值的情况下数据集中趋势的刻画，例如考研数学平均分衡量今年数学难度。
[中位数]
特点：中位数是一组数据中间位置的代表值。计算简单，不受极端值的影响，但不能充分利用每个数据所提供的信息。
应用场合：有极端值，且无某数据重复出现多次的情况下集中趋势的刻画，例如工资收入的中位数衡量了一个公司员工工资的整体水平。
[众数]
特点：众数是一组数据中出现次数最多的数据。不受极端值的影响，当一组数据中苛些数据多次重复出现时，众数往往是人们最关心的一个量。但它不能象平均数那样充分利用数据提供信息。
应用场合：有极端值，有某些数据多次重复出现时，如某鞋店卖出鞋码的众数应被进货最多。

(2) 1.变异系数是无量纲的，而平均值和标准差的量纲相同都为随机变量的量纲。2.比较量纲不同的两个随机变量的分散度时用变异系数为好。3.量纲相同的两个随机变量但平均值差别较大时用变异系数评价分散度。4.用变异系数评价分散度时消除了平均值大小的影响。

(3) 用公式表示为： $z=(x-\mu)/\sigma$ ; 其中 $z$ 为标准分数; $x$ 为某一具体分数, $\mu$ 为平均数, $\sigma$ 为标准差。
$z$ 值的量代表着原始分数和母体平均值之间的距离，是以标准差为单位计算。在原始分数低于平均值时 $z$ 则为负数，反之则为正数。

随机变量 $X_i(i=1,2,3, \ldots, n)$ 独立同分布，且 $E\left(X_i\right)=1, E\left(X_i^2\right)=2, E\left(X_i^4\right)=8$ ，则当 $n \rightarrow \infty$ 时， $\frac{\sum_{i-1}^n X_i^2}{n}$ 服从什么分布，并说明概率密度函数的形态变化.

Solution:

由于 $X_1^2, \cdots, X_n^2$ 是独立同分布的, 且其数学期望存在 $EX_1^2 = 2$ , 那么根据大数定律, 有 $\frac{\sum_{i=1}^n{X_{i}^{2}}}{n}\xrightarrow{P}2$ .

另外, $Var(X_1^2) = 8 - 4 = 4$ , 那么根据中心极限定理, 有 $\sqrt{n}\left( \frac{\sum_{i=1}^n{X_{i}^{2}}}{n}-2 \right) \xrightarrow{d}N\left( 0,4 \right)$ .

当 $n$ 增大时, $\frac{\sum_{i=1}^n X_i^2}{n}$ 的密度函数将会越来越聚集于一点.

甲乙丙三人进行信息传递游戏, 通过表演将某个动物的名称传给下一个人. 假设所有人都知道题目只有“猫”或“狗”. 甲是第一个人, 他看到的动物是“猫”, 他以表演的方式将信息传递给乙, 乙再通过表演的方式将信息传递给丙, 丙说出动物名称. 若每个人信息传递正确的概率均为 $\frac{1}{3}$ , 求丙说出“猫”的概率.

Solution:

只需计算甲、乙都传递正确或甲乙都传递错误的概率, 是 $\frac{2}{3}\cdot \frac{2}{3}+\frac{1}{3}\cdot \frac{1}{3}=\frac{5}{9}$ .

三. 计算题

有下述一元线性的方差分析表

变量	平方和	自由度	Prob( $>F$ )
回归	612	3	0.0001
残差
总	888	30

(1)(4分) 样本量和参数分别是几个?
(2)(4分) 补齐方差分析表.
(3)(5分) 给定 $\alpha=0.05$ , 方程是否显著?
(4)(5分) 给出 $R^2$ , 以及误差方差的估计量.

Solution:

(1) 回归平方和的自由度为 3, 说明参数为 4 个. 总平方和的自由度为 30, 说明样本量是 31.

(2) 补齐后为

变量	平方和	自由度	均方	$F$ 比	Prob( $>F$ )
回归	612	3	204	19.96	0.0001
残差	276	27	10.22
总	888	30

(3) 方程是显著的, 因为 $F$ 检验的 p 值是 0.0001<0.05, 拒绝原假设.

(4) $R^2 = \frac{612}{888} = 0.689$ , 残差方差的估计量是残差对应的均方, 即 $10.22$ .

机场大巴从起点站到西单站恰有 $n$ 站, 某次大巴从机场开出时有 $m$ 位旅客, 每位旅客在每站下车都是等可能的(即每人都有 $n$ 次下车选择), 如果无人下车则中途不停车. 求机场大巴到西单站的平均停车次数.

设 $X_1,\cdots,X_n$ 分别是各站停车次数, $X_1=1$ 表示在第一站停车, $X_1=0$ 表示不停车, 则题目所求即为 $E(X)=E(X_1+\cdots+X_n)=E(X_1)+\cdots+E(X_n)=nE(X_1)$ . 而

E\left( X_1 \right) =P\left( X_1=1 \right) =1-P\left( X_1=0 \right) =1-\left(1- \frac{1}{n} \right) ^m,

因此 $E\left( X \right) =n\left[ 1-\left( 1-\frac{1}{n} \right) ^m \right]$ .

四. 证明题

设 $p \in(0,1), 0<\alpha<(1-p) / p$ . 已知一个家庭有 $n$ 个小孩的概率是

p_{n}= \begin{cases}\alpha p^{n}, & n \geq 1, \\ 1-\alpha p /(1-p), & n=0 .\end{cases}

又设男婴和女婴的出生是等可能的. 回答:

(1) 求一个家庭有 $k$ 个男孩的概率;

(2) 已知某家庭没有女孩, 求该家庭有 1 个男孩的概率.

Solution: 分别用 $X_{1}$ 和 $X_{2}$ 表示一个家庭的男孩、女孩数量, 则
(1) 根据全概率公式, $P\left( X_1=k \right) =\sum_{n=k}^{\infty}{C_{n}^{k}\left( \frac{1}{2} \right) ^np_n}$ ,

若 $k = 0$ , 则

P\left( X_1=0 \right) =\sum_{n=0}^{\infty}{C_{n}^{k}\left( \frac{1}{2} \right) ^np_n}=1-\frac{\alpha p}{1-p}+\sum_{n=1}^{\infty}{C_{n}^{0}\left( \frac{1}{2} \right) ^n\alpha p^n}=1-\frac{\alpha p}{1-p}+\alpha \sum_{n=1}^{\infty}{\left( \frac{p}{2} \right) ^n}=1-\frac{\alpha p}{1-p}+\alpha \frac{p}{2-p}

当 $k \ge 1$ , 则

P\left( X_1=k \right) =\sum_{n=k}^{\infty}{C_{n}^{k}\left( \frac{1}{2} \right) ^np_n}=\sum_{n=k}^{\infty}{C_{n}^{k}\left( \frac{1}{2} \right) ^n\alpha p^n}=\alpha \left( \frac{p}{2} \right) ^{-1}\sum_{n=k+1}^{\infty}{C_{n-1}^{\left( k+1 \right) -1}\left( \frac{p}{2} \right) ^n}=\alpha \left( \frac{p}{2} \right) ^{-1}\left( \frac{p}{2-p} \right) ^{k+1}=\frac{2\alpha p^k}{\left( 2-p \right) ^{k+1}}

注意这里我们用到了负二项分布公式, 即设 $Z$ 表示伯努利试验成功 $r$ 次所需的总次数, 即 $Z\sim Nb(r,p)$ , 有分布列 $1=\sum_{n=r}^{\infty}{C_{n-1}^{r-1}p^rq^{n-r}}=\left( \frac{p}{q} \right) ^r\sum_{n=r}^{\infty}{C_{n-1}^{r-1}q^n}$ , 则有公式 $\sum_{n=r}^{\infty}{C_{n-1}^{r-1}q^n}=\left( \frac{q}{p} \right) ^r$ , 其中 $p = 1-q$ . 利用该公式可计算前面式中

\sum_{n=k+1}^{\infty}{C_{n-1}^{\left( k+1 \right) -1}\left( \frac{p}{2} \right) ^n}=\left( \frac{\frac{p}{2}}{1-\frac{p}{2}} \right) ^{k+1}=\left( \frac{p}{2-p} \right) ^{k+1}

(2)

P\left( X_1=1\mid X_2=0 \right) =\frac{P\left( X_1=1,X_2=0 \right)}{P\left( X_2=0 \right)}=\frac{\frac{1}{2}\alpha p}{1-\frac{\alpha p}{2-3p+p^2}}