上海交通大学-432统计学-2020年

一.选择题 (30小题，每小题 2 分，共60分)

某学院共有 1000 名男生和 2000 名女生, 为调查学生的平均生活支出费用, 将全体男女学生以 1 比 2 抽样, 这种抽样方法是 ( ).
A. 简单随机抽样
B. 分层抽样
C. 系统抽样
D. 整体抽样

Solution: B

分层抽样法, 也叫类型抽样法。就是将总体单位按其属性特征分成若干类型或层, 然后在类型或层中随机抽取样本单位。分层抽样的特点是: 由于通过划类分层, 增大了各类型中单位间的共同性, 容易抽出具有代表性的调查样本。该方法适用于总体情况复杂, 各单位之间差异较大, 单位较多的情况。将男女分成两类, 属于分层抽样.

有一批灯泡共1000箱, 每箱200个, 现随机抽取20箱并检查这些箱中全部灯泡, 此种检验属于（）
A. 纯随机抽样
B. 类型抽样
C. 整群抽样
D. 等距抽样

Solution: C

整群抽样是指整群地抽选样本单位，对被抽选的各群进行全面调查的一种抽样组织方式。例如，检验某种零件的质量时，不是逐个抽取零件，而是随机抽若干盒 (每盒装有若干个零件)，对所抽各盒零件进行全面检验。

为了解小区居民对物业服务的意见和看法, 管理人员随机抽取了 50 户居民, 上门通过问卷进行调查, 这种数据收集方法是 ( )
A. 面访式问卷调查
B. 实验调查
C. 观察式调查
D. 自填式问卷调查

Solution: A

显然是面访式问卷调查。

下面的哪一个图形适合于比较研究两个或多个样本或总体的结构性问题 ( )
A. 环形图
B. 饼图
C. 直方图
D. 茎叶图

Solution: A

环形图与饼图类似, 环形图中间有一个“空洞”, 每个样本用一个环来表示, 样本中的每一部分数据用环中的一段表示, 因此环形图可显示多个样本各部分所占的相应比例, 有利于对构成做比较研究。故都适用多个总体比较。

有四位同学的某一门课程成绩分别为 $71 ， 82 ， 87,90$ 。则他们成绩的中位数是 ( )
A. 81
B. 82.5
C. 84.5
D. 87

Solution: C

容易计算 $=\frac{82+87}{2}=84.5$

下列描述分布离散程度的统计量中, 哪一个具有稳健性 ( )
A. 标准差
B. 四分位差
C. 极差
D. 变异系数

Solution: B

四分位差受极端值影响最小, 类似于中位数.

在某公司进行的英语水平测试中, 新员工的平均得分是80分, 标准差是 5 分, 中位数是85分, 则新员工得分的分布形状是 ( )
A. 对称的
B. 左偏的
C. 右偏的
D. 无法确定

Solution: B

平均值小于中位数, 说明是左偏的.

$X_i \sim N\left(\mu, \sigma^2\right) ， i=1,2,3, \ldots, n$ ，其中 $\mu$ 为已知常数，则 $\sigma^2$ 的充分无偏估计是 ( ).
A. $\frac{1}{10} \sum_1^{10}\left(X_i-\bar{X}\right)^2$
B. $\frac{1}{10} \sum_1^{10}\left(X_i-\mu\right)^2$
C. $\frac{1}{9} \sum_1^{10}\left(X_i-\mu\right)^2$
D. $\frac{1}{9} \sum_1^9\left(X_i-\mu\right)^2$

Solution: B

A, C有偏, D不充分.

设 $X_1 、 X_2 、 X_3 、 X 4$ 是来自总体 $X$ 的样本， $E X=\mu$ 则 ( ) 是 $\mu$ 的最有效估计.
A. $\hat{\mu}_1=\frac{1}{5} x_1+\frac{1}{5} x_2+\frac{1}{5} x_3+\frac{2}{5} x_4$
B. $\hat{\mu}_2=\frac{1}{3} x_1+\frac{1}{3} x_2+\frac{1}{6} x_3+\frac{1}{6} x_4$
C. $\hat{\mu}_3=\frac{1}{4} x_1+\frac{1}{4} x_2+\frac{1}{4} x_3+\frac{1}{4} x_4$
D. $\hat{\mu}_4=\frac{1}{9} x_1+\frac{2}{9} x_2+\frac{3}{9} x_3+\frac{4}{9} x_4$

Solution: C

即找到方差最小的无偏估计, 这四个选项中 C 给出的估计量方差最小.

设 $X_1, X_2, \ldots X_{n_1}$ 是来自正态总体 $N\left(\mu_1, \sigma_1^2\right)$ 的一个样本，设 $Y_1, Y_2, \ldots, Y_{n_2}$ 是来自正态总体 $N\left(\mu_2, \sigma_2^2\right)$ 的一个样本，且 $X_i\left(i=1,2,3, \ldots, n_1\right)$ 与 $Y_i\left(i=1,2,3, . ., n_2\right)$ 相互独立，已知 $n_1 、 n_2 、 S_1^2 、 S_2^2$ ，通过查表可知 $F_{\alpha / 2}\left(n_1, n_2\right) 、 F_{\alpha / 2}\left(n_2, n_1\right) 、 F_{\alpha / 2}\left(n_1-1, n_2-1\right) 、 F_{\alpha / 2}\left(n_2-1, n_1-1\right)$ . 则方差之比 $\sigma_1^2 / \sigma_2^2$ 的置信区间为( ).
A. $\frac{S_1^2 / S_2^2}{F_{\alpha / 2}\left(n_1, n_2\right)} \leq \frac{\sigma_1^2}{\sigma_2^2} \leq \frac{S_1^2}{S_2^2} F_{\alpha / 2}\left(n_2, n_1\right)$
B. $\frac{S_1^2 / S_2^2}{F_{\alpha / 2}\left(n_1-1, n_2-1\right)} \leq \frac{\sigma_1^2}{\sigma_2^2} \leq \frac{S_1^2}{S_2^2} F_{\alpha / 2}\left(n_2-1, n_1-1\right)$
C. $\frac{S_1^2 / S_2^2}{F_{\alpha / 2}\left(n_1, n_2\right)} \leq \frac{\sigma_1^2}{\sigma_2^2} \leq \frac{S_1^2 / S_2^2}{F_{\alpha / 2}\left(n_2, n_1\right)}$
D. $\frac{S_1^2 / S_2^2}{F_{\alpha / 2}\left(n_1-1, n_2-1\right)} \leq \frac{\sigma_1^2}{\sigma_2^2} \leq \frac{S_1^2 / S_2^2}{F_{\alpha / 2}\left(n_2-1, n_1-1\right)}$

Solution: B

注意这里用的应是上分位数, 根据F分布的对称性, 置信区间应为

\begin{aligned} \left[ \frac{s_{1}^{2}/s_{2}^{2}}{F_{\frac{\alpha}{2}}\left( n_1-1,n_2-1 \right)},\frac{s_{1}^{2}/s_{2}^{2}}{F_{1-\frac{\alpha}{2}}\left( n_1-1,n_2-1 \right)} \right] &=\left[ \frac{s_{1}^{2}/s_{2}^{2}}{F_{\frac{\alpha}{2}}\left( n_1-1,n_2-1 \right)},\frac{s_{1}^{2}}{s_{2}^{2}}F_{\frac{\alpha}{2}}\left( n_2-1,n_1-1 \right) \right]\\ \end{aligned}

某公司宣称其产品质量大大高于标准，为检验其说法是否真实，应该建立原假设 ( ).
A. 产品质量小于标准
B. 产品质量等于标准
C. 产品质量大于标准
D. 产品质量不大于标准

Solution: D

应该建立单侧检验, 其次我们想要推翻该公司结论, 因此备择假设应该是 C 中的描述, 故原假设应该是 D. 选项 A 的问题是我们最好将等号放在原假设.

方差分析的基本假设是 ( )
A. 多个总体具有相等方差
B. 多个总体具有等方差的相同分布
C. 多个总体具有等方差的正态分布
D. 多个总体具有相同的正态分布

Solution: C

方差分析假设残差独立同分布, 服从正态分布, 而不同组的均值可以不同.

根据以往的生产统计，某种产品的合格率约为 $90 \%$ ，现要求估计误差为 $5 \%$ ，在 $5 \%$ 的显著性水平下，应抽取 ( ) 个产品作为样本.
A. 138
B. 139
C. 384
D. 385

Solution: B

题目意为, 合格率为 $\pi$ , 用抽样合格率 $\bar{X}$ 来估计 $\pi$ , 试问需要多大的样本量, 才可以保证

P\left( \left| \bar{X}-\pi \right|\ge 0.05 \right) \le \alpha .

利用正态近似, $\sqrt{n}\left( \bar{X}-\pi \right) \sim N\left( 0,\pi \left( 1-\pi \right) \right)$ , 则

P\left( \left| \bar{X}-\pi \right|\ge 0.05 \right) =P\left( \left| \frac{\sqrt{n}\left( \bar{X}-\pi \right)}{\sqrt{\pi \left( 1-\pi \right)}} \right|\ge \frac{\sqrt{n}0.05}{\sqrt{\pi \left( 1-\pi \right)}} \right) =\alpha

可近似解得 $\frac{\sqrt{n}0.05}{\sqrt{\pi \left( 1-\pi \right)}}=z_{\frac{\alpha}{2}}$ , 于是 $n=\frac{z_{\frac{\alpha}{2}}^{2}\pi \left( 1-\pi \right)}{0.05^2}$ . 代入数据 $\pi$ 约为 $0.9$ , 有

n=\frac{z_{\frac{\alpha}{2}}^{2}\pi \left( 1-\pi \right)}{0.05^2}=\frac{1.96^2\cdot 0.9\cdot 0.1}{0.05^2}=138.298

考虑到 $n$ 是整数, 所以 $n$ 至少为 139.

以下关于 $\mathrm{p}$ 值的说法正确的是 ( ).
A. 我们总是根据检验的 $\mathrm{p}$ 值来确定显著性水平;
B. $\mathrm{p}$ 值是检验统计量大于统计量当前观测值的概率;
C. $\mathrm{p}$ 值越小, 越倾向于拒绝原假设;
D. $\mathrm{p}$ 值是检验统计量出现比当前观测值更极端的概率.

Solution: D

A、C 项说反了, B 项不一定是大于, D 项说法正确.

某一商场 30 分钟内到达的人数服从参数为 6 的泊松分布，则 10 分钟内来商场的人数等于 3 的概率为 ( ).
A. $\frac{4}{3} e^{-2}$
B. $\frac{6^9}{9 !} e^{-6}$
C. $\frac{22}{3} e^{-2}$
D. $\frac{16}{3} e^{-2}$

Solution: A

10分钟内来商场的人数 $X\sim \mathcal{P}\left( 2 \right)$ , 则 $P\left( X=2 \right) =\frac{2^3}{3!}e^{-2}=\frac{4}{3}e^{-2}$ .

假设 $X\sim N\left( \mu ,\sigma ^2 \right)$ , 则 $Y=e^X$ 的密度函数是 ( ).
A. $\frac{1}{\sqrt{2\pi \sigma ^2}}e^{-\frac{\left( y-\mu \right) ^2}{2\sigma ^2}}$
B. $\frac{1}{\sqrt{2\pi \sigma ^2}}e^{-\frac{\left( \ln y-\mu \right) ^2}{2\sigma ^2}}$
C. $\frac{1}{\sqrt{2\pi \sigma ^2}y}e^{-\frac{\left( \ln y-\mu \right) ^2}{2\sigma ^2}}$
D. $\frac{1}{\sqrt{2\pi \sigma ^2}y^2}e^{-\frac{\left( \ln y-\mu \right) ^2}{2\sigma ^2}}$

Solution: C

若记得对数正态分布的密度函数, 则直接选 C. 或者临场推导

\begin{aligned} P\left( Y=y \right) =P\left( X=\ln y \right) &=\frac{1}{\sqrt{2\pi \sigma ^2}}e^{-\frac{\left( \ln y-\mu \right) ^2}{2\sigma ^2}}d\ln y,\ln y\in R \\ &=\frac{1}{\sqrt{2\pi \sigma ^2}}\frac{1}{y}e^{-\frac{\left( \ln y-\mu \right) ^2}{2\sigma ^2}}dy,y>0 \end{aligned}

某科目学生的平均考分是110分, 标准差是5分。若该科目学生的考分为近似正态的对称分布, 则可判断考分在120分以上的学生人数大约占 ( )
A. $95 \%$
B. $48 \%$
C. $5 \%$
D. $2.5 \%$

Solution: D

根据经验法则, 当一组数据近似服从正态分布时, 约有 $68 \%$ 的数据在平均数 $\pm 1$ 个标准差的范围之内; 约有 $95 \%$ 的数据在平均数 $\pm 2$ 个标准差的范围之内;约有 $99 \%$ 的数据在平均数 $\pm 3$ 个标准差的范围之内。所以考分在 120分以上的学生人数是两个标准差之外的一半 (另一半是100分以下) , 大约占 $2.5 \%$ 。

在单因素方差分析中, 已知 $SS_A=156, SS_T=240, df_A=2, df_T=15$ , 则 $F$ 统计量为 ( )
A. $0.08$
B. $0.93$
C. $1.86$
D. $12.07$

Solution: D

F=\frac{MS_A}{MS_e}=\frac{SS_A/df_A}{\left( SS_T-SS_A \right) /\left( df_T-df_A \right)}=\frac{156/2}{\left( 240-156 \right) /\left( 15-2 \right)}=12.0714

下列关于残差图的描述错误的是（）
A. 残差图的纵坐标只能是残差 .
B. 残差图的横坐标可以是编号、解释变量和预报变量 .
C. 残差点分布的带状区域的宽度越窄残差平方和越小 .
D. 残差点分布的带状区域的宽度越窄相关指数越小 .

Solution: D

可用残差图判断模型的拟合效果，残差点比较均匀地落在水平的带状区域中，说明这样的模型比较合适 . 带状区域的宽度越窄，说明模型的拟合精度越高，则对应相关指数越大，故选项 D 错误 .
故选 D.

在多元线性回归模型中检验方程的显著性、回归系数的显著性, 下面正确的是 ( )
A.用 $t$ 分布检验方程显著性, 用 $F$ 分布检验回归系数的显著性
B.用 $F$ 分布检验方程显著性，用 $t$ 分布检验回归系数的显著性
C.用 $F$ 分布检验方程显著性, 用 $F$ 分布检验回归系数的显著性
D.用 $t$ 分布检验方程显著性, 用 $t$ 分布检验回归系数的显著性

Solution: B

在多元线性回归模型中, 用 $F$ 分布检验方程显著性, 用 $t$ 分布检验回归系数的显著性

在多元线性回归分析中, 如果某个解释变量的回归系数不显著, 则意味着:该解释变量与被解释变量之间 ( )
A. 不存在显著的线性关系
B. 不存在显著的相关关系
C. 不存在相关关系
D. 可能存在显著的非线性关系

Solution: A

线性回归仅仅分析线性相关关系, 对于其他非线性关系我们无法下任何判断.

当模型存在严重的多重共线性时, OLS 估计量将不具备 ( )
A. 线性
B. 无偏性
C. 有效性
D. 一致性

Solution: C

严重多重共线性发生时, 设计矩阵接近奇异, 其逆矩阵特征值将非常大, 则估计量的方差会变大, 不再具有有效性.

设随机变量 $X \sim N(0,1), Y \sim N(1,4)$ , 则 $X, Y$ 的相关系数 $\rho_{X Y}=1$ 是 $Y=2 X+1$ 的
A. 充要条件;
B. 充分不必要条件;
C. 必要不充分条件;
D. 不充分不必要条件.

Solution: C

$\rho_{X Y}=1$ 只能推出 $P(Y=2 X+1)=1$ .

利用估计的回归方程进行区间估计时，关于平均值的置信区间和个别值预测区间，下面说法正确的是 ().
A.置信区间比预测区间宽
B.预测区间比置信区间宽
C.二者一样宽
D.不一定

Solution: B

预测区间指的是

x_0\hat{\beta}\pm \sqrt{1+x_{0}^{T}\left( X^TX \right) ^{-1}x_0}\hat{\sigma}\cdot t_{\frac{\alpha}{2}}\left( n-p-1 \right) .

平均值的置信区间指的是

x_0\hat{\beta}\pm \sqrt{x_{0}^{T}\left( X^TX \right) ^{-1}x_0}\hat{\sigma}\cdot t_{\frac{\alpha}{2}}\left( n-p-1 \right) .

相差的 1 实际来源于 $y_0$ 本身的随机性 ( $y_0 \sim N(x_0\beta, \sigma^2$ ), 而 $Ey_0$ 不具有随机性. 那么显然预测区间的长度更长.

设连续型随机变量 $\mathrm{X}$ 的密度函数为 $f(x)=\lambda^2 x \exp \{-\lambda x\}, x>0, \lambda>0 ， Y \mid X$ 服从 $U(0, X)$ , 则 $\mathbb{E}[X \mid Y=y] =$ ( )
A. $\lambda + y$
B. $\frac{1}{\lambda} + y$
C. $\lambda$
D. $y \lambda$

Solution: B

先求联合分布, 易得

f\left( x,y \right) =f_Xf_{Y\mid X}=\lambda ^2e^{-\lambda x},x>y>0.

则 $Y$ 的边际分布是 $f_Y\left( y \right) =\int_y^{+\infty}{\lambda ^2e^{-\lambda x}dx}=\lambda e^{-\lambda y},y>0$ .

因此 $X$ 关于 $Y$ 的条件分布是

f_{X\mid Y}\left( x \right) =\frac{\lambda ^2e^{-\lambda x}}{\lambda e^{-\lambda y}}=\lambda e^{-\lambda \left( x-y \right)},x>y

它是双参数指数分布, 可以通过积分计算数学期望, 或直接利用双参数指数分布的数学期望公式 $E\left[ X\mid Y=y \right] =\frac{1}{\lambda}+y$ .

将一个骰子独立地掷两次。引进事件 : $A_{1}=\{$ 郑第一次出现奇数点 $\}, A_{2}=$ {掷第二次出现偶数点 $\}, A_{3}=\{$ 奇数点、偶数点各出现一次 $\}, A_{4}=\{$ 奇数点出现两次 $\}$ , 则 ( )
A. $A_{1}, A_{2}, A_{3}$ 两两独立
B. $A_{1}, A_{2}, A_{3}$ 相互独立
C. $A_{2}, A_{3}, A_{4}$ 两两独立
D/ $A_{2}, A_{3}, A_{4}$ 相互独立

Solution: A

P\left(A_{1}\right)=\frac{1}{2}, P\left(A_{2}\right)=\frac{1}{2}, P\left(A_{3}\right)=\frac{1}{2}, P\left(A_{4}\right)=\frac{1}{4}

$P\left(A_{2} A_{4}\right)=\frac{1}{4} \neq P\left(A_{2}\right) P\left(A_{4}\right)$ , 事件 $A_{2}, A_{4}$ 不独立, 选项 C, D 错误对于事件 $A_{1}, A_{2}, A_{3}$ 有:

\begin{aligned} &P\left(A_{1} A_{2}\right)=P\left(A_{1}\right) P\left(A_{2}\right)=\frac{1}{4} \\ &P\left(A_{1} A_{3}\right)=P\left(A_{1}\right) P\left(A_{3}\right)=\frac{1}{4} \\ &P\left(A_{2} A_{3}\right)=P\left(A_{2}\right) P\left(A_{3}\right)=\frac{1}{4} \\ &P\left(A_{1} A_{2} A_{3}\right)=\frac{1}{4} \neq P\left(A_{1}\right) P\left(A_{2}\right) P\left(A_{3}\right) \end{aligned}

所以事件 $A_{1}, A_{2}, A_{3}$ 两两独立不相互独立. 选项 A 正确

一本书在交付印刷前, 作家和出版社先后对其进行校正。该书有 300 页, 每页的错误数相互独立且都服从参数为 6 的泊松分布。在作家的校对过程中, 每个错误相互独立地以概率 $0.8$ 被订正。
在出版社进行的第二次校正中, 前一稿的打印错误相互独立地以概率 $0.9$ 被订正。出版后整本书的错误数大于等于 30 的概率 (用标准正态分布函数 $\Phi(\mathrm{x}$ )表示) 大约是( )
A. $\Phi(1)$
B. $\Phi(1.5)$
C. $\Phi(2)$
D. $2-\Phi(2)$

Solution: A
设这本书的错误数为 $X$ , 经过两次校正后的错误数为 $Y$ , 则 $X \sim \mathcal{P}(1800)$ , 被修正后还剩下 $0.2 \times 0.1$ , 故有 $Y \sim \mathcal{P}(36), E(Y)=D(Y)=36$ , 根据中心极限定理有 $Y$ 的近似分布为 $N(36,36)$

P(Y \geqslant 30)=P\left(\frac{Y-36}{6} \geqslant \frac{30-36}{6}\right)=1-\Phi(-1)=\Phi(1) .

设 $X_{1}, \ldots, X_{n}$ 为正态分布 $\mathrm{N}\left(\mu, \sigma^{2}\right)$ 的简单随机样本, 其中 $\mu$ 已知而 $\sigma^{2}$ 未知, 则下列不是统计量的是( )
A. $\sum_{i=1}^{n} X_{i} / \sigma$
B. $X_{1}$
C. $\sum_{i=1}^{n} X_{i}^{2} / n$
D. $\sum_{i=1}^{n} X_{i}-n \mu$

Solution: A
统计量不包含未知参数, 故选择 A.

从 5 双不同的鞋子中任取 4 只, 其中恰有一双配对的概率是( )
A. $2 / 3$
B. $4 / 7$
C. $2 / 7$
D. $1 / 3$

Solution: B
总的取法为 $\mathrm{C}_{10}^{4}$ ，要使恰有一双配对，则可以先从 5 双鞋子中选取一双，共 5 种取法; 然后从剩下的鞋子中任取两双，共有 $C_{4}^{2}$ 种取法; 最后从取出的两双鞋子中各取一只, 每一双鞋子有两种取法, 则总共有四种取法, 因此所求概率为

\frac{5 \times C_{4}^{2} \times 4}{C_{10}^{4}}=\frac{4}{7}

B 正确.

设 $X$ 和 $Y$ 均服从标准正态分布, 则 ()
A. $X-Y$ 服从正态分布
B. $X^{2}+Y^{2}$ 服从卡方分布
C. $Y \mid X$ 服从正态分布
D. $X^{2}$ 服从卡方分布

Solution: D
当 $X=Y$ 时, 易知 A, B, C 都不正确, 由卡方分布的定义可知, $X^{2} \sim \chi^{2}(1)$ , D 正确.

二、简答题

为研究在旅游时候所花费在购物上的金额 $Y$ (美元) 与性别 $D$ 的关系, 我们建立一个回归模型, 同时我们将旅客月收入 $X$ (美元) 也纳入考虑, 同时考虑 $X$ 与 $D$ 的交互, 回归结果见下表:

\begin{array}{c|c|c|c|c} & coeff. & std. error & t stat. & p. \\ \hline (Intercept) & 57.6113 &3.5454 &166.2494& 0.0001\\ X &0.0118 &0.0013 &9.0281& 0.0008\\ D &31.8731&3.831& 8.3197& 0.0011\\ X:D &-0.0088& 0.0013 &-6.693& 0.0027\\ \end{array}

其中 $D = 1$ 表示女性, $D = 0$ 表示男性.

(1) 解释 $D$ 的回归系数, 并说明其是否显著; ( $\alpha = 0.05$ )
(2) 解释 $X:D$ 的回归系数, 并说明其是否显著. ( $\alpha = 0.05$ )

Solution:

(1) $D$ 的回归系数为 31.8731, 说明当其他情况不变时, 平均来看, 女性旅客比男性旅客会多花 31.8731 美元在旅行购物上. 其 $t$ 检验 $p$ 值为 0.0011 < 0.05, 因此在 0.05 的显著性水平下, 该结果是显著的.

(2) $X:D$ 的回归系数为 -0.0088, 说明当其他情况不变时, 同样是增加 1 美元的收入, 在平均意义下, 女性旅客会比男性旅客少花费 -0.0088 美元于旅行购物. 其 $t$ 检验 $p$ 值为 0.0027 < 0.05, 因此在 0.05 的显著性水平下, 该结果是显著的.

阐述季节指数的计算方法.

Solution:

(1)简单平均法。

首先要计算各年同期(月或季度)发展水平的序时平均数;其次，再计算全时期总平均数;最后将各年同期平均数与全时期总平均数对比，即得到各期(月或季度)的季节指数。

简单平均法的优点是计算简便，但其也存在着缺陷：第一，未能消除长期趋势的影响;第二，季节指数的高低受各年数值大小的影响，数值大的年份，对季节指数影响大，数值小的年份，对季节指数的影响小。从上面特点看，简单平均法适合于长期趋势是水平趋势的时间数列的季节指数的变动，若时间数列中不仅存在季节变动，同时还存在着上升或下降的长期趋势，用此方法计算的季节指数就会出现偏差。

(2)移动平均趋势剔除法。

当时间数列中不仅存在季节变动，同时也存在明显的上升或下降的长期趋势时，计算季节指数时，就需要首先消除长期趋势的影响。剔除长期趋势的方法有很多，如移动平均趋势剔除法、趋势线趋势别除法等。

移动平均趋势别除法的基本思想是先将时间数列中的趋势变动予以消除，而后再计算季节指数。具体的做法是：首先根据各年的月(或季度)数据资料计算12个月(或4个季度)移动平均趋势值T，然后将各实际观察值除以相应的趋势值，即Y/T=s×I，最后，将S×I重新接月(或季度)排列，求得同月(或季度)平均数，即将降低或消除不规则变动，得到各月(或季度)季节指数S。

这种方法由于先消除了长期趋势，所得的季节指数已不受长期趋势的影响，因此测定的季节波动比较精确。

时间序列中加法模型和乘法模型的基本假定分别是什么?

Solution:

(1) 加法模型:假设四种变动因素是完全独立的, 时间序列就是各因素相加的总和

Y=T+S+C+I

(2) 乘法模型假设四种变动因素呈相互交错影响的关系, 时间序列表现为各因素乘积:

Y=T * S * C * I

$X_1, \ldots X_n$ 独立同分布，且 $\mathbb{E}\left(X^3\right)=1, \mathbb{E}\left(X^6\right)=4$ , 求 $n$ 趋于无穷的时候 $\frac{\sum X_i^3}{n}$ 的极限分布.

Solution:

由于 $X_1^2, \cdots, X_n^2$ 是独立同分布的, 且其数学期望存在 $EX_3^2 = 1$ , 那么根据大数定律, 有 $\frac{\sum_{i=1}^n{X_{i}^{3}}}{n}\xrightarrow{P} 1$ .

另外, $Var(X_1^3) = 4 - 1 = 3$ , 那么根据中心极限定理, 有 $\sqrt{n}\left( \frac{\sum_{i=1}^n{X_{i}^{3}}}{n}-1 \right) \xrightarrow{d}N\left( 0,3 \right)$ .

当 $n$ 增大时, $\frac{\sum_{i-1}^n X_i^2}{n}$ 的密度函数将会越来越聚集于一点.

三、计算题

下面给出两种型号的计算器充电以后所能使用的时间 (单位:h) 的观测值

\begin{array}{lllllll} \text { 型号 A } & 5.5 & 5.6 & 6.3 & 4.6 & 5.3 & 5.0 & 6.2 & 5.8 & 5.1 & 5.2 & 5.9 \\ \hline \text { 型号 B } & 3.8 & 4.3 & 4.2 & 4.0 & 4.9 & 4.5 & 5.2 & 4.8 & 4.5 & 3.9 & 3.7 & 4.6 & \\ \end{array}

设两样本独立且数据所属的两正态总体的密度函数至多差一个平移量. 试问能否认为型号 A 的计算器平均使用时间明显比型号 B 来得长 (取 $\alpha=0.01$ )?

Solution:

这个问题可归结为关于两总体的均值是否相等的检验问题. 两正态总体方差相等但仍末知, 故应采用两样本 $t$ 检验. 设 $X$ 表示型号 $\mathrm{A}$ 的计算器充电以后所能使用的时间, $Y$ 表示型号 $\mathrm{B}$ 的计算器充电以后所能使用的时间, 则依题意, $X \sim N\left(\mu_1, \sigma^2\right), Y \sim$ $N\left(\mu_2, \sigma^2\right)$ , 待检验的假设为

H_0: \mu_1=\mu_2 \quad \text { vs } \quad H_1: \mu_1>\mu_2 .

经计算,

\bar{x}=5.5, \quad \bar{y}=4.3667, \quad \sum_{i=1}^{11}\left(x_i-\bar{x}\right)^2=2.74, \quad \sum_{i=1}^{12}\left(y_i-\bar{y}\right)^2=2.4067,

从而

\begin{aligned} &s_w=\sqrt{\frac{1}{11+\frac{12-2}{}(2.74+2.4067)}}=0.4951 \\ &t=\frac{5.5-4.3667}{0.4951 \sqrt{\frac{1}{11}+\frac{1}{12}}}=5.4837 \end{aligned}

其拒绝域为 $\left\{t \geqslant t_{1-\alpha}(m+n-2)\right\}=\left\{t \geqslant t_{0.99}(21)\right\}$ , 查表知 $t_{0.99}(21)=2.5176$ , 由于检验统计量的取值 $t>2.5176$ , 故拒绝 $H_0$ , 可以认为型号 $\mathrm{A}$ 的计算器平均使用时间明显比型号 B 来得长.

为考察某种维尼纶纤维的耐水性能, 安排了一组试验, 测得其甲醇浓度 $x$ 及相应的 “缩醇化度” $y$ 数据如下：

\begin{array}{c|cccccccc} \hline x & 18 & 20 & 22 & 24 & 26 & 28 & 30 \\ \hline y & 26.86 & 28.35 & 28.75 & 28.87 & 29.75 & 30.00 & 30.36 \\ \hline \end{array}

(1) 求样本相关系数;
(2) 建立一元线性回归方程;
(3) 给出方差分析表, 对建立的回归方程作显著性检验 $(\alpha=0.01)$ .

Solution:

(1) 由样本数据可以算得

\begin{array}{ll} \sum_{i=1}^n x_i=168, & l_{x x}=\sum_{i=1}^n\left(x_i-\bar{x}\right)^2=112, \\ \sum_{i=1}^n y_i=202.94, & l_{y y}=\sum_{i=1}^n\left(y_i-\bar{y}\right)^2=8.4931, \\ l_{x j}=\sum_{i=1}^n\left(x_i-\bar{x}\right)\left(y_i-\bar{y}\right)=29.6 . \end{array}

因此样本相关系数 $r=\frac{l_{x y}}{\sqrt{l_{x x} l_{y y}}}=\frac{29.6}{\sqrt{112 \times 8.4931}}=0.9597$ .

(2) 应用最小二乘估计公式, $\hat{\beta}_1=\frac{l_{x y}}{l_{x x}}=\frac{29.6}{112}=0.2643, \hat{\beta_0}=\bar{y}-\hat{\beta}_1 \bar{x}=22.6482$ , 于是一元线性回归方程为

\hat{y}=22.6482+0.2643 x .

(3) 首先计算几个平方和

\begin{aligned} &S_T=l_{y y}=8.4931, \\ &S_R=\hat{\beta}_1^2 l_{x r}=0.2643^2 \times 112=7.8237, \\ &S_e=S_T-S_R=0.6694, \end{aligned}

将各平方和移入方差分析表, 继续计算, 可以得到

\begin{array}{ccccc} \hline \text{来源} & SS & df & MS & F \\ \hline 回归 & 7.8237 & 1 & 7.8237 & 58.43 \\ 残差 & 0.6694 & 5 & 0.1339 & \\ \hline 总计 & 8.4931 & 6 & & \\ \hline \end{array}

若取 $\alpha=0.01$ , 查表知 $F_{0.99}(1,5)=16.26<58.43$ , 拒绝域为 $W=\{F \geqslant 16.26\}$ , 现检验统计量值落人拒绝域, 因此在显著性水平 $0.01$ 下回归方程是显著的.

四. 证明题

(1) $g(x)$ 单调不减，非负且连续，证明对于任意的 $x>0$ ，不等式成立: $\mathbb{P}(X \geq x) \leq \frac{\mathbb{E}(g(X))}{g(x)}$

(2) $X \sim \operatorname{Exp}(\lambda) ， X_i$ 独立同分布，证: $\mathbb{P}\left(\sum_{i=1}^n X_i \geq n x\right) \leq 2^n e^{-\frac{(n \lambda x)}{2}}$

Solution:

(1) 利用示性函数 $I_{\left\{ X\ge x \right\}}$ , 有不等式 $g\left( x \right) I_{\left\{ X\ge x \right\}}\le g\left( X \right) I_{\left\{ X\ge x \right\}}\le g\left( X \right)$ , 左右取数学期望, 有

\begin{aligned} g\left( x \right) \mathbb{P}\left( X\ge x \right) &\le \mathbb{E}\left( g\left( X \right) \right) \\ \mathbb{P}\left( X\ge x \right) & \le \frac{\mathbb{E}\left( g\left( X \right) \right)}{g\left( x \right)} \end{aligned}

(2) 取函数 $g\left( x \right) =e^{\frac{\lambda}{2}x}$ , 单调不减且非负, 则可利用上面的不等式. 另外, 考虑到指数分布与伽马分布的关系, 记 $T=\sum_{i=1}^n{X_i}\sim Ga\left( n,\lambda \right)$ , 于是 $P\left( T\ge nx \right) \le \frac{\mathbb{E}\left( g\left( T \right) \right)}{g\left( nx \right)}$ , 其中 $g\left( nx \right) =e^{\frac{n\lambda x}{2}}$ , 以及

\mathbb{E}\left( g\left( T \right) \right) =\int_0^{\infty}{\frac{\lambda ^n}{\Gamma \left( n \right)}t^{n-1}e^{-\lambda t}e^{\frac{\lambda}{2}t}}dt=2^n.

综上所述, 有

\mathbb{P}\left( \sum_{i=1}^n{X_i}\ge nx \right) \le 2^ne^{-\frac{n\lambda x}{2}}.