上海交通大学-432统计学-2021年

一.选择题 (30小题，每小题 2 分，共60分)

为调查全国疫情情况，调查组先从全国所有省份中随机抽取了八个省份，再对每个省份中的所有单位进行调查，这种抽样方法属于 ( ).
A.分层抽样
B.系统抽样
C.整群抽样
D.方便抽样

Solution: C

整群抽样是指整群地抽选样本单位，对被抽选的各群进行全面调查的一种抽样组织方式.

当一组数据呈对称分布时，在平均数加减 2 个标准差的范围之内大约有 ( ) 的数据.
A. $68 \%$
B. $95 \%$
C. $99.7 \%$
D. $89 \%$

Solution: B

利用标准正态分布来估计, $\Phi \left( 2 \right) -\Phi \left( -2 \right) =2\Phi \left( 2 \right) -1=2\cdot 0.9722-1=0.9444$ .

为调查群众戴口罩的频率, 调查者采用问卷调查, 问卷中的一个问题为"您戴口罩的频繁吗?", 选项为“从来不戴”、“极少戴”、“偶尔戴”、“经常戴”. 这一调查包含的误差类型是( )
A.记忆误差
B.理解误差
C.无回答误差
D.有意识误差

Solution: B

某奶粉生产企业欲了解消费者对奶粉成分的需求，选译调查对奶粉购买力高、对奶粉成分有更高要求的年轻母亲，这种抽样方法属于( ).
A.随机抽样
B.方便抽样
C.重点抽样
D.代表抽样

Solution: C

重点抽样是指从调查对象的全部单位中选择少数重点单位，对其实施调查，用于了解总体情况.

在多元线性回归的线性关系检验与回归系数检验中，若 $F$ 检验不通过，则某个系数的 $t$ 检验 ().
A.可能通过也可能不通过
B.也不通过
C.一定通过
D.以上都不正确

Solution: B

计算机辅助电话调查的特点是 ().
A.可以利用有形辅助物
B.调查过程难以控制
C.问卷难度可以复杂
D.调查速度快

Solution: D

区间估计中 $95 \%$ 的置信水平是指 ( ).
A.总体参数落在一个特定的样本所构造的区间内的概率为 $95 \%$
B.总体参数落在一个特定的样本所构造的区间内的概率为 $5 \%$
C.在用同样方法构造的总体参数的多个区间中，包含总体参数的区间比例为 $95 \%$
D.在用同样方法构造的总体参数的多个区间中，包含总体参数的区间比例为 $5 \%$

Solution: C

A的错误在于特定样本, 当样本给定时, 区间不具有随机性, 则要么包含真实参数, 要么不包含.

假设检验中使用 $p$ 值进行决策的优势是 ().
A.可以精确地反映诀策的风险度
B.手工计算简便
C.进行决策的界限清晰
D.以上都不正确

Solution: A

p值指的是, 在原假设成立下, 出现一个比当前样本要更加极端的观测的概率, 即反应了当前样本在原假设成立的情况下的极端程度, 它可以用来衡量犯第一类错误(拒真)的风险. 如果p值很小, 也就说明在原假设成立时, 当前的样本是一个非常极端的样本, 我们可以拒绝原假设, 此时也说明我们如果拒绝原假设, 那么犯拒真错误的风险较小.

设 $X_1, X_2, \ldots X_{n_1}$ 是来自正态总体 $N\left(\mu_1, \sigma_1^2\right)$ 的一个样本，设 $Y_1, Y_2, \ldots, Y_{n_2}$ 是来自正态总体 $N\left(\mu_2, \sigma_2^2\right)$ 的一个样本，且 $X_i\left(i=1,2,3, \ldots, n_1\right)$ 与 $Y_i\left(i=1,2,3, . ., n_2\right)$ 相互独立，已知 $n_1 、 n_2 、 S_1^2 、 S_2^2$ ，通过查表可知 $F_{\alpha / 2}\left(n_1, n_2\right) 、 F_{\alpha / 2}\left(n_2, n_1\right) 、 F_{\alpha / 2}\left(n_1-1, n_2-1\right) 、 F_{\alpha / 2}\left(n_2-1, n_1-1\right)$ . 则方差之比 $\sigma_1^2 / \sigma_2^2$ 的置信区间为( ).
A. $\frac{S_1^2 / S_2^2}{F_{\alpha / 2}\left(n_1, n_2\right)} \leq \frac{\sigma_1^2}{\sigma_2^2} \leq \frac{S_1^2}{S_2^2} F_{\alpha / 2}\left(n_2, n_1\right)$
B. $\frac{S_1^2 / S_2^2}{F_{\alpha / 2}\left(n_1-1, n_2-1\right)} \leq \frac{\sigma_1^2}{\sigma_2^2} \leq \frac{S_1^2}{S_2^2} F_{\alpha / 2}\left(n_2-1, n_1-1\right)$
C. $\frac{S_1^2 / S_2^2}{F_{\alpha / 2}\left(n_1, n_2\right)} \leq \frac{\sigma_1^2}{\sigma_2^2} \leq \frac{S_1^2 / S_2^2}{F_{\alpha / 2}\left(n_2, n_1\right)}$
D. $\frac{S_1^2 / S_2^2}{F_{\alpha / 2}\left(n_1-1, n_2-1\right)} \leq \frac{\sigma_1^2}{\sigma_2^2} \leq \frac{S_1^2 / S_2^2}{F_{\alpha / 2}\left(n_2-1, n_1-1\right)}$

Solution: B

注意这里用的应是上分位数, 根据F分布的对称性, 置信区间应为

\begin{aligned} \left[ \frac{s_{1}^{2}/s_{2}^{2}}{F_{\frac{\alpha}{2}}\left( n_1-1,n_2-1 \right)},\frac{s_{1}^{2}/s_{2}^{2}}{F_{1-\frac{\alpha}{2}}\left( n_1-1,n_2-1 \right)} \right] &=\left[ \frac{s_{1}^{2}/s_{2}^{2}}{F_{\frac{\alpha}{2}}\left( n_1-1,n_2-1 \right)},\frac{s_{1}^{2}}{s_{2}^{2}}F_{\frac{\alpha}{2}}\left( n_2-1,n_1-1 \right) \right]\\ \end{aligned}

多变量数据的图示中，用于展示三个变量之间关系的是（）.
A.散点图
B.气泡图
C.雷达图
D.饼图

Solution: B

三个变量通常用气泡图(横坐标、纵坐标、气泡大小)

在假设检验中，不拒绝原假设意味着（）.
A.原假设肯定是正确的
B.原假设肯定是错误的
C.没有证据证明原假设是正确的
D.没有证据证明原假设是错误的

Solution: D

A、B说法过于绝对, 假设检验也是概率问题, 不拒绝原假设有可能犯第二类错误(取伪).

随机变量 $X_1 、 X_2 、 X_3 、 X_4$ 独立同分布于正态分布 $N\left(2, \sigma^2\right)$ ，则 $\frac{\left(X_1-X_2\right)^2}{\left(X_3+X_4-4\right)^2}$ 服从于 ().
A. $F(1,1)$
B. $F(2,2)$
C. $t(1)$
D. $t(2)$

Solution: A

由于 $X_1-X_2\sim N\left( 0,2\sigma ^2 \right) ,X_3+X_4\sim N\left( 0,2\sigma ^2 \right)$ , 容易得 $\frac{\left(X_1-X_2\right)^2}{\left(X_3+X_4-4\right)^2} \sim F(1,1)$ .

将 $n$ 个球随机放入 $N$ 个箱子内 $(n \leq N)$ ，每个球放入各个箱子的概率相等，则每个箱子至多有一个球的概率为 () .
A. $\frac{A_N^n}{N^n}$
B. $\frac{A_N^n}{n^N}$
C. $\frac{C_N^n}{N^n}$
D. $\frac{C_N^n}{n^N}$

Solution: A

古典概型问题, 先考虑全集, 每个球均有 $N$ 种选择, 共 $n$ 个球, 故全集样本点为 $N^n$ . 再考虑分子, 第一个球有 $N$ 种选择, 第二个有 $N-1$ , 依此类推, 分子为 $A_N^n$

设 $X_1 、 X_2 、 X_3 、 X 4$ 是来自总体 $X$ 的样本， $E X=\mu$ 则 ( ) 是 $\mu$ 的最有效估计.
A. $\hat{\mu}_1=\frac{1}{5} x_1+\frac{1}{5} x_2+\frac{1}{5} x_3+\frac{2}{5} x_4$
B. $\hat{\mu}_2=\frac{1}{3} x_1+\frac{1}{3} x_2+\frac{1}{6} x_3+\frac{1}{6} x_4$
C. $\hat{\mu}_3=\frac{1}{4} x_1+\frac{1}{4} x_2+\frac{1}{4} x_3+\frac{1}{4} x_4$
D. $\hat{\mu}_4=\frac{1}{9} x_1+\frac{2}{9} x_2+\frac{3}{9} x_3+\frac{4}{9} x_4$

Solution: C

即找到方差最小的无偏估计, 这四个选项中 C 给出的估计量方差最小.

下列情况中，可能存在多重共线性的是（）.
A.某个自变量的方差扩大因子 $V I F$ 小于 10
B.模型中各个自变量显著不相关
C.回归系数的正负号与预期相同
D.某个自变量的容忍度小于 $0.1$

Solution: D

多元线性回归中残差图的作用是（）.
A.检验线性关系是否显著
B.检验回归系数是否显著
C.判断自变量之间是否存在多重共线性
D.判断对误差项 $\varepsilon$ 的假定是否成立

Solution: D

时间序列中逐期环比值（也称环比发展速度）的几何平均数减1后的结果是（）.
A.平均增长率
B.环比增长率
C.定基增长率
D.年度化增长率

Solution: A

如果一组数据分布的偏态系数是 $0.4$ ，则表明 ( ).
A.该组数据呈右偏，且偏斜程度很高
B.该组数据呈右偏，且偏斜程度不高
C.该组数据呈左偏，且偏斜程度很高
D.该组数据呈左偏，且偏斜程度不高

Solution: B

根据以往的生产统计，某种产品的合格率约为 $90 \%$ ，现要求估计误差为 $5 \%$ ，在 $5 \%$ 的显著性水平下，应抽取 ( ) 个产品作为样本.
A. 138
B. 139
C. 384
D. 385

Solution: B

题目意为, 合格率为 $\pi$ , 用抽样合格率 $\bar{X}$ 来估计 $\pi$ , 试问需要多大的样本量, 才可以保证

P\left( \left| \bar{X}-\pi \right|\ge 0.05 \right) \le \alpha .

利用正态近似, $\sqrt{n}\left( \bar{X}-\pi \right) \sim N\left( 0,\pi \left( 1-\pi \right) \right)$ , 则

P\left( \left| \bar{X}-\pi \right|\ge 0.05 \right) =P\left( \left| \frac{\sqrt{n}\left( \bar{X}-\pi \right)}{\sqrt{\pi \left( 1-\pi \right)}} \right|\ge \frac{\sqrt{n}0.05}{\sqrt{\pi \left( 1-\pi \right)}} \right) =\alpha

可近似解得 $\frac{\sqrt{n}0.05}{\sqrt{\pi \left( 1-\pi \right)}}=z_{\frac{\alpha}{2}}$ , 于是 $n=\frac{z_{\frac{\alpha}{2}}^{2}\pi \left( 1-\pi \right)}{0.05^2}$ . 代入数据 $\pi$ 约为 $0.9$ , 有

n=\frac{z_{\frac{\alpha}{2}}^{2}\pi \left( 1-\pi \right)}{0.05^2}=\frac{1.96^2\cdot 0.9\cdot 0.1}{0.05^2}=138.298

考虑到 $n$ 是整数, 所以 $n$ 至少为 139.

估计的回归方程为 $\hat{y}=\hat{\beta}_0+\hat{\beta}_1 x_1+\hat{\beta}_2 x_2+\hat{\beta}_3 x_3$ ，其中在 $5 \%$ 的显著度下， $\hat{\beta}_1 、 \hat{\beta}_2$ 未通过 $t$ 检验， $\hat{\beta}_3$ 通过了 $t$ 检验，则在 $5 \%$ 下我们可以认为（).
A. $\beta_1, \beta_2=0 ; \beta_3 \neq 0$
B. $\beta_1, \beta_2 \neq 0 ; \beta_3=0$
C. $\beta_1, \beta_3=0 ; \beta_2 \neq 0$
D. $\beta_2, \beta_3 \neq 0 ; \beta_1=0$

Solution: A

通过 t 检验说明显著, 显著即不为 0. 反之则为 0.

某企业准备用三种方法组装一种新的产品，为确定哪种方法每小时生产的产品数量最多，随机抽取了
30 名工人，并指定每个人使用其中一种方法. 通过对每个工人生产的产品数进行方差分析得到下面的结果:
方差分析表

来源	$S S$	$d f$	$M S$	$F$	$P$ -value	F 临界值
组间	$a$	$c$	210	$f$	$0.245946$	$3.354131$
组内	3836	$d$	$e$	$-$	$-$	$-$
总计	$b$	29	$-$	$-$	$-$	$-$

补全上面的方差分析表 ( ).
A. $a=420, b=4256, c=2, d=27, e=142.07, f=1.478$
B. $a=630, b=4466, c=3, d=26, e=147.54, f=1.423$
C. $a=420, b=4256, c=2, d=27, e=142.07, f=0.099$
D. $a=630, b=4466, c=3, d=26, e=147.54, f=0.164$

Solution: A

有三种方法, 因此首先确定 $c = 2$ , 然后 $d = 27$ . 接着可以计算 $a = 2 \times 210 = 420$ . $e = 3836/27 = 142.07, f = \frac{210}{142.074}=1.4781$ .

关于方差分析中的多重比较方法中的最小显著差异 (LSD) 方法下列说法错误的是 ().
A. $L S D$ 方法用于当自变量对因变量有显著影响时的进一步分析
B. $L S D$ 方法通过两两配对来进一步检验哪些总体的方差之间有显著差异
C. $L S D$ 方法的原假设通常为 $H_0: \mu_i=\mu_j$
D. $L S D=t_{\alpha / 2} \sqrt{M S E\left(\frac{1}{n_i}+\frac{1}{n_j}\right)}$

Solution: B

LSD 是一种多重比较的方法, 用于检验组间均值是否有差异.

下列关于调整的多重判定系数 $R_\alpha^2$ 说法错误的是（).
A. 是度量多元回归方程拟合程度的一个统计量
B. 相比较多重判定系数 $R^2$ ，可剔除变量个数对拟合优度的影响
C. $R_\alpha^2$ 的值不一定小于 $R^2$ 的值
D. $R_\alpha^2$ 的值不会由于模型中自变量的个数的增加而越来越接近1

Solution: C

调整 $R^2$ 一定更小.

利用估计的回归方程进行区间估计时，关于平均值的置信区间和个别值预测区间，下面说法正确的是 ().
A.置信区间比预测区间宽
B.预测区间比置信区间宽
C.二者一样宽
D.不一定

Solution: B

预测区间指的是

x_0\hat{\beta}\pm \sqrt{1+x_{0}^{T}\left( X^TX \right) ^{-1}x_0}\hat{\sigma}\cdot t_{\frac{\alpha}{2}}\left( n-p-1 \right) .

平均值的置信区间指的是

x_0\hat{\beta}\pm \sqrt{x_{0}^{T}\left( X^TX \right) ^{-1}x_0}\hat{\sigma}\cdot t_{\frac{\alpha}{2}}\left( n-p-1 \right) .

相差的 1 实际来源于 $y_0$ 本身的随机性 ( $y_0 \sim N(x_0\beta, \sigma^2$ ), 而 $Ey_0$ 不具有随机性. 那么显然预测区间的长度更长.

在使用指数平滑法进行预测时，如果时间序列有较大的随机波动，则平滑系数 $\alpha$ 的取值（）.
A.应该小些
B.应该大些
C.应该等于 0
D.应该等于1

Solution: B

在使用指数平滑法进行预测时, 当时间序列变化剧烈时, 应该采用较大的平滑系数以跟上数据的变化.

在比较计量单位不同的两组数据离散程度时，应该使用（）.
A.离散系数
B.标准差
C.平均差
D.全距

Solution: A

离散系数可以消除量纲的影响.

已知随机变量 $X=\frac{1}{2}+\frac{1}{\sqrt{2 \pi}} \int_0^Y e^{-\frac{t^2}{2}} d t, X \sim U(0,1)$ ，其中 $Y$ 是一个连续型随机变量，则随机变量 $Y$ 的概率密度函数 $g(y)$ 为 () .
A. $\frac{1}{2}+\frac{1}{\sqrt{2 \pi}} \int_0^Y e^{-\frac{t^2}{2}} d t$
B. $\frac{1}{\sqrt{2 \pi}} e \frac{y^2}{2}$
C. $\frac{1}{\pi\left(1+x^2\right)}$
D. $\frac{1}{2 \pi+\frac{x^2}{z}}$

Solution: B

用微分法

P\left( Y=y \right) =P\left( X=\frac{1}{2}+\frac{1}{\sqrt{2\pi}}\int_0^y{e^{-\frac{t^2}{2}}dt} \right) =\left| \frac{1}{\sqrt{2\pi}}e^{-\frac{y^2}{2}} \right|\cdot 1\text{d}y=\frac{1}{\sqrt{2\pi}}e^{-\frac{y^2}{2}}\text{d}y.

随机变量 $X, Y$ 相互独立且均服从于标准正态分布，则随机变量 $X / Y$ 的概率密度函数为 () .
A. $\frac{1}{2}+\frac{1}{\sqrt{2 \pi}} \int_0^Y e-\frac{t^2}{2} d t$
B. $\frac{1}{\sqrt{2 \pi}} e \frac{y^2}{2}$
C. $\frac{1}{\pi \left(1+x^2\right)}$
D. $\frac{1}{2 \pi+\frac{x^2}{z}}$

Solution: C

老生常谈.

$\xi, \eta \sim U(0,1)$ 且相互独立， $X_1=\min (\xi, \eta), X_2=\max (\xi, \eta)$ ，则 $X_1, X_2$ 的联合密度函数为（).
A. $f\left(x_1, x_2\right)=2 I_{\left\{0<x_1 \leq x_2<1\right\}}$
B. $f\left(x_1, x_2\right)=I_{\{0<x 1 \leq x 2<1\}}$
C. $f\left(x_1, x_2\right)=I_{\left\{0<x_1<1,0<x_2<1\right\}}$
D. 以上都不正确

Solution: A

直接利用次序统计量的分布的结论.

某一商场 30 分钟内到达的人数服从参数为 6 的泊松分布，则 10 分钟内来商场的人数等于 3 的概率为（).
A. $\frac{4}{3} e^{-2}$
B. $\frac{6^9}{9 !} e^{-6}$
C. $\frac{22}{3} e^{-2}$
D. $\frac{16}{3} e^{-2}$

Solution: A

10分钟内来商场的人数 $X\sim \mathcal{P}\left( 2 \right)$ , 则 $P\left( X=2 \right) =\frac{2^3}{3!}e^{-2}=\frac{4}{3}e^{-2}$ .

二、简答题

随机变量 $X_1, X_2$ 相互独立，且均服从于均值为 $\lambda$ 的指数分布，现有假设检验 $H_0: \lambda=1 ; H_1: \lambda=0.1$ . 当拒绝域为 $X_1>3$ ，犯第一类错误和第二类错误的概率分别为 $\alpha_1, \beta_1$ ；当拒绝域为 $\bar{X}>3$ ，其中 $\bar{X}=\left(X_1+X_2\right) / 2$ ，犯第一类错误和第二类错误的概率分别为 $\alpha_2, \beta_2$ .
(1) 求 $\alpha_1 、 \beta_1$
(2) 求 $\alpha_1 、 \beta_2$
(3) 说明随着样本量的增加 $\alpha_1, \beta_1, \alpha_2, \beta_2$ 怎样变化，以及 $\alpha_2+\beta_2=1$ 是否成立.

Solution:

(1) $\alpha _1=P\left( X_1>3\mid \lambda =1 \right) =e^{-3}$ , $\beta _1=1-P\left( X_1>3\mid \lambda =0.1 \right) =1-e^{-0.3}$ .

(2) $\alpha _2=P\left( \bar{X}>3\mid \lambda =1 \right) =P\left( 2\left( X_1+X_2 \right) >12\mid \lambda =1 \right) =\int_{12}^{+\infty}{\chi _{4}^{2}\left( t \right) dt}$ , 这里 $\chi _{4}^{2}\left( t \right)$ 表示自由度为4的卡方分布的密度函数.

$\beta _2=P\left( \bar{X}\le 3\mid \lambda =0.1 \right) =P\left( \frac{1}{5}\left( X_1+X_2 \right) \le 1.2\mid \lambda =0.1 \right) =\int_0^{1.2}{\chi _{4}^{2}\left( t \right) dt}$ .

(3) 显然 $\alpha_1, \beta_1$ 不会变化. 而 $\alpha _2=P\left( \bar{X}>3\mid \lambda =1 \right) \rightarrow 0$ , 这是因为当 $\lambda = 1$ 时, 根据强大数定律有 $\bar{X}\rightarrow 1,a.s.$ . 同理

\beta _2=P\left( \bar{X}\le 3\mid \lambda =0.1 \right) =P\left( \bar{X}-10\le -7\mid \lambda =0.1 \right) \rightarrow 0.

而 $\alpha_2+\beta_2=1$ 也是显然不成立的.

阐述季节指数的计算方法.

Solution:

(1)简单平均法。

首先要计算各年同期(月或季度)发展水平的序时平均数;其次，再计算全时期总平均数;最后将各年同期平均数与全时期总平均数对比，即得到各期(月或季度)的季节指数。

简单平均法的优点是计算简便，但其也存在着缺陷：第一，未能消除长期趋势的影响;第二，季节指数的高低受各年数值大小的影响，数值大的年份，对季节指数影响大，数值小的年份，对季节指数的影响小。从上面特点看，简单平均法适合于长期趋势是水平趋势的时间数列的季节指数的变动，若时间数列中不仅存在季节变动，同时还存在着上升或下降的长期趋势，用此方法计算的季节指数就会出现偏差。

(2)移动平均趋势剔除法。

当时间数列中不仅存在季节变动，同时也存在明显的上升或下降的长期趋势时，计算季节指数时，就需要首先消除长期趋势的影响。剔除长期趋势的方法有很多，如移动平均趋势剔除法、趋势线趋势别除法等。

移动平均趋势别除法的基本思想是先将时间数列中的趋势变动予以消除，而后再计算季节指数。具体的做法是：首先根据各年的月(或季度)数据资料计算12个月(或4个季度)移动平均趋势值T，然后将各实际观察值除以相应的趋势值，即Y/T=s×I，最后，将S×I重新接月(或季度)排列，求得同月(或季度)平均数，即将降低或消除不规则变动，得到各月(或季度)季节指数S。

这种方法由于先消除了长期趋势，所得的季节指数已不受长期趋势的影响，因此测定的季节波动比较精确。

建立多元回归模型时，为什么需要进行变量选择? 并阐述向前选择法的步骤.

Solution:

因变量可能会由多个自变量决定。但是具体由多少个自变量决定是不清楚的, 所以我们需要通过变量选择，判断这个具体的自变量个数. 另外有的时候若自变量之间存在相关性(多重共线性问题), 将会导致估计量不有效或不唯一, 这时候也需要进行变量选择. 以及为了防止过多的加入无用变量导致过拟合, 我们也需要进行变量选择.

向前选择的步骤:

1．对k个自变量分别拟合对因变量y的一元线性回归模型，即得到k个一元线性回归模型，然后找出F统计量值最高的模型及对应的变量 $x_i$ ，并将该自变量首先引入模型中。在此过程中，需要注意的是：如果所有模型的F统计量均未通过检验，说明所搜集的自变量与因变量之间均为不显著，说明模型构建不适合，应当考虑换其他模型，本方法的运算过程也就终止了.

2．在已经引入的模型上，分别引入剩余的k-1个自变量，分别得到k-1个二元线性回归模型，即变量组合为k-1个二元线性回归模型，继而得到k-1个新的F统计量，并从中找出F统计量的值为最高的模型，此时，该模型中含有两个自变量，新增加的自变量即为经过筛选出来的应当引入模型的自变量。同样地，如果在此过程中，没有F统计量通过检验，则运算终止。

3．按照第二步的筛选方法，不断引入新的自变量，直到引入的新的自变量也不能使得残差平方和(SSE)显著减少为止（F统计量均为通过检验）。向前选择法就是这样一个不断引入新变量，进行F统计量检验的过程。

随机变量 $X_i(i=1,2,3, \ldots, n)$ 独立同分布，且 $E\left(X_i\right)=1, E\left(X_i^2\right)=2, E\left(X_i^4\right)=8$ ，则当 $n \rightarrow \infty$ 时， $\frac{\sum_{i-1}^n X_i^2}{n}$ 服从什么分布，并说明概率密度函数的形态变化.

Solution:

由于 $X_1^2, \cdots, X_n^2$ 是独立同分布的, 且其数学期望存在 $EX_1^2 = 2$ , 那么根据大数定律, 有 $\frac{\sum_{i=1}^n{X_{i}^{2}}}{n}\xrightarrow{P}2$ .

另外, $Var(X_1^2) = 8 - 4 = 4$ , 那么根据中心极限定理, 有 $\sqrt{n}\left( \frac{\sum_{i=1}^n{X_{i}^{2}}}{n}-2 \right) \xrightarrow{d}N\left( 0,4 \right)$ .

当 $n$ 增大时, $\frac{\sum_{i-1}^n X_i^2}{n}$ 的密度函数将会越来越聚集于一点.

三、计算题

为估计两种方法组装产品所需时间的差异, 分别对两种不同的组装方法随机安排12名工人, 每个工人独立组装一件产品所需的时间见下表:

\begin{array}{lllllll} \text { 方法一 } & 28.3 & 30.1 & 29.0 & 37.6 & 32.1 & 28.8 & 36.0 & 37.2 & 38.5 & 34.4 & 28.0 & 30.0 \\ \hline \text { 方法二 } & 27.6 & 22.2 & 31.0 & 33.8 & 20.0 & 30.2 & 31.7 & 26.0 & 32.0 & 31.2 & 33.4 & 26.5 \\ \end{array}

假定两种方法组装产品的时间服从正态分布，且方差相等.
(1) 试以95%的置信水平建立两种方法组装产品所需平均时间之差的置信区间 $(\alpha=0.05)$ ;
(2) 这两种方法组装产品所需时间有无显著差别? $(\alpha=0.05)$

Solution:

(1) 假设方法一的组装时间 $X_1, \cdots, X_{12} \sim N\left( \mu _1,\sigma ^2 \right)$ , 方法二的组装时间服从 $Y_1, \cdots, Y_{12} \sim N\left( \mu _2,\sigma ^2 \right)$ . 则 $\mu_1 - \mu_2$ 的置信区间为

\begin{aligned} &\left( \bar{X}-\bar{Y} \right) \pm S_w\cdot \sqrt{\frac{1}{n_1}+\frac{1}{n_2}}\cdot t_{\frac{\alpha}{2}}\left( n_1+n_2-2 \right) \\ =&\left( 32.5-28.8 \right) \pm \sqrt{\frac{\sum_{i=1}^{12}{\left( X_i-\bar{X} \right) ^2}+\sum_{i=1}^{12}{\left( Y_i-\bar{Y} \right) ^2}}{22}}\cdot \sqrt{\frac{2}{12}}\cdot t_{0.025}\left( 22 \right) \\ =&3.7\pm \sqrt{\frac{175.96+212.94}{22}}\cdot \sqrt{\frac{2}{12}}\cdot 2.0739 \\ =&3.7\pm 3.56=\left[ 0.14,7.26 \right] . \end{aligned}

(2) 根据区间估计与假设检验的关系, $\mu_1 - \mu_2$ 的 95% 区间估计包含 0, 那么在 0.05 显著性水平下, 我们不能拒绝 $H_0 : \mu_1 - \mu_2 = 0$ . 即认为两种方法组装产品所需时间无显著差别.

一家房地产评估公司想对某城市的房地产销售价格 $(y)$ 与地产评估价值 $\left(x_1\right)$ 、房产评估价值 $\left(x_2\right)$ 和使用面积 $\left(x_3\right)$ 建立一个模型，以便对销售价格进行合理预测. 为此，收集了15栋住宅的房地产评估数据，经回归得到下面的有关结果 $(\alpha=0.05)$

\begin{array}{|c|c|c|c|c|c|} \hline & d f & SS & M S & F & p-value \\ \hline \text { 回归 } & & & 23363343.03 & & 0.00 \\ \hline \text { 残差 } & & & & - & - \\ \hline \text { 总计 } & 14 & 75375973.33 & - & - & - \\ \hline \end{array}

\begin{array}{|c|c|c|c|c|} \hline & \text { est. } & \text { std.error } & t & p -v a l u e \\ \hline \text { 截距 } & 207.9037 & 617.0486 & 0.3369 & 0.7425 \\ \hline x_1 & 1.4378 & 0.5645 & 2.5472 & 0.0271 \\ \hline x_2 & 0.8545 & 0.2663 & 3.2091 & 0.0083 \\ \hline x_3 & 0.0626 & 0.0656 & 0.9538 & 0.3607 \\ \hline \end{array}

(1) 补全方差分析表，写出销售价格对地产评估价值、房产评估价值、使用面积的多元线性回归方程，并解释各回归系数的意义；
(2) 检验回归方程的线性关系是否显著; $(\alpha=0.05)$
(3) 检验各回归系数是否显著; $(\alpha=0.05)$
(4) 计算多重判定系数 $R^2$ ，并说明它的实际意义;
(5) 计算估计标准误差 $S_e$ ，并说明它的实际意义

Solution:

(1)

这是一个三元的线性回归, 因此回归的自由度是 3, 残差的自由度是 11. 回归平方和 $SS_R=MS_R\cdot 3=23363343.03\cdot 3=70090029.09$ . 残差平方和 $SS_e=SS_T-SS_R=75375973.33-70090029.09=5285944.24$ , 残差均方为 $MS_e=SS_e/df_e=5285944.24/11=480540$ , 因此 $F$ 统计量为 $F=\frac{MS_R}{MS_e}=\frac{23363343.03}{480540}=48.6189$ .

\begin{array}{|c|c|c|c|c|c|} \hline & d f & SS & M S & F & p-value \\ \hline \text { 回归 } & 3 & 70090029.09 & 23363343.03 & 48.6189 & 0.00 \\ \hline \text { 残差 } & 11 & 5285944.24 & 480540 & - & - \\ \hline \text { 总计 } & 14 & 75375973.33 & - & - & - \\ \hline \end{array}

回归方程为

y=207.9037+1.4378x_1+0.8545x_2+0.0626x_3,

其中截距项 207.9037 表明对于地产评估价值、房产评估价值、使用面积均为 0 的房屋, 其平均的基础销售价格为 207.9037;

以 $x_1$ 的斜率 1.4378 为例, 当其他变量不变, 而地产评估价值提升一个单位时, 房屋销售价格平均提升 1.4378 个单位.

(2) 从回归的方差分析表可以看出, 回归的 $F$ 检验的 p值 < 0.01, 因此在 0.05的显著性水平下, 我们认为回归方程的线性关系显著成立.

(3) 从回归结果表来看, 针对截距项以及 $x_3$ 的斜率项的 t 检验的 p值大于 0.05, 因此该俩系数不显著. 关于 $x_1$ 以及 $x_2$ 的斜率项是显著的.

(4) $R^2=\frac{SS_R}{SS_T}=\frac{70090029.09}{75375973.33}=0.929872$ . 多重判定系数或拟合优度衡量的是自变量对因变量的波动程度的解释程度, 拟合优度越接近1说明自变量对因变量的解释能力越强.

(5) $S_e=\sqrt{MS_e}=\sqrt{480540}=693.21$ , 它实际上是对线性回归残差项的标准差 $\sigma$ 的估计, 它表明了因变量 $y$ 没有被各个自变量所解释的部分的波动大小.

四. 证明题 (1小题, 共10分)

已知一列随机变量 $X_1, X_2, . ., X_n, . .$ 相互独立，且都服从 $(0,1)$ 上的均匀分布，令 $N=\min \{$ $\left.n \geq 1: X_1+X_2+\ldots+X_n>x\right\}$ , 其中 $x\in (0,1)$ .
(1) 证明 $P(N>n)=\frac{x^n}{n !}$ ;
(2) 求 $E(N)$ .

Solution:

(1)

P\left( N>n \right) =P\left( X_1+\cdots X_n\le x \right) =\int_{\left\{ x_1+\cdots +x_n\le x \right\}}{dx_1\cdots dx_n}.

熟悉 $n$ 重积分的同学不难计算该积分, 实际它是 $N$ 维欧式空间中的一个锥体的体积 (二维空间中的一个直角三角形, 直角边长为 $x$ ; 或三维空间中的一个四面体, 以原点为顶点, 延申出的棱长均为 $x$ ). 我们直接计算:

\begin{aligned} \int_{\left\{ x_1+\cdots +x_n\le x \right\}}{dx_1\cdots dx_n}&=\int_0^x{dx_n\int_{\left\{ x_1+\cdots +x_{n-1}\le x-x_n \right\}}{dx_1\cdots dx_{n-1}}} \\ &=\int_0^x{dx_n\int_0^{x-x_n}{dx_{n-1}\cdots \int_0^{x-x_n-\cdots -x_3}{dx_2\int_0^{x-x_n-\cdots -x_2}{dx_1}}}} \\ &=\int_0^x{dx_n\cdots \int_0^{x-x_n-\cdots -x_4}{dx_3\int_0^{x-x_n-\cdots -x_3}{\left( x-x_n-\cdots -x_2 \right) dx_2}}} \\ &=\int_0^x{dx_n\cdots \int_0^{x-x_n-\cdots -x_4}{\frac{1}{2}\left( x-x_n-\cdots -x_3 \right) ^2dx_3}} \\ &=\cdots =\int_0^x{\frac{\left( x-x_n \right) ^{n-1}}{\left( n-1 \right) !}dx_N}=\frac{x^n}{n!}. \end{aligned}

(2)

利用非负随机变量的数学期望公式, 有

E\left( N \right) =\sum_{n=0}^{+\infty}{P\left( N>n \right)}=\sum_{n=0}^{+\infty}{\frac{x^n}{n!}}=e^x.