上海交通大学-432统计学-2021年

一.选择题 (30小题，每小题 2 分，共60分)

为调查全国疫情情况，调查组先从全国所有省份中随机抽取了八个省份，再对每个省份中的所有单位进行调查，这种抽样方法属于（）.
A.分层抽样
B.系统抽样
C.整群抽样
D.方便抽样

当一组数据呈对称分布时，在平均数加减 2 个标准差的范围之内大约有（）的数据.
A. $68 \%$
B. $95 \%$
C. $99.7 \%$
D. $89 \%$

为调查群众戴口罩的频率, 调查者采用问卷调查, 问卷中的一个问题为"您戴口罩的频繁吗?", 选项为“从来不戴”、“极少戴”、“偶尔戴”、“经常戴”. 这一调查包含的误差类型是( )
A.记忆误差
B.理解误差
C.无回答误差
D.有意识误差

某奶粉生产企业欲了解消费者对奶粉成分的需求，选译调亘对奶粉购买力高、对奶粉成分有更高要求的年轻母亲，这种抽样方法属于( ).
A.随机抽样
B.方便抽样
C.重点抽样
D.代表抽样

在多元线性回归的线性关系检验与回归系数检验中，若 $F$ 检验不通过，则某个系数的 $t$ 检验 ().
A.可能通过也可能不通过
B.也不通过
C.一定通过
D.以上都不正确

计算机辅助电话调查的特点是 ().
A.可以利用有形辅助物
B.调查过程难以控制
C.问卷难度可以复杂
D.调查速度快

区间估计中 $95 \%$ 的置信水平是指 ( ).
A.总体参数落在一个特定的样本所构造的区间内的概率为 $95 \%$
B.总体参数落在一个特定的样本所构造的区间内的概率为 $5 \%$
C.在用同样方法构造的总体参数的多个区间中，包含总体参数的区间比例为 $95 \%$
D.在用同样方法构造的总体参数的多个区间中，包含总体参数的区间比例为 $5 \%$

假设检验中使用 $p$ 值进行决策的优势是 () .
A.可以精确地反映诀策的风险度
B.手工计算简便
C.进行决策的界限清晰
D.以上都不正确

设 $X_1, X_2, \ldots X_{n_1}$ 是来自正态总体 $N\left(\mu_1, \sigma_1^2\right)$ 的一个样本，设 $Y_1, Y_2, \ldots, Y_{n_2}$ 是来自正态总体 $N\left(\mu_2, \sigma_2^2\right)$ 的一个样本，且 $X_i\left(i=1,2,3, \ldots, n_1\right)$ 与 $Y_i\left(i=1,2,3, . ., n_2\right)$ 相互独立，已知 $n_1 、 n_2 、 S_1^2 、 S_2^2$ ，通过查表可知 $F_{\alpha / 2}\left(n_1, n_2\right) 、 F_{\alpha / 2}\left(n_2, n_1\right) 、 F_{\alpha / 2}\left(n_1-1, n_2-1\right) 、 F_{\alpha / 2}\left(n_2-1, n_1-1\right)$ . 则方差之比 $\sigma_1^2 / \sigma_2^2$ 的置信区间为( ).
A. $\frac{S_1^2 / S_2^2}{F_{\alpha / 2}\left(n_1, n_2\right)} \leq \frac{\sigma_1^2}{\sigma_2^2} \leq \frac{S_1^2}{S_2^2} F_{\alpha / 2}\left(n_2, n_1\right)$
B. $\frac{S_1^2 / S_2^2}{F_{\alpha / 2}\left(n_1-1, n_2-1\right)} \leq \frac{\sigma_1^2}{\sigma_2^2} \leq \frac{S_1^2}{S_2^2} F_{\alpha / 2}\left(n_2-1, n_1-1\right)$
C. $\frac{S_1^2 / S_2^2}{F_{\alpha / 2}\left(n_1, n_2\right)} \leq \frac{\sigma_1^2}{\sigma_2^2} \leq \frac{S_1^2 / S_2^2}{F_{\alpha / 2}\left(n_2, n_1\right)}$
D. $\frac{S_1^2 / S_2^2}{F_{\alpha / 2}\left(n_1-1, n_2-1\right)} \leq \frac{\sigma_1^2}{\sigma_2^2} \leq \frac{S_1^2 / S_2^2}{F_{\alpha / 2}\left(n_2-1, n_1-1\right)}$

多变量数据的图示中，用于展示三个变量之间关系的是（）.
A.散点图
B.气泡图
C.雷达图
D.饼图

在假设检验中，不拒绝原假设意味着（）.
A.原假设肯定是正确的
B.原假设肯定是错误的
C.没有证据证明原假设是正确的
D.没有证据证明原假设是错误的

随机变量 $X_1 、 X_2 、 X_3 、 X_4$ 独立同分布于正态分布 $N\left(2, \sigma^2\right)$ ，则 $\frac{\left(X_1-X_2\right)^2}{\left(X_3+X_4-4\right)^2}$ 服从于 ().
A. $F(1,1)$
B. $F(2,2)$
C. $t(1)$
D. $t(2)$

将 $n$ 个球随机放入 $N$ 个箱子内 $(n \leq N)$ ，每个球放入各个箱子的概率相等，则每个箱子至多有一个球的概率为 () .
A. $\frac{A_N^n}{N^n}$
B. $\frac{A_N^n}{n^N}$
C. $\frac{C_N^m}{N^n}$
D. $\frac{C_N^n}{n^N}$

设 $X_1 、 X_2 、 X_3 、 X 4$ 是来自总体 $X$ 的样本， $E X=\mu$ 则（) 是 $\mu$ 的最有效估计.
A. $\hat{\mu}_1=\frac{1}{5} x_1+\frac{1}{5} x_2+\frac{1}{5} x_3+\frac{2}{5} x_4$
B. $\hat{\mu}_2=\frac{1}{3} x_1+\frac{1}{3} x_2+\frac{1}{6} x_3+\frac{1}{6} x_4$
C. $\hat{\mu}_3=\frac{1}{4} x_1+\frac{1}{4} x_2+\frac{1}{4} x_3+\frac{1}{4} x_4$
D. $\hat{\mu}_4=\frac{1}{9} x_1+\frac{2}{9} x_2+\frac{3}{9} x_3+\frac{4}{9} x_4$

下列情况中，可能存在多重共线性的是（）.
A.某个自变量的方差扩大因子 $V I F$ 小于 10
B.模型中各个自变量显著不相关
C.回归系数的正负号与预期相同
D.某个自变量的容忍度小于 $0.1$

多元线性回归中残差图的作用是（）.
A.检验线性关系是否显著
B.检验回归系数是否显著
C.判断自变量之间是否存在多重共线性
D.判断对误差项 $\epsilon$ 的假定是否成立

时间序列中逐期环比值（也称环比发展速度）的几何平均数减1后的结果是（）.
A.平均增长率
B.环比增长率
C.定基增长率
D.年度化增长率

如果一组数据分布的偏态系数是 $0.4$ ，则表明（.
A.该组数据呈右偏，且偏斜程度很高
B.该组数据呈右偏，且偏斜程度不高
C.该组数据呈左偏，且偏斜程度很高
D.该组数据呈左偏，且偏斜程度不高

根据以往的生产统计，某种产品的合格率约为 $90 \%$ ，现要求估计误差为 $5 \%$ ，在 $5 \%$ 的显著性水平下，应抽取 ( ) 个产品作为样本.
A. 138
B. 139
C. 384
D. 385

估计的回归方程为 $\hat{y}=\hat{\beta}_0+\hat{\beta}_1 x_1+\hat{\beta}_2 x_2+\hat{\beta}_3 x_3$ ，其中在 $5 \%$ 的显著度下， $\hat{\beta}_1 、 \hat{\beta}_2$ 未通过 $t$ 检验， $\hat{\beta}_3$ 通过了 $t$ 检验，则在 $5 \%$ 下我们可以认为（).
A. $\beta_1, \beta_2=0 ; \beta_3 \neq 0$
B. $\beta_1, \beta_2 \neq 0 ; \beta_3=0$
C. $\beta_1, \beta_3=0 ; \beta_2 \neq 0$
D. $ \beta_2, \beta_3 \neq 0 ; \beta_1=0$

某企业准备用三种方法组装一种新的产品，为确定哪种方法每小时生产的产品数量最多，随机抽取了
30 名工人，并指定每个人使用其中一种方法. 通过对每个工人生产的产品数进行方差分析得到下面的结果:
方差分析表

来源	$S S$	$d f$	$M S$	$F$	$P-$	$F $ crit
组间	$a$	$c$	210	$f$	$0.245946$	$3.354131$
组内	3836	$d$	$e$	$-$	$-$	$-$
总计	$b$	29	$-$	$-$	$-$	$-$

补全上面的方差分析表 ( ).
A. $ a=420, b=4256, c=2, d=27, e=142.07, f-1.478$
B. $a=630, b=4466, c=3, d=26, e=147.54, f=1.423$
C. $a=420, b=4256, c=2, d=27, e=142.07, f=0.099$
D. $a=630, b=4466, c=3, d=26, e=147.54, f=0.164$

关于方差分析中的多重比较方法中的最小显著差异 (LSD) 方法下列说法错误的是 ().
A. $L S D$ 方法用于当自变量对因变量有显著影响时的进一步分析
B. $L S D$ 方法通过两两配对来进一步检验哪些总体的方差之间有显著差异
C. $L S D$ 方法的原假设通常为 $H_0: \mu_i=\mu_j$
D. $L S D=t_{\alpha / 2} \sqrt{M S E\left(\frac{1}{n_i}+\frac{1}{n_j}\right)}$

下列关于调整的多重判定系数 $R_\alpha^2$ 说法错误的是（).
$A$ 、是度量多元回归方程拟合程度的一个统计量
B.相比较多重判定系数 $R^2$ ，可剔除变量个数对拟合优度的影响
C. $R_\alpha^2$ 的值不一定小于 $R^2$ 的值
D. $R_\alpha^2$ 的值不会由于模型中自变量的个数的增加而越来越接近1

利用估计的回归方程进行区间估计时，关于平均值的置信区间和个别值预测区间，下面说法正确的是 ().
A.置信区间比预测区间宽
B.预测区间比置信区间宽
C.二者一样宽
D.不一定

在使用指数平滑法进行预测时，如果时间序列有较大的随机波动，则平滑系数 $\alpha$ 的取值（）.
A.应该小些
B.应该大些
C.应该等于 0
D.应该等于1

在比较计量单位不同的两组数据离散程度时，应该使用（）.
A.离散系数
B.标准差
C.平均差
D.全距

已知随机变量 $X=\frac{1}{2}+\frac{1}{\sqrt{2 \pi}} \int_0^Y e^{-\frac{t^2}{2}} d t, X \sim U(0,1)$ ，其中 $Y$ 是一个连续型随机变量，则随机变量 $Y$ 的概率密度函数 $g(y)$ 为 () .
A. $\frac{1}{2}+\frac{1}{\sqrt{2 \pi}} \int_0^Y e^{-\frac{t^2}{2}} d t$
B. $\frac{1}{\sqrt{2 \pi}} e \frac{y^2}{2}$
C. $\frac{1}{\pi\left(1+x^2\right)} \mid$
D. $\frac{1}{2 \pi+\frac{x^2}{z}}$

随机变量 $X, Y$ 相互独立且均服从于标准正态分布，则随机变量 $X / Y$ 的概率密度函数为 () .
A. $\frac{1}{2}+\frac{1}{\sqrt{2 \pi}} \int_0^Y e^{-\frac{t^2}{2}} dt$
B. $\frac{1}{\sqrt{2 \pi}} e^{\frac{y^2}{2}}$
C. $\frac{1}{n\left(1+x^2\right)}$
D. $\frac{1}{2 \pi+\frac{x^2}{z}}$

$\xi, \eta \sim U(0,1)$ 且相互独立， $X_1=\min (\xi, \eta), X_2=\max (\xi, \eta)$ ，则 $X_1, X_2$ 的联合密度函数为（）.
A. $f\left(x_1, x_2\right)=2 I_{\left\{0<x_1 \leq x_2<1\right\}}$
B. $f\left(x_1, x_2\right)=I_{\{0<x_1 \leq x_2<1\}}$
C. $f\left(x_1, x_2\right)=I_{\left\{0<x_1<1,0<x_2<1\right\}}$
D. 以上都不正确

某一商场 30 分钟内到达的人数服从参数为 6 的泊松分布，则 10 分钟内来商场的人数等于 3 的概率为（）.
A. $\frac{4}{3} e^{-2}$
B. $\frac{6^9}{9 !} e^{-6}$
C. $\frac{22}{3} e^{-2}$
D. $\frac{16}{3} e^{-2}$

二、简答题

随机变量 $X_1, X_2$ 相互独立，且均服从于均值为 1 的指数分布，现有假设检验 $H_0: \lambda=1 ; H_1: \lambda=0.1$ . 当拒绝域为 $X_1>3$ ，犯第一类错误和第二类错误的概率分别为 $\alpha_1, \beta_1$ ；当拒绝域为 $\bar{X}>3$ ，其中 $\bar{X}=\left(X_1+X_2\right) / 2$ ，犯第一类错误和第二类错误的概率分别为 $\alpha_2, \beta_2$ .
(1) 求 $\alpha_1 、 \beta_1$
(2) 求 $\alpha_2$
(3) 说明随着样本量的增加 $\alpha_1, \beta_1, \alpha_2, \beta_2$ 怎样变化，以及 $\alpha_2+\beta_2=1$ 是否成立.

阐述季节指数的计算方法.
建立多元回归模型时，为什么需要进行变量选择? 并阐述向前选择法的步骤.

随机变量 $X_i(i=1,2,3, \ldots, n)$ 独立同分布，且 $E\left(X_i\right)=1, E\left(X_i^2\right)=2, E\left(X_i^4\right)=8$ ，则当 $n \rightarrow \infty$ 时， $\frac{\sum_{i-1}^n X_i^2}{n}$ 服从什么分布，并说明概率密度函数的形态变化.

三、计算题

为估计两种方法组装产品所需时间的差异, 分别对两种不同的组装方法随机安排12名工人, 每个工人独立组装一件产品所需的时间见下表:

\begin{array}{lllllll} \text { 方法一 } & 28.3 & 30.1 & 29.0 & 37.6 & 32.1 & 28.8 & 36.0 & 37.2 & 38.5 & 34.4 & 28.0 & 30.0 \\ \hline \text { 方法二 } & 27.6 & 22.2 & 31.0 & 33.8 & 20.0 & 30.2 & 31.7 & 26.0 & 32.0 & 31.2 & 33.4 & 26.5 \\ \end{array}

假定两种方法组装产品的时间服从正态分布，且方差相等.
(1) 试以95%的置信水平建立两种方法组装产品所需平均时间之差的置信区间 $(\alpha=0.05)$ ;
(2) 这两种方法组装产品所需时间有无显著差别? $(\alpha=0.05)$

一家房地产评估公司想对某城市的房地产销售价格 $(y)$ 与地产评估价值 $\left(x_1\right)$ 、房产评估价值 $\left(x_2\right)$ 和使用面积 $\left(x_3\right)$ 建立一个模型，以便对销售价格进行合理预测. 为此，收集了15栋住宅的房地产评估数据，经回归得到下面的有关结果 $(\alpha=0.05)$

\begin{array}{|c|c|c|c|c|c|} \hline & d f & SS & M S & F & p-value \\ \hline \text { 回归 } & & & 23363343.03 & & 0.00 \\ \hline \text { 残差 } & & & & - & - \\ \hline \text { 总计 } & 14 & 75375973.33 & - & - & - \\ \hline \end{array}

\begin{array}{|c|c|c|c|c|} \hline & \text { est. } & \text { std.error } & t & p -v a l u e \\ \hline \text { 截距 } & 207.9037 & 617.0486 & 0.3369 & 0.7425 \\ \hline x_1 & 1.4378 & 0.5645 & 2.5472 & 0.0271 \\ \hline x_2 & 0.8545 & 0.2663 & 3.2091 & 0.0083 \\ \hline x_3 & 0.0626 & 0.0656 & 0.9538 & 0.3607 \\ \hline \end{array}

(1) 补全方差分析表，写出销售价格对地产评估价值、房产评估价值、使用面积的多元线性回归方程，并解释各回归系数的意义；
(2) 检验回归方程的线性关系是否显著; $(\alpha=0.05)$
(3) 检验各回归系数是否显著; $(\alpha=0.05)$
(4) 计算多重判定系数 $R^2$ ，并说明它的实际意义;
(5) 计算估计标准误差 $S_e$ ，并说明它的实际意义

四. 证明题 (1小题, 共10分)

已知一列随机变量 $X_1, X_2, . ., X_n, . .$ 相互独立，且都服从 $(0,1)$ 上的均匀分布，令 $N=\min \{$ $\left.n \geq 1: X_1+X_2+\ldots+X_n>x\right\}$ , 其中 $x\in (0,1)$ .
(1) 证明 $P(N>n)=\frac{x^n}{n !}$ ;
(2) 求 $E(N)$ .