上海交通大学-432统计学-2022年

一、选择题

从一个 600 人的小区里抽住户，先按单元分，抽取若干单元的住户，再从抽取的若干个单元中，按完全随机的办法抽取 60 户，这种是什么抽样方法? ( )
A. 整群抽样
B. 分层抽样
C. 系统抽样
D. 多阶段抽样

进行一个调查，从一个老年人倶乐部入手，先调查几个老人，再让他们推荐其他人，再调查他们推荐的人，扩大调查范围，这种是什么抽样方法? ( )
A. 方便抽样
B. 判断抽样
C. 滚雪球抽样
D. 整群抽样

为研究两种稻谷的产量差异，分别种植了 10 个和 7 个样本，假设两种稻谷的产量分布为 $N\left(\mu_1, \sigma_1^2\right), N\left(\mu_2, \sigma_2^2\right)$ ，计算样本可知: $s_1^2=4, s_2^2=3$ ，求 $\frac{\sigma_1^2}{\sigma_2^2}$ 的 $95 \%$ 置信区间（）
A. $\left[\frac{3}{4} F_{0.975}(6,9), \frac{3}{4} F_{0.025}(6,9)\right]$
B. $\left[\frac{3}{4} F_{0.975}(7,10), \frac{3}{4} F_{0.025}(7,10)\right]$
C. $\left[\frac{4}{3} F_{0.975}(6,9), \frac{4}{3} F_{0.025}(6,9)\right]$
D. $\left[\frac{4}{3} F_{0.975}(7,10), \frac{4}{3} F_{0.025}(7,10)\right]$

若一个三元线性回归，线性关系检验显著， $X_1$ 的回归系数检验显著，但 $X_2, X_3$ 的回归系数 t 检验不通过，则（)
A. 若使用 $X_1 、 X_2$ 构建二元回归方程，则有可能 $\mathrm{t}$ 检验通过
B. 若使用 $X_1 、 X_3$ 构建二元回归方程，则不可能 $\mathrm{t}$ 检验通过
C. 若使用 $X_2 、 X_3$ 各自作为单独变量构建一元回归方程，则 $\mathrm{t}$ 检验一定不通过
D. 若使用 $X_2$ 、 $X_3$ 各自作为单独变量构建一元回归方程，则有可能 $\mathrm{t}$ 检验通过

一个机构对上交学生的 2021 年 9 月消费情况进行调查，但是只能收集到 2020 年 9 月的数据，该误差是什么误差? ( )
A. 抽样框误差
B. 无回答误差
C. 回答误差
D. 调查员误差

自填式问卷调查的弱点是什么? ( )
A. 回收率低
B. 成本太高
C. 只适合结构复杂的问卷
D. 调查周期短

一枚均匀的硬币，抛 20 次，求正面次数大于反面次数的概率 ( )
A. $\frac{1}{2}$
B. $\frac{1}{2}\left(1-C_{20}^{10} \frac{1}{2^{20}}\right)$
C. $\frac{1}{2}\left(1-P_{20}^{10} \frac{1}{2^{20}}\right)$
D. $C_{20}^{10} \frac{1}{2^{20}}$

某厂宣称自己的节能灯寿命大于 400 天，假设节能灯的寿命均值为 $\mu$ ，则收货商验贷时应做的原假设，备择假设为（）
A. $H_0: \mu<400$ v.s. $H_1: \mu \geq 400$
B. $H_0: \mu \geq 400$ v.s. $H_1: \mu<400$
C. $H_0: \mu>400$ v.s. $H_1: \mu \leq 400$
D. $H_0: \mu \leq 400$ v.s. $H_1: \mu>400$

比例估计，已知总体比率为 $\pi$ ，可接受的最大误差为 $E$ ，求样本量 $n$ 的公式 $(）$
A. $n=\frac{z_{\alpha / 2}^2 \pi(1-\pi)}{E}$
B. $n=\frac{z_{\alpha / 2}^2 \pi(1-\pi)}{E^2}$
C. $n=\frac{z_{\alpha / 2} \pi(1-\pi)}{E^2}$
D. $n=\frac{z_{\alpha / 2} \pi(1-\pi)}{E}$

希思罗机场声称自己是甲级机场，机构为了验证说法是否属实，进行假设检验，则设立的原假设为（）
A. 希思罗机场没有达到甲级机场的标准
B. 希思罗机场达到了甲级机场的标准
C. 希思罗机场的自我评级与机构评级一致
D. 希思罗机场的自我评级与机构评级不一致

设 $X, Y$ 相互独立， $X \sim P\left(\mu \right), Y \sim P\left(\lambda \right)$ ，在 $X+Y=n>k$ 的条件下，求 $\mathbb{P}(X=k \mid X+Y=n)$
A. $C_{n}^{k}\frac{\mu ^k\lambda ^{n-k}}{\left( \mu +\lambda \right) ^n}$
B. $C_{n}^{k}\frac{\lambda ^k\mu ^{n-k}}{\left( \mu +\lambda \right) ^n}$
C. $\frac{\mu ^k\lambda ^{n-k}}{\left( \mu +\lambda \right) ^n}$
D. $\frac{\lambda ^k\mu ^{n-k}}{\left( \mu +\lambda \right) ^n}$

一个月份或季度的季节指数指的是该月份或季度数值 ( )
A. 占全年月份或季度数值总和的比率
B. 占以往所有年份相应的月份或季度数值平均的比率
C. 占全年月份或季度数值的平均数的比率
D. 以上选项都不对

含交互项的双因素方差分析，行因素有 $r$ 个水平，列因素有 $m$ 个水平，每组重复 $k$ 次，总共有 $n$ 个样本. 下面的方差分析表中 (I) (II) (III) 处的值缺失, 则缺失值 (III) 应该是 ( )

来源	df	SS	MS	F
因素A	2	1.078	0.539	40.86
因素B	2	0.052	0.026	1.96
A:B	(I)	0.689	(II)	(III)
残差	18	0.238	0.013
总计	26	2.057

A. 26.5
B. 13.25
C. 8.33
D. 5.89

$95 \%$ 置信区间的含义（）
A. 一个特定样本算出的置信区间有 $95 \%$ 的概率包含参数真值
B. 一个特定样本算出的置信区间有 $5 \%$ 的概率包含参数真值
C. 100 个置信区间包含参数真值的个数大约为 95 个
D. 100 个置信区间包含参数真值的个数大约为 5 个

箱线图显示: 众数<中位数<平均数，则该分布 $(）$
A. 左偏
B. 右偏
C. 对称
D. 无法判断

利用 p 值决策的优势 ( )
A. p 值可以精确度量原假设和备则假设不一致的程度
B. p 值反映拒绝真实一个原假设的风险度
C. p 值有明确的决策界限
D. p 值反映接受一个错误的原假设的风险度

设随机变量 $X \sim U(0, \theta) ， \hat{\theta}_1=\frac{2}{n} \sum_{i=1}^n X_i, \hat{\theta}_2=\frac{n+1}{n} X_{(n)}$ ，则（）
A. $\hat{\theta}_1$ 比 $\hat{\theta}_2$ 更有效
B. $\hat{\theta}_2$ 比 $\hat{\theta}_1$ 更有效
C. $\hat{\theta}_1$ 和 $\hat{\theta}_2$ 一样有效
D. 因为两者的均值不同，所以无法进行比较

某含季节成分的数据是 84，季节指数为 1.2, 则消除季节指数的数据是（）
A. 70
B. 84
C. 100.8
D. 100

假如新冠肺炎恵者，用医学影像分析确诊的概率为 $p$ ，没有得新冠肺炎但是确诊的概率为 $q=\frac{p}{200}$ 。现在已知一个城市得新冠的概率为 $x$ ，如果一个人确诊了，那么他得新冠的概率是多少 ( )
A. $\frac{200 x}{1+199 x}$
B. $\frac{199 x}{1+200 x}$
C. $\frac{199}{200}$
D. $\frac{200}{201}$

设 $X \sim U(\theta-0.5, \theta+0.5)$ ，关于 $\theta$ 的极大似然估计，下列说法正确的是( )
A. $\hat{\theta}=\frac{1}{2}\left(X_{(1)}+X_{(n)}\right)$
B. $\hat{\theta}=\frac{2}{X}$
C. 极大似然估计不存在
D. 极大似然估计不唯一

以下用哪种图表用来比较三个地区的销售情况最好?（）
A. 直方图
B. 气泡图
C. 雷达图
D. 环形图

以下哪些情况暗示回归模型可能存在多重共线性（）
A. 模型中两个自变量显著不相关
B. 某个自变量容忍度小于 $0.1$
C. 某个自变量 VIF 小于 10
D. $\mathrm{F}$ 检验通过，至少有一个 $\mathrm{t}$ 检验通过

多元回归中，用 $R_a^2$ 的目的是 ( )
A. 自动调整自变量个数对误差平方和的影响
B. 自动调整自变量个数对回归平方和的影响
C. 防止由于增加统计不显著的自变量而低估 $R^2$
D. 防止由于增加统计不显著的自变量而高估 $R^2$

设随机变量 $X_1 . . X_{20}$ 独立同分布于一个正态分布 $N\left(\mu, \sigma^2\right)$ ，记 $\bar{x}=\frac{\sum_1^{19} x_i}{19}, M^2=\sum_{i-1}^{19}\left(x_i-\bar{x}\right)^2$ ，则统计量 $T=\frac{X_{20}-\bar{x}}{M} \sqrt{\frac{171}{10}}$ 服从什么分布? ( )
A. $F(1,18)$
B. $F(1,19)$
C. $t(18)$
D. $t(19)$

一个假设检验，如果在 $\alpha=0.05$ 的时候拒绝了 $H_0$ ，说明（）
A. 判断 $H_0$ 为真, 错误的概率不超过 $0.05$
B. 判断 $H_1$ 为真, 错误的概率超过 $0.95$
C. 判断 $H_0$ 为假, 错误的概率不超过 $0.05$
D. 判断 $H_1$ 为真, 错误的概率不超过 $0.95$

设标准正态分布的超额峰度为 0 ，若一个分布的超额峰度为 $-0.5$ ，则该分布为（）
A. 左偏分布
B. 右偏分布
C. 尖峰分布
D. 扁平分布

双因素方差分析，相比较单因素方差分析有什么好处，是因为（）
A. 双因素方差分析的 $p$ 值一定比任一单因素方差分析中的 $p$ 值大
B. 双因青方差分析的 $p$ 值一定比任一单因素方差分析中的 $p$ 值小
C. 双因素方差分析的残差效应更大
D. 双因素方差分析的联合效应更小

回归方程中的，相同置信水平下， $y_0$ 的预测区间以及其平均值 $Ey_0$ 的置信区间的关系是（ )
A. 平均值的置信区间更短
B. 预测区间更短
C. 平均值的置信上限严格大于预测上限
D. 平均值的置信上限有可能大于预测上限

设连续型随机变量 $\mathrm{X}$ 的密度函数为 $f(x)=\lambda^2 x \exp \{-\lambda x\}, x>0, \lambda>0 ， Y \mid X$ 服从 $U(0, X)$ , 则 $\mathbb{E}[X \mid Y=y] =$ ( )
A. $\lambda + y$
B. $\frac{1}{\lambda} + y$
C. $\lambda$
D. $y \lambda$

在进行多元回归的F检验时, 如果接受原假设, 那么以下选项错误的是( )
A. 任何一个自变量都不显著
B. 回归方程的线性关系不显著
C. 没有找到充分的理由推翻原假设
D. 自变量和因变量之间不可能有非线性关系

二、简答题

设随机变量 $X \sim \operatorname{Exp}\left(\lambda_1\right), Y \sim \operatorname{Exp}\left(\lambda_2\right)$ ，且 $X, Y$ 相互独立， $H_0: \frac{\lambda_2}{\lambda_1}=1 \quad H_1: \lambda_2>\lambda_1$ ，取拒绝域 $W=\left\{x>c y, c>0\right\}$ 。
(1) 求第一类错误概率 $\alpha$ (3分)
(2) 求第二类错误 $\beta$ , 并求出 $\beta$ 上限的最小值 (3分)
(3) $\alpha+\beta=1$ 是否成立 (2分)
(4) 若要求 $\alpha<0.05$ , $c$ 应该满足什条件 (2分)

某种商品价格的4年环比增长率 $G_1, G_2, G_3, G_4$
(1) 求年平均增长率 .
(2) $\left(G_1+1\right)\left(G_2+1\right)\left(G_3+1\right)\left(G_4+1\right)-1$ 表示哪种增长率，用来描述什么 ?
(3) 增长率分析需要注意哪些问题.

非线性趋势曲线有哪些，写出他们的名称，用来描述何种趋势，写出趋势方程，用什么方法计算模型里的参数。

随机变量 $X$ 是大于 0 的连续型随机变量， $\ln X$ 的均值方差都存在, 设 $X_1, \ldots, X_n$ 是来自总体 $X$ 的简单随机样本，试求 $Y_n = \left( X_1X_2\cdots X_n \right) ^{\frac{1}{n}}$ 的渐近分布?

三、计算题

为估计两种肥料的差异，在土壤上分别使用两种不同的肥料各随机施肥10次，得到两组简单随机样本 $X_1, \ldots, X_{10} ; Y_1, \ldots, Y_{10}$ , 分别来自 $N\left(\mu_1, \sigma_1^2\right), N\left(\mu_2, \sigma_2^2\right) ， \bar{x}=600, \bar{y}=570, S_1^2=\frac{6400}{9}, S_1^2=\frac{2400}{9}$ .
(1) 假设 $\sigma_1^2=\sigma_2^2$ ，求 $\mu_1-\mu_2$ 的 95% 置信下限.
(2) 在 $\alpha=5 \%$ 的显著性水平下，试检验是否有 $\sigma_1^2=\sigma_2^2$ .

货车的运输时间 ( $y$ , 单位：小时) 与运输路程 ( $x$ , 单位: 英里) 有关，取 10 个样本，考虑运输时间与运输路程的一元回归模型. 给出下面一些统计量. 试解决以下问题:
$\bar{x}=\frac{\sum_{i-1}^{10} x_i}{10}=80, \bar{y}=\frac{\sum_{i-1}^{10} y_i}{10}=67, \sum_{i=1}^{10}\left(x_i-\bar{x}\right)^2=3441, \sum_{i=1}^{10}\left(y_i-\bar{y}\right)^2=2533, \sum_{i=1}^{10}\left(x_i-\bar{x}\right)\left(y_i-\bar{y}\right)=1079$ .
(1) 补全方差分析表:

	df	MS	F
回归
残差		15.3	-
总和	9	-	-

(2) 设回归模型 $Y=a+b x+\varepsilon, \varepsilon \sim N\left(0, \sigma_2^2\right)$ ，求 $\hat{a}, \hat{b}$ ，并说明 $\hat{b}$ 的实际意义.
(3) 计算多重判定系数 $R^2$ ，并说明它的实际意义;
(4) 给定 $\alpha=0.01$ ，判断线性关系是否显著；
(5) 在 $\alpha=0.05$ 的显著性水平下, 给定 $x_0=90$ , 求 $y_0$ 的预测区间.

四. 证明题 (1小题, 共10分)

定义连续型随机变量 $X, Y$ 的密度函数为 $p(x)>0, q(x)>0$ ，且 $X, Y$ 的定义域 $D$ 相同，定义Kullback-Leibler散度: $D(p \| q)=\int_{x \in \mathbb{D}} p(x) \log \frac{p(x)}{q(x)} d x$
(1) 求证: $D(p || q)=\int_{x \in \mathbb{D}} p(x) \log \frac{p(x)}{q(x)} d x \geq 0$ ；
(2) 若 $X \sim N(0,1), Y \sim N\left(\mu, \sigma^2\right)$ ，求 $D(X \mid Y)$ ，并说明 $\sigma$ 变化时， $D(X \mid Y)$ 的变化。