上海交通大学-432统计学-2022年

一、选择题

从一个 600 人的小区里抽住户，先按单元分，抽取若干单元的住户，再从抽取的若干个单元中，按完全随机的办法抽取 60 户，这种是什么抽样方法? ( )
A. 整群抽样
B. 分层抽样
C. 系统抽样
D. 多阶段抽样

Solution: D

多阶段抽样是先将一个很大的总体划分为若干个子总体，即一阶单位，再把一阶单位划分为若干个更小的单位，称为二阶单位，照此继续下去划分出更小的单位，依次称为三阶单位、四阶单位等。然后分别按随机原则逐阶段抽样。

进行一个调查，从一个老年人倶乐部入手，先调查几个老人，再让他们推荐其他人，再调查他们推荐的人，扩大调查范围，这种是什么抽样方法? ( )
A. 方便抽样
B. 判断抽样
C. 滚雪球抽样
D. 整群抽样

Solution: C

滚雪球抽样是指先随机选择一些被访者并对其实施访问，再请他们提供另外一些属于所研究目标总体的调查对象，根据所形成的线索选择此后的调查对象。

为研究两种稻谷的产量差异，分别种植了 10 个和 7 个样本，假设两种稻谷的产量分布为 $N\left(\mu_1, \sigma_1^2\right), N\left(\mu_2, \sigma_2^2\right)$ ，计算样本可知: $s_1^2=4, s_2^2=3$ ，求 $\frac{\sigma_1^2}{\sigma_2^2}$ 的 $95 \%$ 置信区间（）
A. $\left[\frac{3}{4} F_{0.975}(6,9), \frac{3}{4} F_{0.025}(6,9)\right]$
B. $\left[\frac{3}{4} F_{0.975}(7,10), \frac{3}{4} F_{0.025}(7,10)\right]$
C. $\left[\frac{4}{3} F_{0.975}(6,9), \frac{4}{3} F_{0.025}(6,9)\right]$
D. $\left[\frac{4}{3} F_{0.975}(7,10), \frac{4}{3} F_{0.025}(7,10)\right]$

Solution: A

注意这里用的应是上分位数, 根据F分布的对称性, 置信区间应为

\begin{aligned} \left[ \frac{s_{1}^{2}/s_{2}^{2}}{F_{0.025}\left( 9,6 \right)},\frac{s_{1}^{2}/s_{2}^{2}}{F_{0.975}\left( 9,6 \right)} \right] &=\left[ \frac{s_{1}^{2}}{s_{2}^{2}}F_{0.975}\left( 6,9 \right) ,\frac{s_{1}^{2}}{s_{2}^{2}}F_{0.025}\left( 6,9 \right) \right] \\ &=\left[ \frac{4}{3}F_{0.975}\left( 6,9 \right) ,\frac{4}{3}F_{0.025}\left( 6,9 \right) \right] . \end{aligned}

若一个三元线性回归，线性关系的 F 检验显著， $X_1$ 的回归系数检验显著，但 $X_2, X_3$ 的回归系数 t 检验不通过，则（)
A. 若使用 $X_1 、 X_2$ 构建二元回归方程，则有可能 $\mathrm{t}$ 检验通过
B. 若使用 $X_1 、 X_3$ 构建二元回归方程，则不可能 $\mathrm{t}$ 检验通过
C. 若使用 $X_2 、 X_3$ 各自作为单独变量构建一元回归方程，则 $\mathrm{t}$ 检验一定不通过
D. 若使用 $X_2 、 X_3$ 各自作为单独变量构建一元回归方程，则有可能 $\mathrm{t}$ 检验通过

Solution: A D 均正确.

一个机构对上交学生的 2021 年 9 月消费情况进行调查，但是只能收集到 2020 年 9 月的数据，该误差是什么误差? ( )
A. 抽样框误差
B. 有意识误差
C. 回答误差
D. 测量误差

Solution: A

抽样框误差是因不准确或不完整的抽样框而引起的误差。从包含抽样误差的抽样框中抽取的样本有时无法正确地代表调研目标的实际情况，这就存在抽样框误差。

自填式问卷调查的缺点是什么? ( )
A. 回收率低
B. 成本太高
C. 只适合复杂的问卷
D. 调查周期短

Solution: A

自填式问卷调查成本低、只适合简单问卷、调查周期长，但回收率低.

一枚均匀的硬币，抛 20 次，求正面次数大于反面次数的概率 ( )
A. $\frac{1}{2}$
B. $\frac{1}{2}\left(1-C_{20}^{10} \frac{1}{2^{20}}\right)$
C. $\frac{1}{2}\left(1-A_{20}^{10} \frac{1}{2^{20}}\right)$
D. $C_{20}^{10} \frac{1}{2^{20}}$

Solution: B

用随机变量 $X,Y$ 分别表示正面向上、反面向上的次数, 则显然 $X + Y = 20$ , 且有

P\left( X>Y \right) +P\left( X<Y \right) +P\left( X=Y \right) =1

根据对称性, 以及 $X + Y = 20$ , 有

\begin{aligned} 2P\left( X>Y \right) &=1-P\left( X=10 \right) \\ P\left( X>Y \right) &=\frac{1}{2}\left( 1-C_{20}^{10}\frac{1}{2^{20}} \right) \end{aligned}

某厂宣称自己的节能灯寿命大于 400 天，假设节能灯的寿命均值为 $\mu$ ，则收货商验贷时应做的原假设，备择假设为（）
A. $H_0: \mu<400$ v.s. $H_1: \mu \geq 400$
B. $H_0: \mu \geq 400$ v.s. $H_1: \mu<400$
C. $H_0: \mu>400$ v.s. $H_1: \mu \leq 400$
D. $H_0: \mu \leq 400$ v.s. $H_1: \mu>400$

Solution: D

通常将想要检验的内容(不能轻易拒绝的)放在备择假设, 想要推翻的内容放在原假设, 若拒绝原假设则称“显著通过”检验.

比例估计，已知总体比率为 $\pi$ ，可接受的最大误差为 $E$ ，求样本量 $n$ 的公式 ( )
A. $n=\frac{z_{\alpha / 2}^2 \pi(1-\pi)}{E}$
B. $n=\frac{z_{\alpha / 2}^2 \pi(1-\pi)}{E^2}$
C. $n=\frac{z_{\alpha / 2} \pi(1-\pi)}{E^2}$
D. $n=\frac{z_{\alpha / 2} \pi(1-\pi)}{E}$

Solution: B

题目意为, 当某事件发生的概率为 $\pi$ , 用重复试验发生的频率 $\bar{X}$ 来估计 $\pi$ , 试问需要多大的样本量, 才可以保证

P\left( \left| \bar{X}-\pi \right|\ge E \right) \le \alpha .

利用正态近似, $\sqrt{n}\left( \bar{X}-\pi \right) \sim N\left( 0,\pi \left( 1-\pi \right) \right)$ , 则

P\left( \left| \bar{X}-\pi \right|\ge E \right) =P\left( \left| \frac{\sqrt{n}\left( \bar{X}-\pi \right)}{\sqrt{\pi \left( 1-\pi \right)}} \right|\ge \frac{\sqrt{n}E}{\sqrt{\pi \left( 1-\pi \right)}} \right) =\alpha

可近似解得 $\frac{\sqrt{n}E}{\sqrt{\pi \left( 1-\pi \right)}}=z_{\frac{\alpha}{2}}$ , 于是 $n=\frac{z_{\frac{\alpha}{2}}^{2}\pi \left( 1-\pi \right)}{E^2}$ .

希思罗机场声称自己是甲级机场，机构为了验证说法是否属实，进行假设检验，则设立的原假设为（）
A. 希思罗机场没有达到甲级机场的标准
B. 希思罗机场达到了甲级机场的标准
C. 希思罗机场的自我评级与机构评级一致
D. 希思罗机场的自我评级与机构评级不一致

Solution: A

将想要验证的放在备择假设.

设 $X, Y$ 相互独立， $X \sim P\left(\mu \right), Y \sim P\left(\lambda \right)$ ，在 $X+Y=n>k$ 的条件下，求 $\mathbb{P}(X=k \mid X+Y=n)$
A. $C_{n}^{k}\frac{\mu ^k\lambda ^{n-k}}{\left( \mu +\lambda \right) ^n}$
B. $C_{n}^{k}\frac{\lambda ^k\mu ^{n-k}}{\left( \mu +\lambda \right) ^n}$
C. $\frac{\mu ^k\lambda ^{n-k}}{\left( \mu +\lambda \right) ^n}$
D. $\frac{\lambda ^k\mu ^{n-k}}{\left( \mu +\lambda \right) ^n}$

Solution: A

直接利用条件概率公式, 有

\begin{aligned} P\left( X=k\mid X+Y=n \right) &=\frac{P\left( X=k,Y=n-k \right)}{P\left( X+Y=n \right)} \\ &=\frac{\frac{\mu ^k}{k!}e^{-\mu}\frac{\lambda ^{n-k}}{\left( n-k \right) !}e^{-\lambda}}{\frac{\left( \mu +\lambda \right) ^n}{n!}e^{-\left( \mu +\lambda \right)}}=C_{n}^{k}\frac{\mu ^k\lambda ^{n-k}}{\left( \mu +\lambda \right) ^n} \end{aligned}

一个月份或季度的季节指数指的是该月份或季度数值 ( )
A. 占全年月份或季度数值总和的比率
B. 占以往所有年份相应的月份或季度数值平均的比率
C. 占全年月份或季度数值的平均数的比率
D. 以上选项都不对

Solution: B

季节指数以平均数据进行计算.

含交互项的双因素方差分析，行因素有 $r$ 个水平，列因素有 $m$ 个水平，每组重复 $k$ 次，总共有 $n$ 个样本. 下面的方差分析表中 (I) (II) (III) 处的值缺失, 则缺失值 (III) 应该是 ( )

来源	df	SS	MS	F
因素A	2	1.078	0.539	40.86
因素B	2	0.052	0.026	1.96
A:B	(I)	0.689	(II)	(III)
残差	18	0.238	0.013
总计	26	2.057

A. 26.5
B. 13.25
C. 8.33
D. 5.89

Solution: B

可以看出 $r = m = 3$ , 因此交互项的自由度应该是 $df_{A:B} = (r-1)(m-1) = 4$ . 所以 $MS_{A:B}=\frac{SS_{A:B}}{df_{A:B}}=\frac{0.689}{4}=0.1723$ , $F_{A:B}=\frac{MS_{A:B}}{MSE}=\frac{0.1723}{0.013}=13.25$ .

$95 \%$ 置信区间的含义（）
A. 一个特定样本算出的置信区间有 $95 \%$ 的概率包含参数真值
B. 一个特定样本算出的置信区间有 $5 \%$ 的概率包含参数真值
C. 100 个置信区间包含参数真值的个数大约为 95 个
D. 100 个置信区间包含参数真值的个数大约为 5 个

Solution: C

A的错误在于特定样本, 当样本给定时, 区间不具有随机性, 则要么包含真实参数, 要么不包含.

箱线图显示: 众数<中位数<平均数，则该分布 ( )
A. 左偏
B. 右偏
C. 对称
D. 无法判断

Solution: B

以连续型随机变量为例, 众数代表其密度函数的峰值点, 若众数<中位数<平均数, 则表明峰值点居于分布中心的左侧, 因此应该是右偏分布.

利用 p 值决策的优势 ( )
A. p 值可以精确度量原假设和备则假设不一致的程度
B. p 值反映拒绝一个真实原假设的风险度
C. p 值有明确的决策界限
D. p 值反映接受一个错误的原假设的风险度

Solution: B

p值指的是, 在原假设成立下, 出现一个比当前样本要更加极端的观测的概率, 即反应了当前样本在原假设成立的情况下的极端程度, 它可以用来衡量犯第一类错误(拒真)的风险. 如果p值很小, 也就说明在原假设成立时, 当前的样本是一个非常极端的样本, 我们可以拒绝原假设, 此时也说明我们如果拒绝原假设, 那么犯拒真错误的风险较小.

设随机变量 $X \sim U(0, \theta) ， \hat{\theta}_1=\frac{2}{n} \sum_{i=1}^n X_i, \hat{\theta}_2=\frac{n+1}{n} X_{(n)}$ ，则（）
A. $\hat{\theta}_1$ 比 $\hat{\theta}_2$ 更有效
B. $\hat{\theta}_2$ 比 $\hat{\theta}_1$ 更有效
C. $\hat{\theta}_1$ 和 $\hat{\theta}_2$ 一样有效
D. 因为两者的均值不同，所以无法进行比较

Solution: B

容易算得二者均为 $\theta$ 的无偏估计, 但 $\hat{\theta}_2$ 是 $\theta$ 的UMVUE, 因此肯定更有效.

某含季节成分的数据是 84，季节指数为 1.2, 则消除季节指数的数据是（）
A. 70
B. 84
C. 100.8
D. 100

Solution: A

直接计算, $\frac{84}{1.2}=70$ .

假如新冠肺炎恵者，用医学影像分析确诊的概率为 $p$ ，没有得新冠肺炎但是确诊的概率为 $q=\frac{p}{200}$ 。现在已知一个城市得新冠的概率为 $x$ ，如果一个人确诊了，那么他得新冠的概率是多少 ( )
A. $\frac{200 x}{1+199 x}$
B. $\frac{199 x}{1+200 x}$
C. $\frac{199}{200}$
D. $\frac{200}{201}$

Solution:

用事件 $A$ 表示患病, 事件 $B$ 表示确诊, 则由 Bayes 公式, 有

\begin{aligned} P\left( A\mid B \right) &=\frac{P\left( B\mid A \right) P\left( A \right)}{P\left( B\mid A \right) P\left( A \right) +P\left( B\mid \bar{A} \right) P\left( \bar{A} \right)} \\ &=\frac{px}{px+\frac{p}{200}\left( 1-x \right)}=\frac{200px}{200px+p-px}=\frac{200x}{1+199x}. \end{aligned}

设 $X_1, \cdots, X_n i.i.d \sim U(\theta-0.5, \theta+0.5)$ ，关于 $\theta$ 的极大似然估计，下列说法正确的是( )
A. $\hat{\theta}=\frac{1}{2}\left(X_{(1)}+X_{(n)}\right)$
B. $\hat{\theta}=\frac{2}{X}$
C. 极大似然估计不存在
D. 极大似然估计不唯一

Solution: D

由于似然函数为

L\left( \theta \right) =I_{\left\{ X_{\left( 1 \right)}\ge \theta -0.5 \right\}}I_{\left\{ X_{\left( n \right)}\le \theta +0.5 \right\}}=I_{\left\{ X_{\left( n \right)}-0.5\le \theta \le X_{\left( 1 \right)}+0.5 \right\}},

则任意 $\hat{\theta}\in \left[ X_{\left( n \right)}-0.5,X_{\left( 1 \right)}+0.5 \right]$ 都是 $\theta$ 的MLE.

以下用哪种图表用来比较三个地区的销量的相似情况最好?（）
A. 直方图
B. 气泡图
C. 雷达图
D. 环形图

Solution: C

雷达图适用于分析多变量数据, 以及不同个体之间的相似性、差异性.

以下哪些情况暗示回归模型可能存在多重共线性（）
A. 模型中两个自变量显著不相关
B. 某个自变量容忍度小于 $0.1$
C. 某个自变量 VIF 小于 10
D. $\mathrm{F}$ 检验通过，至少有一个 $\mathrm{t}$ 检验通过

Solution: B

多元回归中，用 $R_a^2$ 的目的是 ( )
A. 调整自变量个数对误差平方和的影响
B. 调整自变量个数对回归平方和的影响
C. 防止由于增加统计不显著的自变量而低估 $R^2$
D. 防止由于增加统计不显著的自变量而高估 $R^2$

Solution: D

引入新的变量必定导致 $R^2$ 提升, 而不一定提升调整 $R^2$ .

设随机变量 $X_1 . . X_{20}$ 独立同分布于一个正态分布 $N\left(\mu, \sigma^2\right)$ ，记 $\bar{x}=\frac{\sum_1^{19} x_i}{19}, M^2=\sum_{i-1}^{19}\left(x_i-\bar{x}\right)^2$ ，则统计量 $T=\frac{X_{20}-\bar{x}}{M} \sqrt{\frac{171}{10}}$ 服从什么分布? ( )
A. $F(1,18)$
B. $F(1,19)$
C. $t(18)$
D. $t(19)$

Solution: C

根据Fisher引理 $\bar{x} \sim N(\mu, \frac{\sigma^2}{19})$ , $\frac{M^2}{\sigma^2} \sim \chi^2 (18)$ , 且二者独立. 而 $X_{20}$ 与它们皆独立, 因此有 $\bar{x}-X_{20}\sim N\left( 0,\frac{20}{19}\sigma ^2 \right)$ 与 $M$ 独立, 综上所述,

\frac{\left( \bar{x}-X_{20} \right) /\sqrt{\frac{20}{19}}}{\sqrt{M^2/18}}=\frac{\bar{x}-X_{20}}{M}\sqrt{\frac{171}{10}}\sim t\left( 18 \right).

一个假设检验，如果在 $\alpha=0.05$ 的时候拒绝了 $H_0$ ，说明（）
A. 判断 $H_0$ 为真, 错误的概率不超过 $0.05$
B. 判断 $H_1$ 为真, 错误的概率超过 $0.95$
C. 判断 $H_0$ 为假, 错误的概率不超过 $0.05$
D. 判断 $H_1$ 为真, 错误的概率不超过 $0.95$

Solution: C

检验的显著性水平控制的是犯第一类错误(拒真)的概率, B、C项的含义皆为拒真.

设标准正态分布的峰度系数为 0 ，若一个分布的峰度系数为 $-0.5$ ，则该分布为（）
A. 左偏分布
B. 右偏分布
C. 尖峰分布
D. 扁平分布

Solution: D

注意峰度与偏度的定义以及差别.

相比两次运用单因素方差分析, 使用双因素方差分析有什么好处? ( )
A. 双因素方差分析的 $p$ 值一定比任一单因素方差分析中的 $p$ 值大
B. 双因素方差分析的 $p$ 值一定比任一单因素方差分析中的 $p$ 值小
C. 双因素方差分析的残差效应更大
D. 双因素方差分析的残差效应更小

Solution: D

类似于分别建立一元线性回归以及建立二元线性回归模型的区别, 使用双因素方差分析, 残差平方和一定会减小.

回归方程中的，相同置信水平下， $y_0$ 的预测区间以及其平均值 $Ey_0$ 的置信区间的关系是（ )
A. 平均值的置信区间更短
B. 预测区间更短
C. 平均值的置信上限严格大于预测上限
D. 平均值的置信上限有可能大于预测上限

Solution: A

预测区间指的是

x_0\hat{\beta}\pm \sqrt{1+x_{0}^{T}\left( X^TX \right) ^{-1}x_0}\hat{\sigma}\cdot t_{\frac{\alpha}{2}}\left( n-p-1 \right) .

平均值的置信区间指的是

x_0\hat{\beta}\pm \sqrt{x_{0}^{T}\left( X^TX \right) ^{-1}x_0}\hat{\sigma}\cdot t_{\frac{\alpha}{2}}\left( n-p-1 \right) .

相差的 1 实际来源于 $y_0$ 本身的随机性 ( $y_0 \sim N(x_0\beta, \sigma^2$ ), 而 $Ey_0$ 不具有随机性. 那么显然预测区间的长度更长.

如果考虑预测上限, 也一定是预测上限严格大于置信上限.

设连续型随机变量 $\mathrm{X}$ 的密度函数为 $f(x)=\lambda^2 x \exp \{-\lambda x\}, x>0, \lambda>0 ， Y \mid X$ 服从 $U(0, X)$ , 则 $\mathbb{E}[X \mid Y=y] =$ ( )
A. $\lambda + y$
B. $\frac{1}{\lambda} + y$
C. $\lambda$
D. $y \lambda$

Solution: B

先求联合分布, 易得

f\left( x,y \right) =f_Xf_{Y\mid X}=\lambda ^2e^{-\lambda x},x>y>0.

则 $Y$ 的边际分布是 $f_Y\left( y \right) =\int_y^{+\infty}{\lambda ^2e^{-\lambda x}dx}=\lambda e^{-\lambda y},y>0$ .

因此 $X$ 关于 $Y$ 的条件分布是

f_{X\mid Y}\left( x \right) =\frac{\lambda ^2e^{-\lambda x}}{\lambda e^{-\lambda y}}=\lambda e^{-\lambda \left( x-y \right)},x>y

它是双参数指数分布, 可以通过积分计算数学期望, 或直接利用双参数指数分布的数学期望公式 $E\left[ X\mid Y=y \right] =\frac{1}{\lambda}+y$ .

在进行多元回归的F检验时, 如果接受原假设, 那么以下选项错误的是( )
A. 任何一个自变量都不显著
B. 回归方程的线性关系不显著
C. 没有找到充分的理由推翻原假设
D. 自变量和因变量之间不可能有非线性关系

Solution: D

线性回归检验不了非线性关系.

二、简答题

设随机变量 $X \sim \operatorname{Exp}\left(\lambda_1\right), Y \sim \operatorname{Exp}\left(\lambda_2\right)$ ，且 $X, Y$ 相互独立， $H_0: \frac{\lambda_2}{\lambda_1}=1 \quad H_1: \lambda_2>\lambda_1$ ，取拒绝域 $W=\left\{x>c y, c>0\right\}$ 。
(1) 求第一类错误概率 $\alpha$ (3分)
(2) 求第二类错误 $\beta$ , 并求出 $\beta$ 上限的最小值 (3分)
(3) $\alpha+\beta=1$ 是否成立 (2分)
(4) 若要求 $\alpha<0.05$ , $c$ 应该满足什条件 (2分)

Solution:
(1)
先求该检验的功效函数, 它是 $\lambda_1, \lambda_2$ 的函数, 有

\begin{aligned} g_W\left( \lambda _1,\lambda _2 \right) =P\left( X>cY \right) &=\int_0^{+\infty}{P\left( X>cY\mid Y=y \right) f_Y\left( y \right) dy} \\ &=\int_0^{+\infty}{e^{-c\lambda _1y}\lambda _2e^{-\lambda _2y}dy}=\frac{\lambda _2}{c\lambda _1+\lambda _2}. \end{aligned}

而第一类错误的概率为 $\alpha =P\left( X>cY\mid \lambda _1=\lambda _2 \right) =g_W\left( \lambda ,\lambda \right) =\frac{1}{c+1}$ .
(2)

对任意 $\lambda_2 > \lambda_1$ , 第二类错误的概率是

\beta \left( \lambda _1,\lambda _2 \right) =1-g_W\left( \lambda _1,\lambda _2 \right) =\frac{c\lambda _1}{c\lambda _1+\lambda _2}

其上确界为 $\sup_{\lambda _2>\lambda _1}\beta \left( \lambda _1,\lambda _2 \right) =\sup_{\lambda _2>\lambda _1}\frac{c\lambda _1}{c\lambda _1+\lambda _2}=\frac{c}{c+1}$ .

当 $c > 0$ 时, 该上限的最小值为 $0$ (在 $c \rightarrow 0+$ 时取到. )

(3) 容易验证 $\alpha +\beta =\frac{1}{c+1}+\frac{c\lambda _1}{c\lambda _1+\lambda _2}\ne 1$ .

但 $\alpha + \sup_{\lambda _2>\lambda _1}\beta = 1$ 成立.

(4) 令 $\frac{1}{c+1}<0.05$ , 解得 $c>19$ .

某种商品价格的4年环比增长率 $G_1, G_2, G_3, G_4$
(1) 求年平均增长率 .
(2) $\left(G_1+1\right)\left(G_2+1\right)\left(G_3+1\right)\left(G_4+1\right)-1$ 表示哪种增长率，用来描述什么 ?
(3) 增长率分析需要注意哪些问题.

Solution:

(1) 设年平均增长率为 $x$ , 则

\begin{aligned} \left( 1+x \right) ^4&=\left( G_1+1 \right) \left( G_2+1 \right) \left( G_3+1 \right) \left( G_4+1 \right)\\ x&=\left[ \left( G_1+1 \right) \left( G_2+1 \right) \left( G_3+1 \right) \left( G_4+1 \right) \right] ^{\frac{1}{4}}-1\\ \end{aligned}

(2) 表示定基增长率, 如果观察的是若干个时期的数据，每个时期的数据均与同一个基期数据进行对比，则这种比较方法，称为定基比较.

(3) (a) 当时间序列中的观察值出现0或负数时，不宜计算增长率；
　　 (b) 不能单纯就增长率论增长率，要注意增长率与绝对水平的综合分析；大的增长率背后，其隐含的绝对值可能很小，小的增长率背后其隐含的绝对值可能很大。

非线性趋势曲线有哪些，写出他们的名称，用来描述何种趋势，写出趋势方程，用什么方法计算模型里的参数?

Solution:

指数曲线 $y = a e^{bx}$ , 用于描述以几何级数递增或递减的现象, 或者说时间序列的逐期观察值按一定的增长率增长或衰减. 一般的自然增长及大多数经济序列都有指数变化趋势. 可以通过两边取对数, 然后用最小二乘法进行参数估计.
多项式曲线 $y = b_0 + b_1 x + b_2 x^2 + \cdots + b_m x^m$ , 用来模仿一些难以理论建模的规律, 任意的连续函数均可以用多项式函数逼近. 可以将其视作多元线性回归模型, 并用多元线性回归的最小二乘法进行求解.

随机变量 $X$ 是大于 0 的连续型随机变量， $\ln X$ 的均值方差都存在, 设 $X_1, \ldots, X_n$ 是来自总体 $X$ 的简单随机样本，试求 $Y_n = \left( X_1X_2\cdots X_n \right) ^{\frac{1}{n}}$ 的渐近分布?

Solution: 记 $Z_n=\ln Y_n=\frac{1}{n}\sum_{i=1}^n{\ln X_i}$ , 则根据大数定律, 有 $Z_n\xrightarrow{p}E\left( \ln X_1 \right)$ , 再根据连续函数保持依概率收敛, 有 $Y_n=\exp \left( Z_n \right) \xrightarrow{p}\exp ^{E\left( \ln X_1 \right)}$ , 即单点分布.

另外, 根据中心极限定理,

\sqrt{n}\left( Z_n-E\left( \ln X \right) \right) \xrightarrow{d}N\left( 0,Var\left( \ln X \right), \right)

而 $Y_n = \exp({Z_n})$ , 根据 delta 方法, 有

\sqrt{n}\left( Y_n-e^{E\left( \ln X \right)} \right) \xrightarrow{d}N\left( 0,e^{2E\left( \ln X \right)}Var\left( \ln X \right) \right)

三、计算题

为估计两种肥料的差异，在土壤上分别使用两种不同的肥料各随机施肥10次，得到两组简单随机样本 $X_1, \ldots, X_{10} ; Y_1, \ldots, Y_{10}$ , 分别来自 $N\left(\mu_1, \sigma_1^2\right), N\left(\mu_2, \sigma_2^2\right) ， \bar{x}=600, \bar{y}=570, S_1^2=\frac{6400}{9}, S_1^2=\frac{2400}{9}$ .
(1) 假设 $\sigma_1^2=\sigma_2^2$ ，求 $\mu_1-\mu_2$ 的 95% 置信下限.
(2) 在 $\alpha=5 \%$ 的显著性水平下，试检验是否有 $\sigma_1^2=\sigma_2^2$ .

Solution:

(1) 枢轴量取作

t=\frac{\left( \bar{X}-\bar{Y} \right) -\left( \mu _1-\mu _2 \right)}{S_w\sqrt{\frac{1}{m}+\frac{1}{n}}}\sim t\left( 18 \right).

置信下限由 $\left( \bar{X}-\bar{Y} \right) -S_w\sqrt{\frac{1}{m}+\frac{1}{n}}\cdot t_{0.05}\left( 18 \right)$ 给出, 计算得

\begin{aligned} & \left( \bar{X}-\bar{Y} \right) -S_w\sqrt{\frac{1}{m}+\frac{1}{n}}\cdot t_{0.05}\left( 18 \right) \\ =&30-\sqrt{\frac{6400+2400}{18}}\cdot \sqrt{\frac{1}{10}+\frac{1}{10}}\cdot t_{0.05}\left( 18 \right) \\ =&30-22.11\cdot 0.447\cdot 1.734=12.8626 \end{aligned}

(2) 假设检验问题为: $H_0:\sigma _{1}^{2}=\sigma _{2}^{2}\ vs\ H_1:\sigma _{1}^{2}\ne \sigma _{2}^{2}$ .

检验统计量是 $F=\frac{s_{1}^{2}}{s_{2}^{2}}\sim F\left( 9,9 \right)$ , 拒绝域为

W=\left\{ F<F_{0.975}\left( 9,9 \right) \right\} \cup \left\{ F>F_{0.025}\left( 9,9 \right) \right\} =\left\{ F<0.2484 \right\} \cup \left\{ F>4.026 \right\}

计算得 $F=\frac{8}{3} \notin W$ , 因此不能拒绝原假设. 即认为 $\sigma _{1}^{2}\ne \sigma _{2}^{2}$ .

货车的运输时间 ( $y$ , 单位：小时) 与运输路程 ( $x$ , 单位: 英里) 有关，取 10 个样本，考虑运输时间与运输路程的一元回归模型. 给出下面一些统计量. 试解决以下问题:
$\bar{x}=\frac{\sum_{i-1}^{10} x_i}{10}=80, \bar{y}=\frac{\sum_{i-1}^{10} y_i}{10}=67, \sum_{i=1}^{10}\left(x_i-\bar{x}\right)^2=3441, \sum_{i=1}^{10}\left(y_i-\bar{y}\right)^2=460.744, \sum_{i=1}^{10}\left(x_i-\bar{x}\right)\left(y_i-\bar{y}\right)=1079$ .
(1) 补全方差分析表:

	df	MS	F
回归
残差		15.3	-
总和	9	-	-

(2) 设回归模型 $Y=a+b x+\varepsilon, \varepsilon \sim N\left(0, \sigma_2^2\right)$ ，求 $\hat{a}, \hat{b}$ ，并说明 $\hat{b}$ 的实际意义.
(3) 计算多重判定系数 $R^2$ ，并说明它的实际意义;
(4) 给定 $\alpha=0.01$ ，判断线性关系是否显著；
(5) 在 $\alpha=0.05$ 的显著性水平下, 给定 $x_0=90$ , 求 $y_0$ 的预测区间.

Solution:

(1)

回归平方和 $SS_R=\frac{l_{xy}^{2}}{l_{xx}}=\frac{1079^2}{3441}=338.344$ , 回归自由度为 1, 回归均方 $MS_R=338.344$ .

残差的自由度为 8, 残差平方和为 $SS_e=MS_e\cdot df_e=15.3\cdot 8=122.4$ .

总平方和为 $SS_T=SS_e+SS_R=338.344+122.4=460.744$ . F 统计量为 $\frac{MS_R}{MS_e}=\frac{338.344}{15.8}=21.4142$ .

	df	SS	MS	F
回归	1	338.334	338.334	21.4142
残差	8	122.4	15.3	-
总和	9	460.744	-	-

(2) $\hat{b}=\frac{l_{xy}}{l_{xx}}=\frac{1079}{3441}=0.3136$ , 其含义为“当 x 增加一个单位, 那么在平均意义下, y 将会增加0.3136个单位”.

$\hat{a}=\bar{y}-\hat{b}\bar{x}=67-80\cdot 0.3136=41.912$ .

(3) $R^2=\frac{SS_R}{SS_T}=\frac{338.334}{460.744}=0.7343$ .

它反应因变量的全部变异能通过回归关系被自变量解释的比例. 换句话说，如果我们能控制自变量 $x$ 不变，则因变量 $y$ 的变异程度会减少 73.43%.

(4) 我们已经计算得到 F 统计量的值为 21.4142, 当线性关系不成立时候, 应该有 $F \sim F(1, 8)$ , 而 $F_{0.01}\left( 1,8 \right) =11.2586$ , 所以我们拒绝原假设, 认为线性关系显著成立.

(5) $y_0$ 的预测区间是

\begin{aligned} &\hat{a}+\hat{b}x_0\pm \sqrt{1+\frac{1}{n}+\frac{\left( x_0-\bar{x} \right) ^2}{l_{xx}}}\hat{\sigma}\cdot t_{0.025}\left( 8 \right) \\ =&41.912+0.3136\cdot 90\pm \sqrt{1+\frac{1}{10}+\frac{10^2}{3441}}\cdot \sqrt{15.3}\cdot 2.306 \\ =&70.136\pm 9.5844 \\ =&\left[ 60.5516,79.7204 \right] \end{aligned}

四. 证明题 (1小题, 共10分)

定义连续型随机变量 $X, Y$ 的密度函数为 $p(x)>0, q(x)>0$ ，且 $X, Y$ 的定义域 $D$ 相同，定义Kullback-Leibler散度: $KL(p \| q)=\int_{x \in \mathbb{D}} p(x) \log \frac{p(x)}{q(x)} d x$

(1) 求证: $KL(p || q)=\int_{x \in \mathbb{D}} p(x) \log \frac{p(x)}{q(x)} d x \geq 0$ ；
(2) 若 $X \sim N(0,1), Y \sim N\left(\mu, \sigma^2\right)$ ，求 $KL(X || Y)$ ，并说明 $\sigma^2$ 变化时， $KL(X || Y)$ 的变化。

Solution:

(1) 主要利用 $-\log(x)$ 的凸性以及Jensen不等式,

KL\left( p || q \right) =E_p\left[ \log \frac{p\left( x \right)}{q\left( x \right)} \right] =E_p\left[ -\log \frac{q\left( x \right)}{p\left( x \right)} \right] \ge -\log \left( E_p\left[ \frac{q\left( x \right)}{p\left( x \right)} \right] \right) =-\log \left( \int_{x\in D}{\frac{q\left( x \right)}{p\left( x \right)}p\left( x \right) dx} \right) =0.

(2) 直接代入计算

\begin{aligned} KL\left( X||Y \right) &=E_X\left[ \log \frac{\varphi \left( x \right)}{\frac{1}{\sigma}\varphi \left( \frac{x-\mu}{\sigma} \right)} \right] \\ &=E_X\left\{ \left[ -\frac{X^2}{2}-\frac{1}{2}\log \left( 2\pi \right) \right] -\left[ -\frac{\left( X-\mu \right) ^2}{2\sigma ^2}-\frac{1}{2}\log \left( 2\pi \right) -\frac{1}{2}\log \sigma ^2 \right] \right\} \\ &=E_X\left[ \frac{\left( X-\mu \right) ^2}{2\sigma ^2}-\frac{X^2}{2}+\frac{1}{2}\log \sigma ^2 \right] \\ &=\frac{1+\mu ^2}{2\sigma ^2}-\frac{1}{2}+\frac{1}{2}\log \sigma ^2 \end{aligned}

而由于

\frac{\partial KL\left( X||Y \right)}{\partial \sigma ^2}=-\frac{1+\mu ^2}{2\sigma ^4}+\frac{1}{2\sigma ^2}=\frac{1}{2\sigma ^2}\left( 1-\frac{\mu ^2+1}{\sigma ^2} \right) ,

因此当 $0 < \sigma^2 \le {\mu^2 + 1}$ 时, $KL\left( X||Y \right)$ 关于 $\sigma^2$ 递减, 而当 $\sigma^2 \ge {\mu^2 + 1}$ 时, $KL\left( X||Y \right)$ 关于 $\sigma^2$ 递增.