上海交通大学-432统计学-2019年

一.选择题 (10小题,每小题 6 分,共60分)

  1. 如果数据没有离群值, 箱线图显示的信息不包括( ).
    A. 平均数
    B. 四分位数
    C. 极差
    D. 中位数

Solution: A.

  1. 已知 A,BA, B 两个随机事件满足 P(AB)=P(AˉBˉ)P(A \cap B)=P(\bar{A} \cap \bar{B}), 且 P(A)=pP(A)=p, 则 P(B)P(B) 等于()
    (A) pp
    (B) 1p1-p
    (C) (1p)p(1-p) p
    (D) p2p^{2}

Solution: B
P(AˉBˉ)=P(AB)P(\bar{A} \cap \bar{B})=P(\overline{A \cup B}) 推出:

P(AˉBˉ)=P(AB)=1P(AB)=1[P(A)+P(B)P(AB)]=1P(A)P(B)+P(AB)\begin{aligned} P(\bar{A} \cap \bar{B}) &=P(\overline{A \cup B})=1-P(A \cup B) \\ &=1-[P(A)+P(B)-P(A \cap B)] \\ &=1-P(A)-P(B)+P(A \cap B) \end{aligned}

所以: P(B)=1P(A)=1pP(B)=1-P(A)=1-p. 选项 B\mathrm{B} 正确

  1. 下列关于直方图和箱线图不正确的是()
    A. 直方图柱形面积之和可以大于 1
    B. 箱线图可以展示更多数据
    C. 直方图分组时需要依据总体数量来分组
    D. 在绘制箱线图时, 需要的统计量有最小值、最大值、平均数、 x0.25x_{0.25} 分位数和 x0.75x_{0.75} 分位数

Solution: D. 还应该有中位数.

  1. 抽样推断的精确度与抽样误差的关系是( ).
    A. 前者提高说明后者变小
    B. 前者提高说明后者变大
    C. 前者提高说明后者不变
    D. 没有关系

Solution: A. 要求的精确度越高, 说明置信区间越短, 抽样误差越小.

  1. 如果你的水平略高于对手, 为保证比赛的胜利,你最期望以下哪种比赛规则()
    (A) 一局定输赢
    (B)三局两胜
    (C)五局三胜
    (D)不能确定

Solution: C
pp 表示某一局赢的概率 p+q=1,p>qp+q=1, p>q;

P(B)=C32p2q+p3>p=P(A)P(C)=C53p3q2+C54p4q+p5>P(B)\begin{aligned} P(B)&=C_{3}^{2} p^{2} q+p^{3}>p=P(A) \\ P(C)&=C_{5}^{3} p^{3} q^{2}+C_{5}^{4} p^{4} q+p^{5}>P(B) \end{aligned}

故选 C.

  1. 选择题有四个答案, 只有一个是正确的。懂的学生能够准确回答, 不懂的学生从中四个答案中随 机选择。假定一个学生懂与不懂的概率都是 0.50.5, 则答对的学生对该题不懂的概率为()
    (A) 0.10.1
    (B) 0.20.2
    (C) 0.40.4
    (D) 0.50.5

Solution: B

P( 答对 )=P( 懂 )+P( (答对且不懂 )=0.5+0.50.25=0.625P(\text { 答对 })=P(\text { 懂 })+P(\text { (答对且不懂 })=0.5+0.5 \cdot 0.25=0.625

所以 P(P( 不懂 \mid 答对 )=P( 答对且不懂 )P( 答对 )=0.1250.625=0.2)=\frac{P(\text { 答对且不懂 })}{P(\text { 答对 })}=\frac{0.125}{0.625}=0.2, 选项 B 正确

  1. X1,,XnX_{1}, \cdots, X_{n} 为来自正态分布 N(μ,1)N(\mu, 1) 的简单随机样本。记 ZαZ_{\alpha} 为标准正态分布的 100α%100 \alpha \% 分位数, 则由 此样本所构造的置信水平分别为 95%95 \%90%90 \% 的双侧置信区间长度之比为()
    (A) 2×z0.975Z0.952 \times \frac{z_{0.975}}{Z_{0.95}}
    (B) z0.975z0.95\frac{z_{0.975}}{z_{0.95}}
    (C) 2×z0.95z0.902 \times \frac{z_{0.95}}{z_{0.90}}
    (D) z0.95z0.90\frac{z_{0.95}}{z_{0.90}}

Solution: B
依题意得 n(xˉμ)N(0,1)\sqrt{n}(\bar{x}-\mu) \sim N(0,1), 所以令 P(n(xˉμ)d)=1αP(|\sqrt{n}(\bar{x}-\mu)| \leqslant d)=1-\alpha 可得置信区间的长度为: 2d=2z1α2n2 d=\frac{2 z_{1-\frac{\alpha}{2}}}{\sqrt{n}}
因此 95%95 \%90%90 \% 双侧置信区间长度之比为 z0.975z0.95\frac{z_{0.975}}{z_{0.95}}. 选项 B 正确

  1. X,YX,Y 各自服从: XN(μ1,σ12),YN(μ2,σ22)X \sim N\left(\mu_1, \sigma_1^2\right), Y \sim N\left(\mu_2, \sigma_2^2\right), 当 P(Xμ1<1)>P(Yμ2<1)P\left( |X-\mu _1|<1 \right) >P\left( |Y-\mu _2|<1 \right) 时, 比较 ( ).
    A. μ1>μ2\mu_1>\mu_2
    B. μ1<μ2\mu_1<\mu_2
    C. σ1>σ2\sigma_1>\sigma_2
    D. σ1<σ2\sigma_1<\sigma_2

Solution: D. 显然不等式条件无法分辨 μ1\mu_1μ2\mu_2. 而我们知道

2Φ(1σ1)1=P(Xμ1<1)>P(Yμ2<1)=2(1σ2)1,2\Phi \left( \frac{1}{\sigma _1} \right) -1=P\left( |X-\mu _1|<1 \right) >P\left( |Y-\mu _2|<1 \right) =2\left( \frac{1}{\sigma _2} \right) -1,

这说明 σ1<σ2\sigma_1<\sigma_2.

  1. 英国《观察家报》和 Opinium 公司 2016 年 6 月初进行的联合民意调查显示, 40%40 \% 英国民众支持留 在欧盟。考虑一个由 600 名英国民众组成的随机样本, 以 XX 表示这 600 人中支持留在欧盟的人数。记 Φ(x)\Phi(x) 是标准正态分布的分布函数, 则 222<X<258222<X<258 的概率大约是 ()
    (A) 2Φ(1.5)12 \Phi(1.5)-1
    (B) 2Φ(1.5)2 \Phi(1.5)
    (C) 2Φ(2)2 \Phi(2)
    (D) 2Φ(2)12 \Phi(2)-1

Solution: A
Xb(600,0.4)X \sim b(600,0.4), 根据二项分布的正态近似可知 X\mathrm{X} 近似服从于 N(240,144)N(240,144),

P(222<X<258)=P(222240144<X240144<258240144)=Φ(1.5)Φ(1.5)=2Φ(1.5)1\begin{aligned} P(222<X<258) &=P\left(\frac{222-240}{\sqrt{144}}<\frac{X-240}{\sqrt{144}}<\frac{258-240}{\sqrt{144}}\right) \\ &=\Phi(1.5)-\Phi(-1.5) \\ &=2 \Phi(1.5)-1 \end{aligned}

故选 A.

  1. X1,,XnX_{1}, \cdots, X_{n} 为正态分布 N(μ,σ2)\mathrm{N}\left(\mu, \sigma^{2}\right) 的样本, μ\mu 末知而 σ2\sigma^{2} 已知。 Xˉ\bar{X}S2=1n1i=1n(XiXˉ)2S^{2}=\frac{1}{n-1} \sum_{i=1}^{n}\left(X_{i}-\bar{X}\right)^{2} 为样本均值 及样本方差。记, T1=xˉμσ/n,T2=xˉμs/n,T3=(n1)S2σ2T_{1}=\frac{\bar{x}-\mu}{\sigma / n}, T_{2}=\frac{\bar{x}-\mu}{s / n}, T_{3}=\frac{(n-1) S^{2}}{\sigma^{2}}, 则 T1,T2,T3T_{1}, T_{2}, T_{3} 中统计量的个数为 ()
    (A) 0
    (B) 1
    (C) 2
    (D) 3

Solution: B
统计量指样本的函数 T(X1,X2,,Xn)T\left(X_{1}, X_{2}, \cdots, X_{n}\right); 统计量依赖且只依赖于样本, 它不 含任何末知参数(故一般其分布与末知参数有关). 由于 μ\mu 末知, 故 T1,T2T_{1}, T_{2} 不是统计 量, T3T_{3} 是统计量.

二、简答题

  1. X1,,XnX_1, \ldots, X n 来自正态总体 N(μ,1)N(\mu, 1) 的简单随机样本, 对于简单假设检验问题 H0:μ=μ0H_0: \mu=\mu_0 H1:μ>μ0H_1: \mu>\mu_0, 设有拒绝域 W={(x1,,xn)(xˉ)>c}W=\left\{\left(x_1, \ldots, x_n\right) \mid(\bar{x})>c\right\}.
    (1) 当 c=μ0+1.96nc=\mu_0+\frac{1.96}{\sqrt{n}} , 求一类错误与二类错误概率 α\alphaβ\beta, 是否有 α+β=1\alpha+\beta = 1?
    (2) 若希望增加可靠性,应该增大 cc 还是减小 cc?

Solution:

(1) α=PH0(Xˉ>μ0+1.96n)=PH0(n(Xˉμ0)>1.96)=0.025\alpha =P_{H_0}\left( \bar{X}>\mu _0+\frac{1.96}{\sqrt{n}} \right) =P_{H_0}\left( \sqrt{n}\left( \bar{X}-\mu _0 \right) >1.96 \right) =0.025, β(μ)=1Pμ(Xˉ>μ0+1.96n)=Pμ(n(Xˉμ)n(μ0μ)+1.96)=Φ(n(μ0μ)+1.96)\beta \left( \mu \right) =1-P_{\mu}\left( \bar{X}>\mu _0+\frac{1.96}{\sqrt{n}} \right) =P_{\mu}\left( \sqrt{n}\left( \bar{X}-\mu \right) \le \sqrt{n}\left( \mu _0-\mu \right) +1.96 \right) =\Phi \left( \sqrt{n}\left( \mu _0-\mu \right) +1.96 \right).

由于 β\beta 不为常数, 因此等式不可能成立.

(2) 增大 cc 更不容易犯第一类错误, 减小 cc 更不容易犯第二类错误.

  1. 评价时间序列预测效果的方法有哪些? 请给出评价指标与计算表达式.

Solution:

残差平方和
SSE (the sum of squares due to error),是观测值 (observed values) 与预测值(predicted values) 的误差的平方和,公式为:

SSE(y,y^)=i=1n(yiy^i)2\operatorname{SSE}(y, \widehat{y})=\sum_{i=1}^n\left(y_i-\widehat{y}_i\right)^2

均方误差
MSE (mean squared error),是观测值(observed values) 与预测值(predicted values) 的误差的平方和的均值,即 SSE/n\mathrm{SSE} / \mathrm{n} 。它是误 差的二阶矩,包含估计量的方差 (variance) 及其偏差 (bias),是衡量估计量质量的指标,其公式为:

MSE(y,y^)=1ni=1n(yiy^i)2\operatorname{MSE}(\mathrm{y}, \widehat{\mathrm{y}})=\frac{1}{\mathrm{n}} \sum_{\mathrm{i}=1}^{\mathrm{n}}\left(\mathrm{y}_{\mathrm{i}}-\widehat{\mathrm{y}}_{\mathrm{i}}\right)^2

均方根误差
RMSE (root mean squared error),也称作RMSD(root mean square deviation),是MSE的算数平方根。由于每个误差(each error) 对 RMSD的影响与误差的平方 (squared error) 成正比,因此较大的误差会对RMSE影响过大,RMSE对异常值很敏感。其公式为:

RMSE(y,y^)=1ni=1n(yiy^i)2\operatorname{RMSE}(y, \widehat{y})=\sqrt{\frac{1}{n} \sum_{i=1}^n\left(y_i-\widehat{y}_i\right)^2}

平均绝对值误差
MAE (mean absolute error),是时间序列分析中预测误差常用的指标,由于MAE使用的是与被测数据相同的尺度(scale) , 因此不能用 于比较两个不同尺度的序列。MAE又被称为 L1L 1 范数损失函数(就是可以做为损失函数),是真实数据与预测数据之差的绝对值的均值。
公式为:

MAE(y,y^)=1ni=1nyiy^i\operatorname{MAE}(\mathrm{y}, \hat{\mathrm{y}})=\frac{1}{\mathrm{n}} \sum_{\mathrm{i}=1}^{\mathrm{n}}\left|\mathrm{y}_{\mathrm{i}}-\widehat{\mathrm{y}}_{\mathrm{i}}\right|

  1. 简述年度折叠时间序列图与季节多元回归模型的作用.

Solution:

年度折叠时间序列图(folded annual time series plot)是一种特殊的时间序列图。绘制该图时,需要将每年的数据分开画在图上,也就是横轴只有一年的长度,每年的数据分别对应纵轴。

如果时间序列只存在季节成 分,年度折叠时间序列图中的折线将会有交叉;如果时间序列既含有季节成分又含有趋势,那么年度折叠时间序列图中的折线将不会有交叉,而且如果趋势是上升的,后面年度的折线将会高于前面年度的折线,如果趋势是下降的,后面年度的折线将低于前面年度的折线。

季节多元回归模型为季节引入虚拟变量, 以消除季节趋势的影响, 一般来说可以考虑

yi=β0+β1xi1++βpxip+α1Di1+α2Di2+α3Di3,y_i=\beta _0+\beta _1x_{i1}+\cdots +\beta _px_{ip}+\alpha _1D_{i1}+\alpha _2D_{i2}+\alpha _3D_{i3},

其中引入的虚拟变量 Dik=1D_{ik} = 1 说明第 ii 个样本在第 kk 个季度. 其中可以以第四个季度作为基准, 因此可以仅仅引入 3 个虚拟变量.

  1. X1,XnX_1, \ldots X_n 独立同分布,且 E(X3)=1,E(X6)=4\mathbb{E}\left(X^3\right)=1, \mathbb{E}\left(X^6\right)=4, 求 nn 趋于无穷的时候 Xi3n\frac{\sum X_i^3}{n} 的极限分布,并解释其的密度函数的形状将如何变化.

Solution:

根据大数定律有 Tn=i=1nXi3npEX3=1T_n=\frac{\sum_{i=1}^n{X_{i}^{3}}}{n}\xrightarrow{p}EX^3=1, 又 Var(X3)=EX6(EX3)2=3Var\left( X^3 \right) =EX^6-\left( EX^3 \right) ^2=3, 根据中心极限定理有 n(Tn1)dN(0,3)\sqrt{n}\left( T_n-1 \right) \xrightarrow{d}N\left( 0,3 \right).

极限分布正态,故密度函数趋于对称,方差收敛于0,说明慢慢趋于集中在一点.

三. 计算题

  1. 某公司雇佣 3000 名推销员, 为了发放外出补贴, 需要估计推销员每年的平均乘车里程。从过去的经验可知, 通常每位推销员乘车里程的标准差为 4000 公里。随机选取 16 名推销员, 得到他们的年平均乘车里程是 12000 公里。
    (1) 总体均值 μ\mu 的估计量是多少?
    (2) 确定总体均值 μ\mu95%95 \% 置信区间;
    (3)公司经理们认为均值应介于11000到13000公里之间, 那么该估计的置信度是多少?
    (4) 如果在 (3) 的估计中希望有95%的置信水平,这时所要求的样本容量是多少?

Solution:

(1) 用样本均值进行估计, xˉ=12000\bar{x}=12000.

(2) 总体标准差已知为 4000 , 选取枢轴量: (xˉμ)n/σN(0,1)(\bar{x}-\mu) \sqrt{n} / \sigma \sim N(0,1), 解得 μ\mu95%95 \% 置信区间为: xˉ±z0.025σn=[10040,13960]\bar{x} \pm z_{0.025} \frac{\sigma}{\sqrt{n}}=[10040,13960]

(3) 根据 (2) 中的结论, 有 μ\mu1α1-\alpha 置信区间为: xˉ±zα/2σn=[11000,13000]\bar{x} \pm z_{\alpha / 2} \frac{\sigma}{\sqrt{n}}=[11000,13000]zα/2σn=1000zα/2=1,α=0.0794z_{\alpha / 2} \frac{\sigma}{\sqrt{n}}=1000 \rightarrow z_{\alpha / 2}=1, \alpha=0.0794 ,故置信度是 92.07%92.07 \%

(4) z0.025σn1.96×4000n1000,n=61.17z_{0.025} \frac{\sigma}{\sqrt{n}}-1.96 \times \frac{4000}{\sqrt{n}}-1000, n=61.17, 所要求的样本容量是 62.

  1. 作身高(xx)与臂展(yy)的一元线性回归: 总计有 n=1024n=1024 个样本, 回归结果如下表
Coefficient Estimate Std. Error t-stat Pr(>|t|)
(Intercept) 0.23835 1.91840 0.124 0.901
X 0.99882 0.01096 91.142 0.000

(1)(10分) 写出参数估计表达式, 根据分析结果写出经验回归方程.
(2)(5分) 写出误差方差估计的表达式.
(3)(5分) 说明最后一列 Pr(>|t|) 的含义, 分别写出对应 H0H_0, H1H_1, 并给出假设检验结果.

Solution: (1) 线性回归 y=a+bxy=a+bx 的参数估计表达式是

b^=lxylxx=i=1n(xixˉ)(yiyˉ)i=1n(xixˉ)2,a^=yˉb^xˉ.\hat{b} = \frac{l_{xy}}{l_{xx}} = \frac{ \sum_{i=1}^n (x_i-\bar{x})(y_i-\bar{y}) }{ \sum_{i=1}^n (x_i-\bar{x})^2},\quad \hat{a} = \bar{y}-\hat{b}\bar{x}.

在回归表中, 结果是

y=0.23835+0.99882x.y = 0.23835 + 0.99882 x.

(2) 误差方差的估计是 σ^2=Sen2\hat{\sigma}^2 = \frac{S_e}{n-2}, 其中 SeS_e 是残差平方和, 即 Se=i=1n(yiy^i)2S_e = \sum_{i=1}^n (y_i-\hat{y}_i)^2.

(3) Pr(>|t|)是指系数是否为 0 的显著性检验的 pp 值, 即假设检验问题

H0:a=0H1:a0H_0:a=0\quad H_1:a\neq 0

H0:b=0H1:b0H_0:b=0\quad H_1:b\neq 0

对应的 pp 值. 这里 aa 对应的 pp 值为0.901, 不能拒绝原假设, aa 不显著. 这里 bb 对应的 pp 值为0.000, 拒绝原假设, bb 显著, 身高显著影响臂展.

四. 证明题

(1) g(x)g(x) 单调不减,非负且连续,证明对于任意的 x>0x>0 ,不等式成立: P(Xx)E(g(X))g(x)\mathbb{P}(X \geq x) \leq \frac{\mathbb{E}(g(X))}{g(x)}

(2) XExp(λ)XiX \sim \operatorname{Exp}(\lambda) , X_i 独立同分布,证: P(i=1nXinx)2ne(nλx)2\mathbb{P}\left(\sum_{i=1}^n X_i \geq n x\right) \leq 2^n e^{-\frac{(n \lambda x)}{2}}

Solution:

(1) 利用示性函数 I{Xx}I_{\left\{ X\ge x \right\}}, 有不等式 g(x)I{Xx}g(X)I{Xx}g(X)g\left( x \right) I_{\left\{ X\ge x \right\}}\le g\left( X \right) I_{\left\{ X\ge x \right\}}\le g\left( X \right), 左右取数学期望, 有

g(x)P(Xx)E(g(X))P(Xx)E(g(X))g(x)\begin{aligned} g\left( x \right) \mathbb{P}\left( X\ge x \right) &\le \mathbb{E}\left( g\left( X \right) \right) \\ \mathbb{P}\left( X\ge x \right) & \le \frac{\mathbb{E}\left( g\left( X \right) \right)}{g\left( x \right)} \end{aligned}

(2) 取函数 g(x)=eλ2xg\left( x \right) =e^{\frac{\lambda}{2}x}, 单调不减且非负, 则可利用上面的不等式. 另外, 考虑到指数分布与伽马分布的关系, 记 T=i=1nXiGa(n,λ)T=\sum_{i=1}^n{X_i}\sim Ga\left( n,\lambda \right), 于是 P(Tnx)E(g(T))g(nx)P\left( T\ge nx \right) \le \frac{\mathbb{E}\left( g\left( T \right) \right)}{g\left( nx \right)}, 其中 g(nx)=enλx2g\left( nx \right) =e^{\frac{n\lambda x}{2}}, 以及

E(g(T))=0λnΓ(n)tn1eλteλ2tdt=2n.\mathbb{E}\left( g\left( T \right) \right) =\int_0^{\infty}{\frac{\lambda ^n}{\Gamma \left( n \right)}t^{n-1}e^{-\lambda t}e^{\frac{\lambda}{2}t}}dt=2^n.

综上所述, 有

P(i=1nXinx)2nenλx2.\mathbb{P}\left( \sum_{i=1}^n{X_i}\ge nx \right) \le 2^ne^{-\frac{n\lambda x}{2}}.