上海交通大学-432统计学-2019年
一.选择题 (10小题,每小题 6 分,共60分)
- 如果数据没有离群值, 箱线图显示的信息不包括( ).
A. 平均数
B. 四分位数
C. 极差
D. 中位数
Solution: A.
- 已知 两个随机事件满足 , 且 , 则 等于()
(A)
(B)
(C)
(D)
Solution: B
由 推出:
所以: . 选项 正确
- 下列关于直方图和箱线图不正确的是()
A. 直方图柱形面积之和可以大于 1
B. 箱线图可以展示更多数据
C. 直方图分组时需要依据总体数量来分组
D. 在绘制箱线图时, 需要的统计量有最小值、最大值、平均数、 分位数和 分位数
Solution: D. 还应该有中位数.
- 抽样推断的精确度与抽样误差的关系是( ).
A. 前者提高说明后者变小
B. 前者提高说明后者变大
C. 前者提高说明后者不变
D. 没有关系
Solution: A. 要求的精确度越高, 说明置信区间越短, 抽样误差越小.
- 如果你的水平略高于对手, 为保证比赛的胜利,你最期望以下哪种比赛规则()
(A) 一局定输赢
(B)三局两胜
(C)五局三胜
(D)不能确定
Solution: C
设 表示某一局赢的概率 ;
故选 C.
- 选择题有四个答案, 只有一个是正确的。懂的学生能够准确回答, 不懂的学生从中四个答案中随 机选择。假定一个学生懂与不懂的概率都是 , 则答对的学生对该题不懂的概率为()
(A)
(B)
(C)
(D)
Solution: B
所以 不懂 答对 , 选项 B 正确
- 为来自正态分布 的简单随机样本。记 为标准正态分布的 分位数, 则由 此样本所构造的置信水平分别为 与 的双侧置信区间长度之比为()
(A)
(B)
(C)
(D)
Solution: B
依题意得 , 所以令 可得置信区间的长度为:
因此 与 双侧置信区间长度之比为 . 选项 B 正确
- 各自服从: , 当 时, 比较 ( ).
A.
B.
C.
D.
Solution: D. 显然不等式条件无法分辨 与 . 而我们知道
这说明 .
- 英国《观察家报》和 Opinium 公司 2016 年 6 月初进行的联合民意调查显示, 英国民众支持留 在欧盟。考虑一个由 600 名英国民众组成的随机样本, 以 表示这 600 人中支持留在欧盟的人数。记 是标准正态分布的分布函数, 则 的概率大约是 ()
(A)
(B)
(C)
(D)
Solution: A
, 根据二项分布的正态近似可知 近似服从于 ,
则
故选 A.
- 设 为正态分布 的样本, 末知而 已知。 和 为样本均值 及样本方差。记, , 则 中统计量的个数为 ()
(A) 0
(B) 1
(C) 2
(D) 3
Solution: B
统计量指样本的函数 ; 统计量依赖且只依赖于样本, 它不 含任何末知参数(故一般其分布与末知参数有关). 由于 末知, 故 不是统计 量, 是统计量.
二、简答题
- 来自正态总体 的简单随机样本, 对于简单假设检验问题 , 设有拒绝域 .
(1) 当 , 求一类错误与二类错误概率 与 , 是否有 ?
(2) 若希望增加可靠性,应该增大 还是减小 ?
Solution:
(1) , .
由于 不为常数, 因此等式不可能成立.
(2) 增大 更不容易犯第一类错误, 减小 更不容易犯第二类错误.
- 评价时间序列预测效果的方法有哪些? 请给出评价指标与计算表达式.
Solution:
残差平方和
SSE (the sum of squares due to error),是观测值 (observed values) 与预测值(predicted values) 的误差的平方和,公式为:
均方误差
MSE (mean squared error),是观测值(observed values) 与预测值(predicted values) 的误差的平方和的均值,即 。它是误 差的二阶矩,包含估计量的方差 (variance) 及其偏差 (bias),是衡量估计量质量的指标,其公式为:
均方根误差
RMSE (root mean squared error),也称作RMSD(root mean square deviation),是MSE的算数平方根。由于每个误差(each error) 对 RMSD的影响与误差的平方 (squared error) 成正比,因此较大的误差会对RMSE影响过大,RMSE对异常值很敏感。其公式为:
平均绝对值误差
MAE (mean absolute error),是时间序列分析中预测误差常用的指标,由于MAE使用的是与被测数据相同的尺度(scale) , 因此不能用 于比较两个不同尺度的序列。MAE又被称为 范数损失函数(就是可以做为损失函数),是真实数据与预测数据之差的绝对值的均值。
公式为:
- 简述年度折叠时间序列图与季节多元回归模型的作用.
Solution:
年度折叠时间序列图(folded annual time series plot)是一种特殊的时间序列图。绘制该图时,需要将每年的数据分开画在图上,也就是横轴只有一年的长度,每年的数据分别对应纵轴。
如果时间序列只存在季节成 分,年度折叠时间序列图中的折线将会有交叉;如果时间序列既含有季节成分又含有趋势,那么年度折叠时间序列图中的折线将不会有交叉,而且如果趋势是上升的,后面年度的折线将会高于前面年度的折线,如果趋势是下降的,后面年度的折线将低于前面年度的折线。
季节多元回归模型为季节引入虚拟变量, 以消除季节趋势的影响, 一般来说可以考虑
其中引入的虚拟变量 说明第 个样本在第 个季度. 其中可以以第四个季度作为基准, 因此可以仅仅引入 3 个虚拟变量.
- 独立同分布,且 , 求 趋于无穷的时候 的极限分布,并解释其的密度函数的形状将如何变化.
Solution:
根据大数定律有 , 又 , 根据中心极限定理有 .
极限分布正态,故密度函数趋于对称,方差收敛于0,说明慢慢趋于集中在一点.
三. 计算题
- 某公司雇佣 3000 名推销员, 为了发放外出补贴, 需要估计推销员每年的平均乘车里程。从过去的经验可知, 通常每位推销员乘车里程的标准差为 4000 公里。随机选取 16 名推销员, 得到他们的年平均乘车里程是 12000 公里。
(1) 总体均值 的估计量是多少?
(2) 确定总体均值 的 置信区间;
(3)公司经理们认为均值应介于11000到13000公里之间, 那么该估计的置信度是多少?
(4) 如果在 (3) 的估计中希望有95%的置信水平,这时所要求的样本容量是多少?
Solution:
(1) 用样本均值进行估计, .
(2) 总体标准差已知为 4000 , 选取枢轴量: , 解得 的 置信区间为:
(3) 根据 (2) 中的结论, 有 的 置信区间为: 有 ,故置信度是
(4) , 所要求的样本容量是 62.
- 作身高()与臂展()的一元线性回归: 总计有 个样本, 回归结果如下表
Coefficient | Estimate | Std. Error | t-stat | Pr(>|t|) |
---|---|---|---|---|
(Intercept) | 0.23835 | 1.91840 | 0.124 | 0.901 |
X | 0.99882 | 0.01096 | 91.142 | 0.000 |
(1)(10分) 写出参数估计表达式, 根据分析结果写出经验回归方程.
(2)(5分) 写出误差方差估计的表达式.
(3)(5分) 说明最后一列 Pr(>|t|) 的含义, 分别写出对应 , , 并给出假设检验结果.
Solution: (1) 线性回归 的参数估计表达式是
在回归表中, 结果是
(2) 误差方差的估计是 , 其中 是残差平方和, 即 .
(3) Pr(>|t|)是指系数是否为 0 的显著性检验的 值, 即假设检验问题
和
对应的 值. 这里 对应的 值为0.901, 不能拒绝原假设, 不显著. 这里 对应的 值为0.000, 拒绝原假设, 显著, 身高显著影响臂展.
四. 证明题
(1) 单调不减,非负且连续,证明对于任意的 ,不等式成立:
(2) 独立同分布,证:
Solution:
(1) 利用示性函数 , 有不等式 , 左右取数学期望, 有
(2) 取函数 , 单调不减且非负, 则可利用上面的不等式. 另外, 考虑到指数分布与伽马分布的关系, 记 , 于是 , 其中 , 以及
综上所述, 有