北京师范大学-432统计学-2020年
一、选择题(每题3分, 总计15分)
- 如果数据没有离群值, 箱线图显示的信息不包括( ).
A. 平均数
B. 四分位数
C. 极差
D. 中位数
Solution: A.
- 某医生为写论文收集数据, 使用了他自己过往的病情经历, 这种抽样方式称为( ).
A. 整群抽样
B. 非随机的方便抽样
C. 系统抽样
D. 简单随机抽样
Solution: B.
- 构造 的 置信区间 , 正确的是( ).
A. 总体参数一定在区间中
B. 区间一定覆盖总体参数
C. 和 是统计量
D. 置信区间是唯一的
Solution: C.
- 在线性回归模型 中, 正确的是( ).
A. 的最小二乘估计与最大似然估计等价
B. 最小二乘法中的残差和为
C. 参数显著性 检验不需要假设正态分布
D. 以上均错误
Solution: D. 如果不给定分布, 无法求得最大似然估计, A错, 且只有在 是正态分布时两者等价(高斯-马尔可夫定理). 最小二乘法需求残差平方和最小, 与残差和无关, B错. 如果没有正态假设, 无法导出检验统计量服从 分布, C错.
- 抛 次硬币, 是正面向上次数, 是反面向上次数, 则 ( ).
A. -1
B. 1
C. 0
D. 0.5
Solution: A. 由于 , 故 , , 因此
二、计算题(总计135分)
- (10分) 简要给出该组数据统计分析报告(统计指标和统计图).
甲的射击成绩:
乙的射击成绩:
Solution: 对甲的射击成绩进行分析:
,
, ,
下四分位数位置: , ,
中位数位置: , ,
上四分位数位置: , ,
变异系数: .
对乙的射击成绩进行分析:
, ,
下四分位数位置: ,
中位数位置: , ,
上四分位数位置: , ,
变异系数: .
茎叶图:
叶(甲) | 茎 | 叶(乙) |
---|---|---|
7 | 6 | |
9 8 8 7 6 5 2 2 0 | 8 | 1 1 1 1 3 5 7 8 |
1 | 9 | 2 |
- (10分) 概率与频率的关系是什么? 频率的极限是概率吗?
Solution: 概率是定义在测度空间上的实值函数, 频率指的则是收集到样本后计算出的事件发生的比例. 从定义上来看, 频率也满足概率的三公理.
在某种意义下, 频率的极限是概率, 以两点分布为例, 是 i.i.d. 的 , 这里 是概率, 是频率, 根据大数定律, 依概率收敛到 .
- (10分) 一个不透明的袋子有 个黑球和 个白球, 每次从中取 个并放入 个黑球, 问第 次取出的是黑球的概率.
Solution: 茆原题. 设 第 次摸到黑球, 则
这里 即为之前一直抽黑, 第 次取白的概率.
- (10分) 甲乙进行一个 5 局 3 胜的比赛, 甲赢一局的概率是 , 乙赢一局的概率是 , 现在甲已经赢了2局, 问:甲最终获胜的概率.
Solution: 除非乙连续赢3局, 否则都是甲赢, 故
- (10分) 某地质专家想测量某山的高度, 取多次测量取平均值作为实际高度估计值.假设各测量值 是独立同分布的随机变量, 已知测量方差为 , 若想以 的把握使误差控制在 之内, 问: 至少需要测量多少次?
Solution: 以 估计 , 假设是正态分布,
根据题设要求
意味着 , 解得
即至少 次.
- (15分) 总体 , 已知, 样本量为 . 总体 , 样本量为 . 两组样本独立.
(1)(5分) 写出 的 置信区间;
(2)(5分) 写出 的 置信区间;
(3)(5分) 若 , 写出 的 置信区间.
Solution: (1) 方差已知, 用枢轴量
置信区间是
(2) 方差未知, 用枢轴量
置信区间是
(3) 由于 已知, 故有
枢轴量为
因此置信区间为
- (15分) 来自总体 的均匀分布.
(1)(8分) 分别求 的矩估计 和极大似然估计 .
(2)(7分) 讨论 的无偏性, 若非无偏, 则给出一个修正后的无偏估计.
Solution: (1) , 故矩估计是 . 似然函数是
似然函数关于 递减, 故最大值在 取最小值时达到, 即 .
(2) 均匀分布次序统计量结论有 , 故期望是 , 因此 , 有偏. 修正后的无偏估计是 .
- (15分) 独立同分布, , .
(1)(5分) 给出 的最小二乘估计值;
(2)(5分) 如何判断是否有离群数据? 若有, (1) 的估计会怎样? 有何改进的想法?
(3)(5分) 样本均值为 , 样本方差为 是 的无偏估计吗? 为什么?
Solution: (1) 设 , 其中 是 i.i.d. 零均值随机变量, 方差是 . 则最小二乘估计意味着
达到最小, 求导有 , 解得 .
(2) 利用 准则可以判断是否有离群值. 离群值将会严重影响样本均值, 即上一问的最小二乘估计. 可以去除离群值后再重新估计.
(3) 不是. 已知 , 而
即 , 故 .
- (20分) 作身高()与臂展()的一元线性回归: 总计有 个样本, 回归结果如下表
Coefficient | Estimate | Std. Error | t-stat | Pr(>|t|) |
---|---|---|---|---|
(Intercept) | 0.23835 | 1.91840 | 0.124 | 0.901 |
X | 0.99882 | 0.01096 | 91.142 | 0.000 |
(1)(10分) 写出参数估计表达式, 根据分析结果写出经验回归方程.
(2)(5分) 写出误差方差估计的表达式.
(3)(5分) 说明最后一列 Pr(>|t|) 的含义, 分别写出对应 , , 并给出假设检验结果.
Solution: (1) 线性回归 的参数估计表达式是
在回归表中, 结果是
(2) 误差方差的估计是 , 其中 是残差平方和, 即 .
(3) Pr(>|t|)是指系数是否为 0 的显著性检验的 值, 即假设检验问题
和
对应的 值. 这里 对应的 值为0.901, 不能拒绝原假设, 不显著. 这里 对应的 值为0.000, 拒绝原假设, 显著, 身高显著影响臂展.