中国科学技术大学-432统计学-2022年
一、填空与选择题(35分)
- (5分) 一个醉汉走在路上,往左走两步就撞了南墙,往右走三步就会撞北墙。因为喝得太多,醉汉向左向右走的概率相同都是 0.5,则醉汉撞到南墙的概率是 .
Solution: .
画坐标轴, 记起点是 , 南墙是 , 北墙是 , 记 为 “起点是, 最后撞南墙的概率”, 则有
化简为 , 恰好构成等差数列, 结合初值 , , 解得 .
- (10分) 张先生问李先生:“您家有几个孩子?” 李先生:“两个。” 若张先生问:“大的是男孩子吗?” 李先生回答:“是的。” 则李先生的小孩子也是男孩的概率为. 若张先生问:“有男孩子吗?” 李先生回答:“有的。” 则这种情况下李先生的小孩子是男孩子的概率为 .
Solution: ; .
记 “第一个是男孩”, “第二个是男孩”. 则第一种情况对应的概率是
第二种则是
- (5分) 请问下列随机变量密度函数相互独立的是:
A. ;
B. ;
C. ;
D. 以上均无法判断
Solution: D. 所有选项均未给出使密度函数满足非负性,正则性的条件(原题如此), 故只能选 D.
- (10分) 甲乙玩剪刀石头布的游戏,胜利得1分,失败得-1分,平局得0分,现在甲出剪刀石头布的概率分别为(1/4, 3/8, 3/8), 乙出剪刀石头布的概率分别为(3/8, 1/4, 3/8), 问每场比赛甲的平均得分是 。若乙调整策略,出剪刀石头布的概率均为1/3,问此时每场比赛甲的平均得分是 。
Solution: ; .
调整前, 有
调整后, 有
- (5分) 根据样本已经得到了 的 置信区间 , 正确的是( ).
A. 该区间以 的概率包含真值
B. 参数 在该区间内的概率为
C. 该区间有 的可能性包含参数
D. 参数 或者在 内, 或者不在 内
Solution: D. 此时已经根据样本值得到了一个固定的置信区间, 参数要么在这个固定的区间中, 要么不在其中. 注意如果题干改为抽样之前, 则由于样本还未获得, 两个区间端点都是随机的, 随机区间 覆盖参数真值 的概率是 . 但现在, 区间已定, 参数也是个常数, 要么在里面, 要么不在里面.
二、计算与分析题
- (25分) , , 它们独立, 定义 .
(1)(7分) 求 的分布;
(2)(8分) 求 Corr;
(3)(8分) 独立吗?
Solution: (1) 对任意 , 由于 ,
因此 .
(2) 由于 , 而
得 , 故 ,
(3) 显然不独立, 考虑
- (20分) 设是i.i.d.连续型非负随机变量(如跳远成绩), 记
为一个记录发生. 求:
(1) (8分) ;
(2) (12分) .
Solution:
(1) 根据对称性, .
(2) 由于, 故. 再考虑 时条件概率
我们发现无论怎么排序, 还是只要在所有当中排第1就好, 即条件概率仍然是. 我们计算
这也说明协方差为0, 故有
- (20分) 设 是 i.i.d. 的 的随机样本, 其中 是未知参数.
(1) (10分) 样本标准差是总体标准差无偏估计吗?
(2) (10分) 是 的无偏估计吗? 若不是, 给出 的一个无偏估计.
Solution: (1) 不是. 已知 , 而
即 , 故 .
(2) 由于 , 故 , 它不是 的无偏估计, 修正后看出 恰好是 的无偏估计.
- (30分) 为调查某商品在商场货架上的滞留时间,随机调查9个样本的滞留时间 , 其中计算得到 , 假设总体 . .
(1)(10分) 检验 , 备择假设是其对立, .
(2)(10分) 若 , 样本量改为 , 求犯第二类错误的概率 , 并指出: 想要 , 我们应该需要多少样本.
(3)(10分) 求 的 MLE, 并给出 95% 置信下限.
Solution: (1) 拒绝域是
现在 , 不落入拒绝域, 不能拒绝原假设.
(2) 犯第二类错误的概率是
令其小于 , 则有
解得 , 故 , 取 .
(3) 计算得
由 MLE 不变性, 有 . 而由于 是单调函数, 是 单调减函数, 故有
我们可以选 为 的 0.95 置信上限, 即 , 故有
是 的 0.95 置信下限.
- (20分) 有线性模型
(1)(10分) 若欲用最小二乘法求 的估计, 需要满足什么要求?
(2)(10分) 已知 的三个数据点 , , , 求 的最小二乘估计.
Solution: (1) 若要做最小二乘估计, 则 应该是零均值, 同方差, 协方差为 , 并且不能和自变量 有相关性. (注意: 不需要正态假设)
(2) 记 , 对应的最小二乘估计是 , 代入数据有