清华大学-432统计学-2022年
一、(20分) 独立, , 找出 相互独立的充要条件.
Solution: 独立意味着: 使得 , 以及
首先前两个条件显然等价于 , 而第三个条件关键在于题干 独立, 第三个式子转化为
这也等价于 . 故 相互独立的充要条件是.
二、(20分) 一个试验若第 次成功, 则第 次成功的概率为 , 若失败, 则下一次成功概率为 , 初始 (第一次) 成功概率是 . 求:
(1) 第 次成功的概率;
(2) 首次成功时的次数的分布、期望、方差.
Solution:(1) 设 为第 次成功, 则
解差分方程得 .
(2) 设首次成功时的次数是 , 有分布列
一方面, 硬算期望方差是可行的. 另一方面, 我们看出 可以拆成第一次两点分布 和后续的几何分布 , 即 , 其中 , 且它们独立, 有分布列
同时有 .
三、(60分) 是 i.i.d. 服从 的随机变量, 定义 .
(1) 求 使 无偏;
(2) 求 使 无偏;
(3) 证明: 任意 不相合;
(4) 证明: 任意 弱相合;
(5) 与 是否同分布?
(6) 当, 记 是 的分 布函数, 求极限分布.
Solution: (1) 由于 , 因此 时 无偏.
(2) 由于 , , 可以计算出 , , 故 时 无偏.
(3) 的分布与 相同, 有固定分布, 不可能 依概率收敛到常数, 因此不可能是相合估计.
(4) 根据 , , 我们得到 , 结合 , , 我们得到
因此对任意 , 有 .
(5) 不同, 可能取负值, 则一定非负. 实际上, 根据次序统计量的分布公式, 有
作变量变换, 设
对应的雅可比行列式是 , 因此有
积掉 , 得
这恰是 .
(6) 直接计算, 有
求导得
这是 , 即自由度为 4 的卡方分布. 而对应的分布函数极限是
四、(15分) 简答题:
(1) p 值的定义;
(2) 接受原假设, 可能犯什么错误;
(3) 解释统计中的交叉验证, 说明用途.
Solution:
(1) 如果拒绝域是 , 这里 是检验统计量, 是某个常数. 那么 值的定义是: , 这里 表示统计量的观测值. 也就是说 值的概念是:当原假设成立时, 统计量大于它的观测值的概率的上确界(前提是拒绝域的形式是 , 即当统计量 较大时进行拒绝). 其他类型 的拒绝域对应的 值可以类似定义. 或简单的介绍为: 值是在原假设成立时, 发生比当前观测还要更“极端”的情况的概率, 这里“极端”的概念由拒绝域形式决定. 且 值是可以做出拒绝原假设判断的最小显著性水平.
(2) 可能发生第二类错误(取伪错误), 即原假设为假, 但样本由于随机性而落入了接受域.
(3) Holdout交叉验证: 将样本数据的一部分(例70%)作为训练数据, 剩下的部分作为测试数据. 利用训练数据训练一个统计模型(例线性模型等), 再计算其在测试数据上的误差(称为交叉验证误差).
K-Fold 交叉验证: 将数据集等量划分为互不重叠的 K 个子集. 我们每次选取其中 K-1 个子集作为训练数据训练出一个统计模型, 并在剩下的 1 个子集上计算误差, 重复 K 次则可以计算得到全体数据上的平均误差, 称为交叉验证误差.
留一交叉验证: 每次留出一个样本, 用剩下 个样本构建模型, 并计算在留出样本上的误差. 等价于 -fold 交叉验证.
交叉验证可用于模型选择, 我们通常会比较多个模型的交叉验证误差, 并选取交叉验证误差最小的模型.
五、(20分) 设 . 考虑用 估计 . 证明它无偏, 并说明是否有不妥, 若有, 如何修正?
Solution: 求期望有
因此无偏. 但 却很可能为负, 很不妥, 此外, 越大我 们倾向于认为 越大, 即认为 越小, 这个估计没有体现. 对于第一个不妥之处, 可采用 , 对于第二个不妥之处, 可采用 估计, 而且它也是 MLE.
六、(15分) 线性回归模型 , 其中 , 其中 , 求:
(1) 的 MLE;
(2) 求 联合 置信区间.
Solution:
(1) 由题意可知, , 似然函数
对数似然函数 .
令 , 解得
其中
代入 , 我们还能进一步得到 .
(2) 可以证明 . 先求, 有
再求, 无论还是, 都是的线性组合, 由样本的性质, 如果, 则, 故
因此有
而 , 这说明 与 独立, 故只需分别构造 置信区间, 其中 .
其中 , , 用 去替换构造 分布区间, 即
是联合的置信区间.