中国科学技术大学-432统计学-2023年
一、填空题(每题5分,共50分)
- 投掷硬币 次, 已知正面出现了 次, 则前两次是正面的概率是 .
Solution: .
- 设有三角形 , 某人最开始站在 点, 随机的向另外两个点走去, 随后每次如此, 问第 次他走向 点的概率是 .
Solution: .
考虑状态法, 设 分别是它第 次之后位于三点的概率, 有 , 以及 . 显然所求概率应为 , 即它上一次之后不在 点的概率, 再等分给他可以前往的两点.
用全概率公式有
可以用这个矩阵 次方去算, 该方法称为马尔科夫链. 但是根据对称性, 我们知道 , 故 , 到最后只剩 一个序列了, 我们反表示出 , , 代入第一个全概率公式即为
代入 , 解得
- 已知将 三个子母输入信道, 输出正确的概率是 , 输出为其他字母的概率是 . 现在, 等概率地输入 , 且观测到 , 问输入是 的概率为 .
Solution: .
利用全概率公式得
利用贝叶斯公式得
- 检验的 值是否为统计量? .
Solution: 是.
值依赖于观测到的样本, 属于统计量.
- 下列说法正确的个数是 .
(1) 越小说明方程的拟合越好;
(2) 越大说明方程的拟合越好;
(3) 残差 越大说明方程的拟合越好;
(4) 残差分析图中, 点的分布越平稳说明方程的拟合越好, 且点分布带状图越窄, 说明拟合精度越高.
Solution: 2.
(1) (3) 显然错误, (2) (4) 正确.
- 对任意三角形 内部取一点 , 在 上取 , 则直线 与 相交的概率是 .
A.
B.
C.
D. 不确定
Solution: A.
设三角形的边 , 为原点, 为 轴, 则 , . 先取定 , 连接 , 要落在 里才能满足题设条件, 故有
再让 动起来, 有
- 设 是 i.i.d. 的 随机变量, 下列正确的是 .
A.
B.
C.
D.
Solution: B.
注意 C, D 并不满足分子分母的独立性.
- 已知 , , 且它们独立, 求 .
Solution: .
因此 时, 的条件分布是 , 故期望是 .
-
CLT,忘了,比较简单
-
忘了
二、计算分析题
- (25分) 已知 , , 且它们独立.
(1) 求联合密度 ;
(2) 求 的密度函数;
(3) 求 有实根的概率, 保留 3 位小数.
Solution: (1) 根据独立性, 有
(2) 作变量变换, 有
因此有
积掉 , 得
(3) , 故所求概率为 , 有
- (10分) 假设检验问题: 给出两组正态总体数据 .
(1) 检验 ;
(2) 检验 .
- (25分) 有来自总体 的 i.i.d. 样本 , 已知 .
(1) 求 的矩估计 , 最大似然估计 , 以及 的MLE;
(2) , 是否为无偏估计, 若不是请修正;
(3) 求 在 的渐近分布.
Solution: (1) 求总体期望 , 利用 或直接积分有 , 由替换原理, 得 .
再写似然函数, 有
可以看出似然函数关于 递减, 故有
(2) 由于 , 显然 无偏.
对于 , 先求 的分布, 有
实际上即为 , 故有
由于 , 故 , 因此
故 不无偏. 直接乘一个不含 的数不可能修正为无偏估计, 但我们发现在求期望的过程中, 如果写成
则恰好是无偏估计, 这对应的估计量是
(3) 记 , 则有
对于 , 总有 足够大使得 , 因此
这说明 .
- (15分) 叙述题:(1) 叙述多重共线性的定义;
(2) 如何判断多重共线性:
(3) 如何消除多重共线性:
(4) 叙述自变量的选择标准.
Solution: (1) 在回归分析中,如果两个或两个以上自变量之间存在相关性,这种自变量之间的相关性,就称作多重共线性,也称作自变量间的相关性。多重共线性的存在违背了线性回归模型的基本假设,变量之间的线性相关性将会导致矩阵 不满秩,进而导致最小二乘估计不唯一。
(2) 可以借助方差膨胀因子 VIF 来判断共线性,计算公式是
一般我们认为 VIF > 10 时,存在多重共线性,该特征需要删除。
我们也可以分析矩阵 的特征值,如果该矩阵的最小特征值非常接近于 0,我们也认为存在多重共线性。
(3) 可利用逐步回归筛选并剔除引起多重共线性的变量,其具体步骤如下:先用被解释变量对每一个所考虑的解释变量做简单回归,然后以对被解释变量贡献最大的解释变量所对应的回归方程为基础,再逐步引入其余解释变量。经过逐步回归,使得最后保留在模型中的解释变量既是重要的,又没有严重多重共线性。
(4) 在模型中加入自变量时,要尽量使得:残差平方和缩小或决定系数增大,若某一自变量被引入模型后 SSE 减小很多,说明该变量对反映变量 的作用大,可被引入;反之,说明其对 的作用小,不应该被引入。此外,还可以根据赤池信息准则(AIC)、贝叶斯信息准则(BIC)、对数似然函数值(LLH)等方法判断。
- (25分) 设有来自 指数分布的 i.i.d. 样本 , 但由于某种原因只能观测到 , 其中 是给定常数, .
(1) 写出 对应的对数似然函数 , 同时写出完整样本 对应的对数似然函数 ;
(2) 写出基于 所求 MLE 满足的等式;
(3) 分别考虑两个步骤:
(i) E 步: 考虑 , 求条件期望
(ii) M 步: 极大化 , 即
(4) 证明: 通过两个步骤迭代得到的序列 , 其中 是基于 求得的 MLE. (提示:和 有关)
Solution: (1) 每个 都是两点分布, 其参数是
因此有
故有
而全样本对应的对数似然函数是指数分布的联合密度取对数, 即
(2) 记 , 实际上即 , 求导有
因此 MLE 满足
(3) 先求 , 有
其中分子利用了
同理用 , 有
因此有 E 步是:
再考虑 M 步: 对 求极大化(注意 是常数, 只有 是变量), 可以求导得
解得极值点满足
故有
(4) 该序列满足
记 , 这恰好是 在 点的导数, 而
该序列保证了 在导数的同方向迭代, 即保证了函数值 的上升, 因此 一定收敛到 的某个驻点, 即导数为 0 的点, 即 .