中国科学技术大学-432统计学-2020年
一、(20分) 有甲乙两个工厂一起生产某产品, 甲生产占, 乙生产占 , 若甲生产次品率为 , 乙生产次品率为 , 现从生产物品中取出一件为次品, 问该物品为甲工厂生产的概率?
Solution: 记事件 “取甲生产物品”, “取物品为次品”, 则
二、(15分) 为独立同分布的正值随机变量, 求
Solution:
由于 独立同分布, 故有: 同分 布, 于是 , 所以有
三、(20分) 有来自总体的随机样本, 请分别用与构造的置信区间, 并比较哪个更优?
Solution:
作总体变换, 令 , 则 是来自均值为 的指数分布的 样本, 故有结论 , 可以将其变为卡方分布, 即有
因此 和 是枢轴量. 基于这两个枢轴量可以导出等尾置信区间, 即
关于优良性, 我们认为区间一更精确, 因为可以比较区间长度, 区间一的长度是 , 由于 都是常数, 故其分母趋 于 1 , 而分子趋于 0 , 且与 同阶. 区间二长度是 , 由于在这里分子分母中的分 位数 随 而动, 故需要进一步探讨, 先考虑分母, 根据 的定义, 有
其中 , 根据中心极限定理, 有 , 故由上式可看出
故有 , 因此 , 同理 , 故有 的分 母收玫于常数 4. 再考虑分子, 由于
即 , 再次根据中心极 限定理, 我们得知 是收玫于正常数的, 故对 而言, 其分子与 同阶, 比 更慢收玫于 0 , 再考虑到 , 故当 足够大时, 区间一更短.
注: 科大学硕 812 在 2019 年也考察了此题, 在那里我讨论了最短置信区间, 感兴趣可以查看.
四、(20分) 已知有密度函数
其中, 是来自的随机样本, 试求
(1) 的最大似然估计;
(2) 的最大似然估计.
Solution:
作参数变换, 令 , 则有 的密度函数是 , 这是参 数为 的指数分布, 其 MLE 是 , 由 MLE 的不变性, 立即得
五、(15分) 已知是来自于指数分布的随机样本, 试求
(1) 和的密度函数;
(2) 的密度函数.
Solution: (1) 由次序统计量分布结论, 有
(2) 作总体变换, 令 , 由次序统计量分布结论, 有 的联合 密度是
作变量变换,
对应的雅可比行列式为
故有
其中 , 积掉 , 有
六、(20分) 设是来自的随机样本, 是来自的随机样本.
(1) 对于假设检验问题, 试给出检验全过程(备择假设是其对立);
(2) 如果, 对于假设检验问题, 试给出检验全过程(备择假设是其对立).
Solution: (1) 由于样本方差 满足
且它们相互独立, 故在原假设成立的情况下有 , 显然如果统 计量 过大或过小我们都会拒绝原假设, 为满足其水平为 , 因此拒绝域为
(2) 当原假设成真时, 有 , 显然当统计量 过大我们会拒绝原假 设, 为满足其水平为 , 因此拒绝域为 . 注意其中 .
七、(20分) 叙述 2×2 的列联表独立性检验原理.
Solution:
假设有两个离散分布总体 , 分别有 种取值, 根据样本得到的信息: 事件 被观测到的次数是 次, . 根据样本 信息来判断 是否独立.其被称为列联表的原因就是该问题可以被写成一个类 似二元离散分布的列联表.
我们知道, 如果 独立, 那么应该可以在样本种观察到 对所有 都近似成立, 也就是在直观上讲如果 越小, 我们就认为越 有可能是独立的. 但实际上, 每个事件的偏离程度是不一样的, 也就是 的量级越大,则它本身发生偏差的可能性就越大, 故我们要标准化每个事件的偏离程度, 即用 作为每个事件的权重, 如果 越小, 我们就认为越有可 能是独立的.
恰好, 统计量 近似服从 (可以自己思考一下自由度的问题, 课程和书本都有), 这就给了我们一个很好的用来检验独立性的统计量. 这就是 的列联表独立性检验的方法.
八、(20分) 已知连续型随机变量独立同分布, 令, 记, 试求
(1) ;
(2) .
Solution:
(1) 记 , 其中参数 由对称性得来. 故有
(2) 记 , 考虑
其中 , 而由对称性, 在组合 中居最大的概率是 , 故有
因此 . 再考虑 , 有
故