北京师范大学-432统计学-2022年
一、选择题(每题3分, 共30分)
- 与 互不相容, 则 ( ).
A.
B.
C.
D. 0
Solution: D. 互不相容意味着, 故
- 关于古典概率, 下列说法一定错误的是().
A. 所有样本点对应的基本事件和一定为 1
B. 每个样本点对应的基本事件概率一定相同
C. 样本点个数可以是无限个
D. 某事件的概率一定与其所包含的基本事件个数成正比
Solution: C. 古典概型只能是有限样本点.
- 某个班男生的平均身高标准差为 , 为估计全校男生的平均身高, 置信水平 , 允许误差为 1 , 请问所需要的样本个数至少为( ).
A. 138
B. 139
C. 140
D. 141
Solution: B. 考虑样本均值是近似正态分布, 则置信区间为, 令误差, 代入, , 解得.
- 设圆的直径, 则圆面积的期望( ).
A.
B.
C.
D.
Solution: C. , , 密度函数
求期望.
- 如果 存在, 下面说法错误的是( ).
A. 一定存在
B. 一定成立
C. 对于
D. 标准差 一定存在
Solution: B. 如果, 则, 说明.
- 抽样推断的精确度与抽样误差的关系是( ).
A. 前者提高说明后者变小
B. 前者提高说明后者变大
C. 前者提高说明后者不变
D. 没有关系
Solution: A. 要求的精确度越高, 说明置信区间越短, 抽样误差越小.
- 独立同分布, 且 , 则 ( ).
A.
B.
C. 0.75
D. 1
Solution: B. , 根据中心极限定理, 近似服从, 正态分布小于其期望的概率恰好是0.5.
- 与 独立, 且 均服从 , 则 ( ).
A.
B.
C.
D. 0
Solution: C.
- 是从 中抽取的 的样本方差, 则 ( ).
A.
B.
C.
D. 1
Solution: B. 由抽样基本定理(Fisher引理), 有, 因此
解得.
- 为来自 的简单随机样本, 为使得 为 的无偏估 计, 则 ( ).
A.
B.
C.
D.
Solution: C. 由正态分布性质, 有, 故, 由期望的线性可加性, 有
因此.
二、计算题(共120分)
- (10分) 给出 12 个数据 23、26、31、33、33、34、36、39、40、40、43、49, 用至少两种统计量和统计图进行统计分析.
Solution: 统计分析报告为常考基础题, 务必掌握!
统计图: 可⽤茎叶图 , 箱线图, 直方图.
统计指标: 平均数, 中位数 , 众数, 方差, 极差等.
最后给出分析, 可从三个⽅⾯展开: 集中趋势, 离散趋势, 分布形状.
- (15分) 一个不透明的箱子里有 个白球和 个红球, 个人不放回地抽球, 且 , 求第 个人抽到红球的概率.
【提示】: 这是2021第一大题重复考察, 也类似茆书原题1.5.26, 1.5.27, 用数学归纳法. 这里我们用另外一种条件期望法做.
Solution: 设 表示第 个人抽球时盒中红球数量, 很显然
如果 已知, 则有
求得条件期望为
用重期望公式得
用递推式得到
代入得
- (24分) 相互独立, , 且 , , 其中 是已知数值; 为未知参数,
(1)(8分) 求 的极大似然估计.
(2)(8分) 分别求 的 的置信区间,其中给定 .
(3)(8分) 假设 vs , 构造 水平下的拒绝域.
【提示】: 这实际上是一元线性回归.
Solution: (1) 写出似然函数, 即
对数似然函数为
求偏导得
第一个式子告诉我们, 代入第二个式子消元 恰好解得
再代到第三个解得, 汇总后是
恰好是最小二乘估计, 只不过因变量是 , 自变量是 .
(2) 根据最小二乘估计结论, 有
其中 是 的无偏估计, 且. 此处由于 未知, 因此
总结得到置信区间为
(3) 构造检验统计量
当该检验统计量的绝对值特别大时, 我们认为的真值不应是, 故拒绝域是
- (20分) 已知 服从二元正态分布, 且 和 的边缘分布均服从 为 的 相关系数, 则:
(1)(10分) , 求 的联合密度函数.
(2)(10分) 记 , 证明 .
Solution: (1) 是 的线性组合, 反过来 也是 的线性组合. 二元正态的线性组合还是正态, 因此我们只需要计算 的期望、方差、协方差, 就可以写出密度函数, 根据题设 知 , 而由 也解得 , 同时有
这说明要么 , 要么 , 然而当 时, 的协方差矩阵行列式为0, 不是二元正态, 故得出 . 再回代 , 解得 .
综上, , 密度函数是
(2) 由 与 同分布, 因此
因此有
利用结论 服从标准柯西分布, 密度函数是 , 有
最后回代即有
整理得
- (15分) 抽检 人血样本, 方案 1:对每个人进行检验; 方案 个人一起混检. 已知阳性比例 为 , 证明当 较小时, 以适当的 按照方案 2 可减少化验次数, 并确定 取何值时最适合.
Solution: 设 , 表示 个人总共分成 组, 每一组的次数 可能有两种: (i) 所有人都阴性, 则 ; (ii) 有至少一个阳性, 则 . 期望次数是
因此总次数是
如果 特别小, 则有 , 即
而方案1需要的次数是 次, 只要我们确保 , 则有方案2的期望次数更小, 在非常小时, 这是很容易做到的. 实际上我们要尽量选择 远小于 , 以保证
使得分组的方法由于不分组.
- (16分) 来自总体 的均匀分布.
(1)(8分) 分别求 的矩估计 和极大似然估计 .
(2)(8分) 讨论 的无偏性, 若非无偏, 则给出一个修正后的无偏估计.
Solution: (1) , 故矩估计是 . 似然函数是
似然函数关于 递减, 故最大值在 取最小值时达到, 即 .
(2) 均匀分布次序统计量结论有 , 故期望是 , 因此 , 有偏. 修正后的无偏估计是 .
- (20分) 厂商称白糖平均每包重量 , 抽取 100 包测得数据如下:
i | 每包克重 | 包数 |
---|---|---|
1 | 498-499 | 10 |
2 | 499-500 | 20 |
3 | 500-501 | 50 |
4 | 501-502 | 20 |
(1)(5分) 求均值和标准差.
(2)(5分) 构造均值的99%置信区间
(3)(5分) 在 水平下, 检验厂商说法是否可信
(4)(5分) 利用正态分布近似, 以 概率对该批糖达 的比例作区间估计
Solution: (1) 分组数据均值为 , 样本方差 , 样本标准差 .
(2) 总体方差未知, 用 分布构造区间, 置信区间为
(3) 假设检验问题为
检验统计量为
因此商家的说法是可信的.
(4) 记 , 根据表格得 , 故有
因此置信区间是