北京师范大学-432统计学-2024年
一、(30分) 试卷中给出了一组数据.
(1) 求该组数据分位数的表达式.
(2) 用两种盒形图描述以上数据, 并说明主要数值的具体含义.
(3) 设, 且, 定义, 证明:
并解释该等式的含义.
Solution: (1) 样本分位数指的是在个样本中, 小于等于的比例, 这个定义来源于总体分位数.
(2) 盒形图(Boxplot)是一种用于显示一组数据分布情况的图表。通常,盒形图包括以下部分:
中位数:数据的中位数,表示为盒子中的一条线。
四分位数:数据的第一四分位数(Q1)和第三四分位数(Q3),分别表示数据分布的25%和75%位置。这两个值定义了盒子的边界。
“胡须”(Whiskers):从盒子外延伸出的线,通常延伸到1.5倍的四分位距(即Q3 - Q1)之外的最近的数据点。
异常值:通常使用点来表示,这些点位于胡须之外。
盒形图的两种常见变体是:(a) 标准盒形图:使用上述标准定义的元素。(b) 调整后的盒形图:可能有不同的方法来计算“胡须”的长度,例如,它们可能延伸到所有非异常值数据点,或者使用不同的倍数来计算四分位距。
随机生成了20个数据, 画图作为示例:
(3) 从右侧出发:
原问题中, 等式左侧表示加权计算的方差, 表达了离散程度, 等式右侧则表示两两样本离差平方的加权组合, 也表示了离散程度.
Remark: 第(3)问是九阳神功-北师大432统计学-2023年大题第2题变式.
二、(30分) 袋中有个编号为的小球, 随机取个.
(1) 写出该问题的概率空间.
(2) 设, 举例分别满足以下的事件:
(a);
(b);
(c);
(d) 两两独立, 但不相互独立.
(3) 设袋中有个红球,个白球, 假设每次从袋中有放回去取一个球, 直到摸到第个红球停止, 此时次数为, 求的分布列和期望.
Solution: (1)
样本空间是所有可能结果的集合。在这个实验中,每次实验的结果是取出一个具有特定编号的小球。因此,样本空间可以定义为:
.
事件域是样本空间的所有子集,包括空集和样本空间本身, 可以写作.
概率测度: 在这个实验中,由于我们是随机取出一个小球,每个小球被取出可以被视作样本点, 它们的概率都是相等的,都是, 即.
结合之,是该问题的概率空间.
(2) (a),; (b),; (c),; (d),,.
(3)是负二项分布, 其中, 故分布列是
期望是.
三、(30分) 有来自的随机样本.
(1) 求的 MLE, 判断其无偏性.
(2) 求的矩估计.
(3) 在某次拍卖会, 甲、乙、丙对一件物品竞拍, 每人出价一次, 价高者得. 且已知甲如果买下该商品, 将以 8 万元转卖. 现在甲知道乙、丙的出价均独立服从, 请问甲如何出价使得期望收益最大?
Solution: (1) 联合概率密度函数为:
最大化相当于最小化。在样本中,的最大似然估计是样本的最大值,的最大似然估计是样本的最小值。因此,的最大似然估计是.
接着我们判断无偏性. 我们考虑, 则有次序统计量分布, 因此,, 故,, 因此, 所以这个估计量是有偏的.
(2) 均匀分布的均值和方差分别为和。使用样本均值和样本方差来估计这两个参数,我们得到:.
(3) 设甲出价, 乙、丙出价为,, 则甲的收益是
求期望有, 用高数方法找其最大值在取到.
Remark: 前两问与九阳神功-北大849统计学-2021年第七题一致.
四、(30分) (1) 作出原假设的依据是什么? 原假设和备择假设的地位是否等同?
(2) 以正态分布为例, 简述置信区间和假设检验的区别和联系.
(3) 现有 81 个学生的成绩, 假设其来自于正态分布, 且样本均值, 样本标准差,. (可能用到的分位数:,,) 请回答下述问题:
(a) 能否认为?
(b) 求的置信区间.
(c) 能否认为?
Solution: (1) 作出原假设(通常表示为)的依据通常是以下几点:(i) 现有理论或知识:原假设往往基于现有的理论或广泛接受的知识。例如,如果现有理论表明两种药物效果相同,那么原假设可能就是“这两种药物的效果没有差异”。(ii) 简单性或保守性:在统计学中,原假设通常是一个简单假设,它提出了最简单、最保守的情况。例如,“新药与安慰剂效果无差别”是一个比“新药比安慰剂效果好”更简单、更保守的假设。(iii) 研究目的:研究者可能会根据研究目的来确定原假设。如果研究目的是证明某种新的干预措施有效,那么原假设可能就是“新干预措施与现有措施效果相同”。
此外, 原假设和备择假设(通常表示为)在统计假设检验中的地位并不等同。原假设是被默认为真的假设,直到有足够的证据来拒绝它。备择假设则是与原假设相对立的假设,通常是研究者试图证明的假设。当统计证据不足以拒绝原假设时,我们并不接受备择假设,而是说没有足够的证据支持备择假设。这表明,在假设检验中,原假设具有一定的“优先权”。这种方法有助于控制做出错误结论的风险,特别是避免第一类错误。
(2) 区别: 置信区间是针对参数设立的集合, 拒绝域是针对样本的集合. 联系: 在形式上, 置信区间和拒绝域存在互补的关系(或说置信区间与接受域在形式上是等同的).
以正态分布为例, 正态分布中的 0.95 置信区间是
同时,的拒绝域是
接受域可以写成. 显然, 置信区间与接受域在形式上是等同的, 但置信区间中,是未知参数, 接受域中,是已知的, 且接受域和拒绝域中, 元素是样本, 而置信区间则是参数的集合.
(3) (a) 使用单样本t检验来确定是否可以拒绝原假设。检验统计量的计算公式为:
其中,,,,。计算得到的值为,而在的显著性水平下的临界t值为 ±1.99(双尾检验)。因为计算出的t值在临界值的范围内,所以没有足够的证据拒绝原假设。
(b) 对于的95%置信区间,计算公式为:
其中,为t分布在处的临界值。计算得到的置信区间为。
(c) 使用卡方检验来确定是否可以拒绝原假设。检验统计量的计算公式为:
其中,。计算得到的值为 103.31,而卡方分布的临界值为 57.15(下限)和 106.63(上限)。因为卡方值在这个范围内,所以没有足够的证据拒绝原假设。
注意: 题干没有给出. 但可以推断出它大概率比的均值 80 要小.
Remark: 《考前一天20个知识点》让同学们前去复习接受域和置信区间的对偶关系, 《考前知识点清单》专门陈述了应如何选择原假设和备择假设.
五、(20分) 现有回归模型.
(1) 写出判定系数的表达式并解释含义.
(2) 请画出方差分析表. (表中写出各种量的公式)
(3) 对于给定的第组数据, 如何判断它对模型的影响力?
(4) 对于样本和, 这两点连成的斜率是, 其中,, 证明:的某一线性组合是的最小二乘估?
Solution: (1), 它指的是回归平方和占总平方和的比重, 表示自变量对因变量随机性的解释比例, 同时也反映了自变量和因变量的线性相关性强弱.
(2) 方差分析表通常包括以下部分:
(3) 对于给定的第组数据,其对模型的影响力可以通过杠杆值、学生化残差和Cook’s Distance等方法评估。
(i) 杠杆值 (Leverage)
定义:杠杆值反映了数据点相对于所有数据点在“预测空间”中的位置,表明数据点对模型预测的影响程度。
计算公式:
其中,是第个观测值的杠杆值,是该观测值,是所有观测值的均值。
影响:高杠杆值的数据点可能对回归线的斜率有较大影响,可能导致模型过度适应这些特定点。
(ii) 学生化残差 (Studentized Residuals)
定义:学生化残差是标准化后的残差,用于识别离群值。
计算公式:
其中,是第个数据点的学生化残差,是观测值,是模型预测值,是残差的标准差。
影响:绝对值大的学生化残差表明数据点与模型预测值相差较大,可能指示该点为异常值。
(iii) Cook’s Distance
定义:Cook’s Distance 是一个综合指标,结合了杠杆值和残差大小,用来评估数据点对回归系数估计的整体影响。
计算公式:
其中,是第个观测值的 Cook’s Distance,是包含所有观测值的回归预测,是排除第个观测值后的回归预测,是模型参数的数量,是均方误差。
影响:较大的 Cook’s Distance 表明移除或更改该数据点会显著改变回归模型。
(4) 根据的定义, 我们有, 而, 由于已是常数, 只需将表为的线性组合即可. 我们有
因此直接得到
六、(10分) 设独立, 且期望都是, 方差是, 定义
(1) 求的自协方差函数;
(2) 对于自协方差函数, 如果对任意, 对任意序列, 有, 则称自协方差函数非负定, 证明: (1) 中的自协方差函数非负定.
(3) 样本自协方差函数是
证明样本自协方差矩阵
是非负定的.
Solution: (1) 增加一个条件: . 容易看出,, 再求自协方差, 利用和差化积, 有
只和有关, 因此平稳,, 其中, 恰好也包含了.
(2) 这等价于证明: 对任意, 矩阵
是非负定的. 简单的方法是考虑任意, 由于是的协方差矩阵, 有
这和证明普通协方差矩阵非负定并没有什么区别.
上述方法没有用到第 (1) 问求出来的结果, 如果要利用之, 即需证明:, 利用欧拉公式,
其中表示取实部. 进一步有
已经只是实数, 因此有
(3) 先假设 并不全相等, 令 , 并记
可以验证, 恰有 , 只需验证 是行满秩矩阵即可, 这是显然的, 因为只要有一个 不是 0, 就会出现非 0 元素在各行不同列出现的情况, 同时我们考虑 , 因此 是正定的.