上海交通大学-432统计学-2023年
一、选择题
- 先在一个学校的所有班级中抽 10 个班级, 然后在这 10 个班级中的所有学生中抽 , 请问这属于什么抽样()
A. 整群抽样
B. 多阶段抽样
C. 简单随机抽样
D. 配额抽样
Solution: B
多阶段抽样是先将一个很大的总体划分为若干个子总体,即一阶单位,再把一阶单位划分为若干个更小的单位,称为二阶单位,照此继续下去划分出更小的单位,依次称为三阶单位、四阶单位等。然后分别按随机原则逐阶段抽样。
- 现有三个汽车厂商在江苏和浙江的销量数据, 如果想要比较他们的销售结构, 用下列哪种图来进行展示最合适 ( )
A. 雷达图
B. 复式饼图
C. 环形图
D. 帕累托图
Solution: C
只有两个数据, 不适合用雷达图展示, 应该用环形图.
- 一组数据的下四分位数是 20, 上四分位数是 30, 现已知某个数据是 61, 请问它属于以下哪种类型? ( )
A. 极端点
B. 离群点
C. 异常值
D. 最大点
Solution: A
此处上下四分位数差 , 超过四分位数 1.5 个 IQR, 即 <5 或 >45, 是离群点, 超过四分位数 3 个 IQR, 即 <-10 或 >60, 是极端点.
- 对某所学校的学生进行抽样, 一种方法是按男女比例 抽样, 另一种是按照文科理科比例 抽样, 请问这属于什么抽样方法?( )
A. 典型抽样
B. 重点抽样
C. 滚雪球抽样
D. 配额抽样
Solution: D
配额抽样也称“定额抽样”,是指调查人员将调查总体样本按一定标志分类,确定各类单位的样本数额,在配额内任意抽选样本的抽样方式。
- 一所大学准备采取一项学生在宿舍上网收费的措施, 为了解男女学生对这一措施的看法, 分别抽取了 150 名 男学生和 120 名女学生进行调查, 得到的结果如下:
男同学 | 女同学 | 合计 | |
---|---|---|---|
赞成 | 45 | 42 | 87 |
反对 | 105 | 78 | 183 |
合计 | 150 | 120 | 270 |
根据该列联表, 男女学生反对上网收费的期望频数分别为()
A. 48 和 39
B. 102 和 81
C. 15 和 14
D. 25 和 19
Solution: B
计算期望频数, 在列联表原假设下, 性别与是否反对是独立的, 则这里用边际分布的乘积即可
- 随机变量 和 独立同分布, 分布列均为 , 则 ( )
A.
B.
C.
D.
Solution:
由全概率公式, 有
- 随机变量 和 相互独立, 分别服从参数为 和 的指数分布, 则 的密度函数是 ( )
A.
B.
C.
D.
记 , 则
因此 的密度函数是
- 是参数 的一个估计量, 假设 的期望与方差均存在, 且当样本量 趋于无穷时, , , 则以下说法中, 错误的是 ( )
A. 是参数 的一致估计量
B. 依分布收敛到
C.
D.
Solution: C
A 是经典结论, B 可由 A 推出, C 表示几乎处处收敛, 这不一定成立. D 是均方收敛, 而 , 因此 D 也正确.
- 对于正态总体的一组随机样本, 总体的方差 已知. 考虑假设检验问题: . 现已知 的 置信区间是 , 则对于前面提到的假设检验问题, 基于该数据算得的 值最有可能是 ( )
A.
B.
C.
D.
Solution: B
题目给出的置信区间说明 样本均值 , 半个置信区间的长度是 , 得 . 据此计算得到 统计量
则 值是
- 某电视台为统计收视率, 使用电话采访收集群众是否看过该电视台, 若要求 0.05 显著性水平下的误差不超过 , 则需要的最低样本量是 ( )
A. 193
B. 97
C. 100
D. 200
Solution: B
题目意为, 收视率为 , 用抽样收视率 来估计 , 试问需要多大的样本量, 才可以保证
利用正态近似, , 则
可近似解得 , 于是 .
由于题目没有给出 的大概数值, 则利用不等式 , 得 . 考虑到 是整数, 所以 至少为 97.
- 以下哪个分布不是指数族分布 ( )
A. 二项分布
B. 双参数指数分布
C. 泊松分布
D. 正态分布
Solution: B
双参数指数分布的支撑集与参数有关, 因此不可能是指数族分布.
- 有来自两点分布总体 的一组简单随机样本 , 则 的无偏估计的方差的 CR 下界是 ( )
A.
B.
C.
D.
Solution: A
先计算 Fisher 信息量, .
则 C-R 下界是 .
- 某 4s 店声称其汽车达到了 10000 公里平均里程数的标准, 产检部门为检验他的说法是否属实, 应选取的备择假设是 ( )
A. 平均里程数大于 10000 公里
B. 平均里程数小于 10000 公里
C. 平均里程数等于 10000 公里
D. 平均里程数大于等于 10000 公里
Solution: A
将想要检验的内容放在备择假设.
- 某教授声称手术之后病人的胰岛素水平会降至 15 以下, 为了检验他的说法是否正确, 建立了假设检验问题 , 现观测到经过手术后的 100 位病人的胰岛素水平并在 的显著性水平下拒绝了原假设, 则以下说法正确的是 ( )
A. 没有充分的证据证明原假设错误
B. 原假设的可信度小于
C. 正确接受备择假设的概率至少为
D. 正确接受备择假设的概率至少为
Solution: C
显著性水平衡量的是 “拒真” 概率, 则拒绝了正确原假设的概率至多为 , 换句话说: 正确接受备择假设的概率至少为 .
- 含交互项的双因素方差分析,行因素有 个水平,列因素有 个水平,每组重复 次,总共有 个样本. 下面的方差分析表中 (I) (II) (III) 处的值缺失, 则缺失值 (III) 应该是 ( )
来源 | df | SS | MS | F |
---|---|---|---|---|
因素A | 2 | 1.078 | 0.539 | 40.86 |
因素B | 2 | 0.052 | 0.026 | 1.96 |
A:B | (I) | 0.689 | (II) | (III) |
残差 | 18 | 0.238 | 0.013 | |
总计 | 26 | 2.057 |
A. 26.5
B. 13.25
C. 8.33
D. 5.89
Solution: B
可以看出 , 因此交互项的自由度应该是 . 所以 , .
- 对一组数据建立三元线性回归,
其中只有 通过 检验, 则以下说法中错误的是 ( )
A. 无需对整个模型进行线性检验
B. 不显著的原因可能是多重共线性造成的
C. 可以通过检验变量之间的相关系数来确定是否存在多重共线性
D. 可以舍弃, 因为系数不显著, 没有意义
Solution: D
存在一个变量显著, 则 检验必定通过, A 正确. BC说法正确. D 错误, 不应该直接舍弃, 可能的做法是先尝试舍弃其中一个变量.
- 随机变量 , 则 的概率密度函数是 ( )
A.
B.
C.
D.
Solution: C
是对数正态分布. 直接求其密度函数, 对任意 , 则
- 关于拟合优度 和调整拟合优度 的关系, 以下说法错误的是 ( )
A. 可能为负
B. 始终小于
C. 用样本量 和自变量个数 来进行调整后, 避免了引进不必要的自变量而高估
D. 当自变量的个数越来越多的时候, 取值会越来越接近
Solution: C
根据定义
它可能是负数, 且显然小于 , 故 AB 均正确. C 也正确. D 错误, 当样本量增大而变量数固定时, 二者越来越接近.
- 某时间序列数据存在 2 个拐点, 则用下列什么曲线来拟合更合适? ( )
A. 二阶
B. 三阶
C. 指数曲线
D. 一阶
Solution: B
三阶曲线有 2 个拐点.
- 以下哪一个指标不受时间序列平均水平和计量尺度的影响 ( )
A. 平均误差
B. 平均绝对误差
C. 均方误差
D. 平均相对误差
Solution: D
四个选项均不受平均水平的影响, 而相对误差可以去除数据尺度的影响.
- 现有规模一大一小两家公司, 若想比较工资的离散程度, 可以采用以下哪个指标 ( )
A. 方差
B. 平均数
C. 变异系数
D. 异众比率
Solution: C
变异系数不受量纲影响, 用于比较数据的离散程度.
- 以下哪项是标准化残差图的作用 ( )
A. 检验相关性和方差齐性
B. 检验方差齐性和独立性
C. 检验正态性和独立性
D. 检验正态性和方差齐性
Solution: D
标准化残差图主要检验模型假设是否成立, 即随机误差项是否方差相等. 更进一步也可以检验随机误差项的正态性.
- 报税时候将数据报高, 属于以下哪类误差 ( )
A. 有意识误差
B. 无回答误差
C. 理解误差
D. 系统误差
Solution: A
有意识误差,当调查的问题比较敏感,被调查者不愿意回答,迫于各种原因又必须回答时,可能就会提供一个不真实的数字。
而调查纳税情况时,被调查者往往高报,以表现自己没有漏税行为。
- 面访式调查的缺点是 ( )
A. 提高回答率
B. 回答的质量难以控制
C. 不能对数据摱集所花费的时间进行调解
D. 成本较高
Solution: D
- 现有两条曲线, 曲线 A 的峰度系数是 2.5, 曲线 B 的峰度系数是是 3.5, 则 ( )
A. 曲线 A 比曲线 B 略显陡峭
B. 曲线 A 比曲线 B 陡峭许多
C. 曲线 B 比曲线 A 略显陡峭
D. 曲线 B 比曲线 A 陡峭许多
Solution: D
峰度系数相差1, 陡峭程度相差较大, 且峰度系数越高越陡峭.
- 随机变量 , 则 ( )
A.
B.
C.
D.
Solution: C
直接根据多元正态分布的条件分布公式
则 .
- 是来自总体 的简单随机样本, 其中参数 已知, 则以下哪个是 的无偏的充分统计量 ( )
A.
B.
C.
D.
Solution: A
由于 A,C 已知, 那么根据因子分解定理 是 的充分统计量, 因此 B D 错误. C 不是无偏估计.
- 关于众数,说法正确的是()
A. 一组数据肯定有一个众数
B. 一组数据肯定不止一个众数
C. 众数用于描述顺序型数据的集中趋势
D. 众数用于描述分类型数据的集中趋势
Solution: A
当每一个数据出现的次数都相同时, 众数不存在.
- 在某公司进行的英语水平测试中, 新员工的平均得分是80分, 标准差是 5 分, 中 位数是85分, 则新员工得分的分布形状是 ( )
A. 对称的
B. 左偏的
C. 右偏的
D. 无法确定
Solution: B
平均值小于中位数, 说明是左偏的.
- 当模型存在严重的多重共线性时, OLS 估计量将不具备 ( )
A. 线性
B. 无偏性
C. 有效性
D. 一致性
Solution: C
严重多重共线性发生时, 设计矩阵接近奇异, 其逆矩阵特征值将非常大, 则估计量的方差会变大, 不再具有有效性.
二、简答题
- 现有一组某互联网公司的薪资数据, 数据包括了: 程序员年龩 、工作年限 (年)、学历 ( 1:本科 2 :硕士 3: 博士), 试构建合适的线性模型来预测程序员的年薪, 并解释各系数的意义.
Solution:
引入虚拟变量进行回归 (季节模型), 以本科为 baseline, 引入另外两个虚拟变量
建立线性回归模型:
其中 是截距项, 表示每增加一年工作年限, 其薪资的平均增长. 表示硕士学历相比本科学历的平均工资增长. 表示博士学历相比本科学历的平均工资增长.
- 名词解释: 复合型序列。简述“移动平均趋势剔除法”的步骤, 以及所用的乘法模型公式, 用乘法模型公式表示分离季节成分。
Solution:
复合型序列是指含有趋势、季节、周期和随机成分的序列。对这类序列的预测方法通常是将时间序列的各个因素依次分解出来,然后再进行预测。
移动平均趋势剔除法:
a、计算移动平均值M
b、剔除原序列中的趋势成分,即用序列各项数据 Y 除以对应的移动平均值 M (乘法模型中分离各因素的影响)
c、消除不规则变动 I ,即求解各期季节指数 S
d、调整季节指数,即用季节指数的调整系数对所求季节指数进行归一化处理
乘法模型是
其中T表示长期趋势,S表示季节变动,C表示循环变动,I表示不规则变动.
- 随机变量 , 记 .
(1) 求 的联合概率密度函数.
(2)考虑假设检验问题:
以及拒绝域 , 求该检验的势函数.
Solution:
(1) 直接根据次序统计量的分布的结论, 有
(2) 根据定义
当 时, 被积区域是空集, 则;
当 时,
- 简单随机样本 来自于标准正态总体 , 试求 的极限分布.
Solution:
记 , 则根据中心极限定理, 有
取 , 则 , 则根据 Delta 方法,
即
三、计算题
- 设简单随机样本 , 已知 为 的充分完备统计量, 其中
(1) 求 的极大似然估计;
(2) 求 的分布 (提示: 的密度函数为 );
(3) 由充分完备统计量求 的 UMVUE;
(4) 由充分完备统计量求 的 UMVUE.
Solution:
(1) 过程略去, 是 的MLE. 根据不变性, 是 的MLE
(2) 根据 Fisher 引理, , 且二者独立. 因此 的联合密度函数是
(3) 根据 L-S 定理, 只需基于充分完备统计量求 的无偏估计. 而 是 的无偏估计. 而
即 . 故 是 的无偏估计.
因此 是 的 UMVUE.
(4) 容易计算 , 而
故 . 则根据 的独立性, 有
综合以上, 有 是 的 UMVUE.
- 考虑一元线性回归模型: , 其中 表示成年男性的身高或成年女性的身高乘以 , 表示 父母亲的平均身高, 已有统计量 , , 样本量 .
(1) 求估计的回归方程;
(2) 求决定系数 并解释其意义;
(3) 已知某位家庭中, 父亲 母亲 , 估计其儿女身高;
(4) 对于假设检验问题: v.s. , 试在 的显著度下进行假设检验.
Solution:
(1) 根据结论 , 以及 , 则回归方程是
(2) , 这表示子女身高的变化有 36% 的部分可以由父母的平均身高来解释.
(3) 对于儿子: ,
对于女儿: .
(4) 注意到 , 而 , 故
而 的标准误差是
故有 统计量,
原假设成立时, 其分布是自由度为 的 分布 . 因此检验的拒绝域是 , 故不应拒绝原假设.
四. 证明题 (1小题, 共10分)
- 简单随机样本 来自于均匀分布总体 , 记 , 则
(1) 求 的分布函数
(2) 证明
Solution:
(1) 对于 , 有
则 的分布函数是
(2) 容易算得 的密度函数是
记 , 由变量变换法, 有 的密度函数
后者是 的密度函数, 故有 .