上海交通大学-432统计学-2017年
一.选择题 (10小题,每小题 6 分,共60分)
- 分布中位数小于平均数, 则一般来说, 该分布( ).
A. 左偏
B. 右偏
C. 正偏
D. 无偏
Solution: B.
- 当一组数据呈对称分布时,在平均数加减 2 个标准差的范围之内大约有 ( ) 的数据.
A.
B.
C.
D.
Solution: B
利用标准正态分布来估计, .
- 抽样推断的精确度与抽样误差的关系是( ).
A. 前者提高说明后者变小
B. 前者提高说明后者变大
C. 前者提高说明后者不变
D. 没有关系
Solution: A. 要求的精确度越高, 说明置信区间越短, 抽样误差越小.
- 假设独立随机变量 服从同一名称的概率分布(二者的分布参数末必相同)。且 也服从 同一名称的概率分布。则 不可能服从()
(A) 二项分布
(B) 泊松分布
(C) 正态分布
(D) 指数分布
Solution: D
两个独立的随机变量服从二项分布、泊松分布或者正态分布时,他们的和也 服从于该随机变量的概率分布, 而若 服从指数分布时,他们的和不一定服从 指数分布. 例如: 服从参数为 的指数分布服从 服从 不服从指数分布. 选项 D 错误
- 设 , 则 的分布是 ()
(A)
(B)
(C)
(D)不能确定
Solution: D
的独立性未知, 无法判断 的分布, 因此本题选 D.
- 设 是来自正态总体 的一个样本,设 是来自正态总体 的一个样 本,且 与 相互独立,已知 ,通过查表可知 . 则方差之比 的置信区间为( ).
A.
B.
C.
D.
Solution: B
注意这里用的应是上分位数, 根据F分布的对称性, 置信区间应为
- 设总体分布为参数为 2 的指数分布 (密度函数概率密度函数: )。现分别有来自总体的容量 分别为 200 和 400 的两独立样本, 则此两样本均值之差的绝对值大于 的概率大约是 ()
(A)
(B)
(C)
(D)
Solution: D
参数为 2 的指数分布的概率密度函数: , 其期望与方差为:
另 分别表示样本容量为 的样本均值有:
由中心极限定理:
所以有:
选项 D 正确
- 下面哪个选项不是随机事件 相互独立的充要条件 ( )
(A)
(B)
(C)
(D)
Solution: D
与 相互独立有
选项 A:
选项 :
由选项 A 可知它是相互独立的充分必要条件
选项 C:由独立的定义显然成立
选项 :
若 独立, 上式化简得到: , 不恒成立. 故选项 错误
- 为来自正态分布 的简单随机样本。记 为标准正态分布的 分位数, 则由 此样本所构造的置信水平分别为 与 的双侧置信区间长度之比为()
(A)
(B)
(C)
(D)
Solution: B
依题意得 , 所以令 可得置信区间的长度为:
因此 与 双侧置信区间长度之比为 . 选项 B 正确
- 设 为来自均值为 0 , 方差为 的总体的简单随机样本, 令 , 则下列说法正确的是 ()
(A) 是 的最大似然估计
(B) 是 的最大似然估计
(C) 是 的无偏估计
(D) 是 的无偏估计
Solution: D
题目没有给出总体的概率密度函数, 无法求出 的最大似然估计, 选项 、 B 错误.
, 选项 错误.
, 故选项 D 正确.
二、简答题
- 总体 , 已知, 样本量为 . 总体 , 样本量为 . 两组样本独立.
(1) 写出 的 置信区间;
(2) 写出 的 置信区间;
(3) 若 , 写出 的 置信区间.
Solution: (1) 方差已知, 用枢轴量
置信区间是
(2) 方差未知, 用枢轴量
置信区间是
(3) 由于 已知, 故有
枢轴量为
因此置信区间为
- 建立多元回归模型时,为什么需要进行变量选择? 并阐述向前选择法的步骤.
Solution:
因变量可能会由多个自变量决定。但是具体由多少个自变量决定是不清楚的, 所以我们需要通过变量选择,判断这个具体的自变量个数. 另外有的时候若自变量之间存在相关性(多重共线性问题), 将会导致估计量不有效或不唯一, 这时候也需要进行变量选择. 以及为了防止过多的加入无用变量导致过拟合, 我们也需要进行变量选择.
向前选择的步骤:
1.对k个自变量分别拟合对因变量y的一元线性回归模型,即得到k个一元线性回归模型,然后找出F统计量值最高的模型及对应的变量 ,并将该自变量首先引入模型中。在此过程中,需要注意的是:如果所有模型的F统计量均未通过检验,说明所搜集的自变量与因变量之间均为不显著,说明模型构建不适合,应当考虑换其他模型,本方法的运算过程也就终止了.
2.在已经引入的模型上,分别引入剩余的k-1个自变量,分别得到k-1个二元线性回归模型,即变量组合为k-1个二元线性回归模型,继而得到k-1个新的F统计量,并从中找出F统计量的值为最高的模型,此时,该模型中含有两个自变量,新增加的自变量即为经过筛选出来的应当引入模型的自变量。同样地,如果在此过程中,没有F统计量通过检验,则运算终止。
3.按照第二步的筛选方法,不断引入新的自变量,直到引入的新的自变量也不能使得残差平方和(SSE)显著减少为止(F统计量均为通过检验)。向前选择法就是这样一个不断引入新变量,进行F统计量检验的过程。
- 随机变量 独立同分布,且 ,则当 时, 服从什么分布,并说明概率密度函数的形态变化.
Solution:
由于 是独立同分布的, 且其数学期望存在 , 那么根据大数定律, 有 .
另外, , 那么根据中心极限定理, 有 .
当 增大时, 的密度函数将会越来越聚集于一点.
- 考虑一元线性回归 , 给出数据 , 问什么 情况下可以使用极大似然估计求末知参数, 并且解释极大似然估计和最小二乘法的区别和联系。
Solution:
当如果随机误差项的分布已经知时, 可以写出似然函数, 这时候可以使用极大似然估计法.
最小二乘法在任何时候都可以使用, 它仅需求出使得残差平方和最小的参数值作为估计. 而如果随机误差项是独立同方差, 均值为 0 的正态分布时, 极大似然估计的结果与最小二乘估计的结果等价.
三. 计算题
- 作身高()与臂展()的一元线性回归: 总计有 个样本, 回归结果如下表
Coefficient | Estimate | Std. Error | t-stat | Pr(>|t|) |
---|---|---|---|---|
(Intercept) | 0.23835 | 1.91840 | 0.124 | 0.901 |
X | 0.99882 | 0.01096 | 91.142 | 0.000 |
(1) 写出参数估计表达式, 根据分析结果写出经验回归方程.
(2) 写出误差方差估计的表达式.
(3) 说明最后一列 Pr(>|t|) 的含义, 分别写出对应 , , 并给出假设检验结果.
Solution: (1) 线性回归 的参数估计表达式是
在回归表中, 结果是
(2) 误差方差的估计是 , 其中 是残差平方和, 即 .
(3) Pr(>|t|)是指系数是否为 0 的显著性检验的 值, 即假设检验问题
和
对应的 值. 这里 对应的 值为0.901, 不能拒绝原假设, 不显著. 这里 对应的 值为0.000, 拒绝原假设, 显著, 身高显著影响臂展.
- 一个不透明的箱子里有 个白球和 个红球, 个人不放回地抽球, 且 , 求第 个人抽到红球的概率.
【提示】: 类似茆书原题1.5.26, 1.5.27, 用数学归纳法. 这里我们用另外一种条件期望法做.
Solution: 设 表示第 个人抽球时盒中红球数量, 很显然
如果 已知, 则有
求得条件期望为
用重期望公式得
用递推式得到
代入得
四. 证明题
- 证明:
(1) ;
(2) .
Solution:
(1) 记事件 , . 则
因此根据概率的单调性有 , 再利用德摩根公式, 有
(2) 根据绝对值不等式, 有 , 因此 , 则
其中后面一个不等式用到了(1)的结论.