上海交通大学-432统计学-2022年

一、选择题

  1. 从一个 600 人的小区里抽住户,先按单元分,抽取若干单元的住户,再从抽取的若干个单元中,按完全随机的办法抽取 60 户,这种是什么抽样方法? ( )
    A. 整群抽样
    B. 分层抽样
    C. 系统抽样
    D. 多阶段抽样

  1. 进行一个调查,从一个老年人倶乐部入手,先调查几个老人,再让他们推荐其他人,再调查他们推荐的人,扩大调查范围,这种是什么抽样方法? ( )
    A. 方便抽样
    B. 判断抽样
    C. 滚雪球抽样
    D. 整群抽样

  1. 为研究两种稻谷的产量差异,分别种植了 10 个和 7 个样本,假设两种稻谷的产量分布为 N(μ1,σ12),N(μ2,σ22)N\left(\mu_1, \sigma_1^2\right), N\left(\mu_2, \sigma_2^2\right) ,计算样本可知: s12=4,s22=3s_1^2=4, s_2^2=3 ,求 σ12σ22\frac{\sigma_1^2}{\sigma_2^2}95%95 \% 置信区间()
    A. [34F0.975(6,9),34F0.025(6,9)]\left[\frac{3}{4} F_{0.975}(6,9), \frac{3}{4} F_{0.025}(6,9)\right]
    B. [34F0.975(7,10),34F0.025(7,10)]\left[\frac{3}{4} F_{0.975}(7,10), \frac{3}{4} F_{0.025}(7,10)\right]
    C. [43F0.975(6,9),43F0.025(6,9)]\left[\frac{4}{3} F_{0.975}(6,9), \frac{4}{3} F_{0.025}(6,9)\right]
    D. [43F0.975(7,10),43F0.025(7,10)]\left[\frac{4}{3} F_{0.975}(7,10), \frac{4}{3} F_{0.025}(7,10)\right]

  1. 若一个三元线性回归,线性关系检验显著, X1X_1 的回归系数检验显著,但 X2,X3X_2, X_3 的回归系数 t 检验不通过,则()
    A. 若使用 X1X2X_1 、 X_2 构建二元回归方程,则有可能 t\mathrm{t} 检验通过
    B. 若使用 X1X3X_1 、 X_3 构建二元回归方程,则不可能 t\mathrm{t} 检验通过
    C. 若使用 X2X3X_2 、 X_3 各自作为单独变量构建一元回归方程,则 t\mathrm{t} 检验一定不通过
    D. 若使用 X2X_2X3X_3 各自作为单独变量构建一元回归方程,则有可能 t\mathrm{t} 检验通过

  1. 一个机构对上交学生的 2021 年 9 月消费情况进行调查,但是只能收集到 2020 年 9 月的数据,该误差是什么误差? ( )
    A. 抽样框误差
    B. 无回答误差
    C. 回答误差
    D. 调查员误差

  1. 自填式问卷调查的弱点是什么? ( )
    A. 回收率低
    B. 成本太高
    C. 只适合结构复杂的问卷
    D. 调查周期短

  1. 一枚均匀的硬币,抛 20 次,求正面次数大于反面次数的概率 ( )
    A. 12\frac{1}{2}
    B. 12(1C20101220)\frac{1}{2}\left(1-C_{20}^{10} \frac{1}{2^{20}}\right)
    C. 12(1P20101220)\frac{1}{2}\left(1-P_{20}^{10} \frac{1}{2^{20}}\right)
    D. C20101220C_{20}^{10} \frac{1}{2^{20}}

  1. 某厂宣称自己的节能灯寿命大于 400 天,假设节能灯的寿命均值为 μ\mu ,则收货商验贷时应做的原假设,备择假设为()
    A. H0:μ<400H_0: \mu<400 v.s. H1:μ400H_1: \mu \geq 400
    B. H0:μ400H_0: \mu \geq 400 v.s. H1:μ<400H_1: \mu<400
    C. H0:μ>400H_0: \mu>400 v.s. H1:μ400H_1: \mu \leq 400
    D. H0:μ400H_0: \mu \leq 400 v.s. H1:μ>400H_1: \mu>400

  1. 比例估计,已知总体比率为 π\pi ,可接受的最大误差为 EE ,求样本量 nn 的公式 (()
    A. n=zα/22π(1π)En=\frac{z_{\alpha / 2}^2 \pi(1-\pi)}{E}
    B. n=zα/22π(1π)E2n=\frac{z_{\alpha / 2}^2 \pi(1-\pi)}{E^2}
    C. n=zα/2π(1π)E2n=\frac{z_{\alpha / 2} \pi(1-\pi)}{E^2}
    D. n=zα/2π(1π)En=\frac{z_{\alpha / 2} \pi(1-\pi)}{E}

  1. 希思罗机场声称自己是甲级机场,机构为了验证说法是否属实,进行假设检验,则设立的原假设为()
    A. 希思罗机场没有达到甲级机场的标准
    B. 希思罗机场达到了甲级机场的标准
    C. 希思罗机场的自我评级与机构评级一致
    D. 希思罗机场的自我评级与机构评级不一致

  1. X,YX, Y 相互独立, XP(μ),YP(λ)X \sim P\left(\mu \right), Y \sim P\left(\lambda \right) ,在 X+Y=n>kX+Y=n>k 的条件下,求 P(X=kX+Y=n)\mathbb{P}(X=k \mid X+Y=n)
    A. Cnkμkλnk(μ+λ)nC_{n}^{k}\frac{\mu ^k\lambda ^{n-k}}{\left( \mu +\lambda \right) ^n}
    B. Cnkλkμnk(μ+λ)nC_{n}^{k}\frac{\lambda ^k\mu ^{n-k}}{\left( \mu +\lambda \right) ^n}
    C. μkλnk(μ+λ)n\frac{\mu ^k\lambda ^{n-k}}{\left( \mu +\lambda \right) ^n}
    D. λkμnk(μ+λ)n\frac{\lambda ^k\mu ^{n-k}}{\left( \mu +\lambda \right) ^n}

  1. 一个月份或季度的季节指数指的是该月份或季度数值 ( )
    A. 占全年月份或季度数值总和的比率
    B. 占以往所有年份相应的月份或季度数值平均的比率
    C. 占全年月份或季度数值的平均数的比率
    D. 以上选项都不对

  1. 含交互项的双因素方差分析,行因素有 rr 个水平,列因素有 mm 个水平,每组重复 kk 次,总共有 nn 个样本. 下面的方差分析表中 (I) (II) (III) 处的值缺失, 则缺失值 (III) 应该是 ( )
来源 df SS MS F
因素A 2 1.078 0.539 40.86
因素B 2 0.052 0.026 1.96
A:B (I) 0.689 (II) (III)
残差 18 0.238 0.013
总计 26 2.057

A. 26.5
B. 13.25
C. 8.33
D. 5.89


  1. 95%95 \% 置信区间的含义()
    A. 一个特定样本算出的置信区间有 95%95 \% 的概率包含参数真值
    B. 一个特定样本算出的置信区间有 5%5 \% 的概率包含参数真值
    C. 100 个置信区间包含参数真值的个数大约为 95 个
    D. 100 个置信区间包含参数真值的个数大约为 5 个

  1. 箱线图显示: 众数<中位数<平均数,则该分布 (()
    A. 左偏
    B. 右偏
    C. 对称
    D. 无法判断

  1. 利用 p 值决策的优势 ( )
    A. p 值可以精确度量原假设和备则假设不一致的程度
    B. p 值反映拒绝真实一个原假设的风险度
    C. p 值有明确的决策界限
    D. p 值反映接受一个错误的原假设的风险度

  1. 设随机变量 XU(0,θ)θ^1=2ni=1nXi,θ^2=n+1nX(n)X \sim U(0, \theta) , \hat{\theta}_1=\frac{2}{n} \sum_{i=1}^n X_i, \hat{\theta}_2=\frac{n+1}{n} X_{(n)} ,则()
    A. θ^1\hat{\theta}_1θ^2\hat{\theta}_2 更有效
    B. θ^2\hat{\theta}_2θ^1\hat{\theta}_1 更有效
    C. θ^1\hat{\theta}_1θ^2\hat{\theta}_2 一样有效
    D. 因为两者的均值不同,所以无法进行比较

  1. 某含季节成分的数据是 84,季节指数为 1.2, 则消除季节指数的数据是()
    A. 70
    B. 84
    C. 100.8
    D. 100

  1. 假如新冠肺炎恵者,用医学影像分析确诊的概率为 pp ,没有得新冠肺炎但是确诊的概率为 q=p200q=\frac{p}{200} 。现在已知一个城市得新冠的概率为 xx ,如果一个人确诊了,那么 他得新冠的概率是多少 ( )
    A. 200x1+199x\frac{200 x}{1+199 x}
    B. 199x1+200x\frac{199 x}{1+200 x}
    C. 199200\frac{199}{200}
    D. 200201\frac{200}{201}

  1. XU(θ0.5,θ+0.5)X \sim U(\theta-0.5, \theta+0.5) ,关于 θ\theta 的极大似然估计,下列说法正确的是( )
    A. θ^=12(X(1)+X(n))\hat{\theta}=\frac{1}{2}\left(X_{(1)}+X_{(n)}\right)
    B. θ^=2X\hat{\theta}=\frac{2}{X}
    C. 极大似然估计不存在
    D. 极大似然估计不唯一

  1. 以下用哪种图表用来比较三个地区的销售情况最好?( )
    A. 直方图
    B. 气泡图
    C. 雷达图
    D. 环形图

  1. 以下哪些情况暗示回归模型可能存在多重共线性()
    A. 模型中两个自变量显著不相关
    B. 某个自变量容忍度小于 0.10.1
    C. 某个自变量 VIF 小 于 10
    D. F\mathrm{F} 检验通过,至少有一个 t\mathrm{t} 检验通过

  1. 多元回归中,用 Ra2R_a^2 的目的是 ( )
    A. 自动调整自变量个数对误差平方和的影响
    B. 自动调整自变量个数对回归平方和的影响
    C. 防止由于增加统计不显著的自变量而低估 R2R^2
    D. 防止由于增加统计不显著的自变量而高估 R2R^2

  1. 设随机变量 X1..X20X_1 . . X_{20} 独立同分布于一个正态分布 N(μ,σ2)N\left(\mu, \sigma^2\right) ,记 xˉ=119xi19,M2=i119(xixˉ)2\bar{x}=\frac{\sum_1^{19} x_i}{19}, M^2=\sum_{i-1}^{19}\left(x_i-\bar{x}\right)^2 ,则统计量 T=X20xˉM17110T=\frac{X_{20}-\bar{x}}{M} \sqrt{\frac{171}{10}} 服从什么分布? ( )
    A. F(1,18)F(1,18)
    B. F(1,19)F(1,19)
    C. t(18)t(18)
    D. t(19)t(19)

  1. 一个假设检验,如果在 α=0.05\alpha=0.05 的时候拒绝了 H0H_0 ,说明()
    A. 判断 H0H_0 为真, 错误的概率不超过 0.050.05
    B. 判断 H1H_1 为真, 错误的概率超过 0.950.95
    C. 判断 H0H_0 为假, 错误的概率不超过 0.050.05
    D. 判断 H1H_1 为真, 错误的概率不超过 0.950.95

  1. 设标准正态分布的超额峰度为 0 ,若一个分布的超额峰度为 0.5-0.5 ,则该分布为()
    A. 左偏分布
    B. 右偏分布
    C. 尖峰分布
    D. 扁平分布

  1. 双因素方差分析,相比较单因素方差分析有什么好处,是因为()
    A. 双因素方差分析的 pp 值一定比任一单因素方差分析中的 pp 值大
    B. 双因青方差分析的 pp 值一定比任一单因素方差分析中的 pp 值小
    C. 双因素方差分析的残差效应更大
    D. 双因素方差分析的联合效应更小

  1. 回归方程中的,相同置信水平下, y0y_0 的预测区间以及其平均值Ey0Ey_0的置信区间的关系是( )
    A. 平均值的置信区间更短
    B. 预测区间更短
    C. 平均值的置信上限严格大于预测上限
    D. 平均值的置信上限有可能大于预测上限

  1. 设连续型随机变量 X\mathrm{X} 的密度函数为 f(x)=λ2xexp{λx},x>0,λ>0YXf(x)=\lambda^2 x \exp \{-\lambda x\}, x>0, \lambda>0 , Y \mid X 服从 U(0,X)U(0, X), 则 E[XY=y]=\mathbb{E}[X \mid Y=y] = ( )
    A. λ+y\lambda + y
    B. 1λ+y\frac{1}{\lambda} + y
    C. λ\lambda
    D. yλy \lambda

  1. 在进行多元回归的F检验时, 如果接受原假设, 那么以下选项错误的是( )
    A. 任何一个自变量都不显著
    B. 回归方程的线性关系不显著
    C. 没有找到充分的理由推翻原假设
    D. 自变量和因变量之间不可能有非线性关系

二、简答题

  1. 设随机变量 XExp(λ1),YExp(λ2)X \sim \operatorname{Exp}\left(\lambda_1\right), Y \sim \operatorname{Exp}\left(\lambda_2\right) ,且 X,YX, Y 相互独立, H0:λ2λ1=1H1:λ2>λ1H_0: \frac{\lambda_2}{\lambda_1}=1 \quad H_1: \lambda_2>\lambda_1 ,取拒绝域 W={x>cy,c>0}W=\left\{x>c y, c>0\right\}
    (1) 求第一类错误概率 α\alpha (3分)
    (2) 求第二类错误 β\beta, 并求出 β\beta 上限的最小值 (3分)
    (3) α+β=1\alpha+\beta=1 是否成立 (2分)
    (4) 若要求 α<0.05\alpha<0.05, cc 应该满足什条件 (2分)

  1. 某种商品价格的4年环比增长率 G1,G2,G3,G4G_1, G_2, G_3, G_4
    (1) 求年平均增长率 .
    (2) (G1+1)(G2+1)(G3+1)(G4+1)1\left(G_1+1\right)\left(G_2+1\right)\left(G_3+1\right)\left(G_4+1\right)-1 表示哪种增长率,用来描述什么 ?
    (3) 增长率分析需要注意哪些问题.

  1. 非线性趋势曲线有哪些,写出他们的名称,用来描述何种趋势,写出趋势方程,用什么方法计算模型里的参数。

  1. 随机变量 XX 是大于 0 的连续型随机变量,lnX\ln X 的均值方差都存在, 设 X1,,XnX_1, \ldots, X_n 是来自总体 XX 的简单随机样本,试求 Yn=(X1X2Xn)1nY_n = \left( X_1X_2\cdots X_n \right) ^{\frac{1}{n}} 的渐近分布?

三、计算题

  1. 为估计两种肥料的差异,在土壤上分别使用两种不同的肥料各随机施肥10次,得到两组简单随机样本 X1,,X10;Y1,,Y10X_1, \ldots, X_{10} ; Y_1, \ldots, Y_{10}, 分别来自 N(μ1,σ12),N(μ2,σ22)xˉ=600,yˉ=570,S12=64009,S12=24009N\left(\mu_1, \sigma_1^2\right), N\left(\mu_2, \sigma_2^2\right) , \bar{x}=600, \bar{y}=570, S_1^2=\frac{6400}{9}, S_1^2=\frac{2400}{9}.
    (1) 假设 σ12=σ22\sigma_1^2=\sigma_2^2 ,求 μ1μ2\mu_1-\mu_2 的 95% 置信下限.
    (2) 在 α=5%\alpha=5 \% 的显著性水平下,试检验是否有 σ12=σ22\sigma_1^2=\sigma_2^2.

  1. 货车的运输时间 ( yy, 单位:小时) 与运输路程 ( xx, 单位: 英里) 有关,取 10 个样本,考虑运输时间与运输路程的一元回归模型. 给出下面一些统计量. 试解决以下问题:
    xˉ=i110xi10=80,yˉ=i110yi10=67,i=110(xixˉ)2=3441,i=110(yiyˉ)2=2533,i=110(xixˉ)(yiyˉ)=1079\bar{x}=\frac{\sum_{i-1}^{10} x_i}{10}=80, \bar{y}=\frac{\sum_{i-1}^{10} y_i}{10}=67, \sum_{i=1}^{10}\left(x_i-\bar{x}\right)^2=3441, \sum_{i=1}^{10}\left(y_i-\bar{y}\right)^2=2533, \sum_{i=1}^{10}\left(x_i-\bar{x}\right)\left(y_i-\bar{y}\right)=1079.
    (1) 补全方差分析表:
df SS MS F
回归
残差 15.3 -
总和 9 - -

(2) 设回归模型 Y=a+bx+ε,εN(0,σ22)Y=a+b x+\varepsilon, \varepsilon \sim N\left(0, \sigma_2^2\right) ,求 a^,b^\hat{a}, \hat{b} ,并说明 b^\hat{b} 的实际意义.
(3) 计算多重判定系数 R2R^2 ,并说明它的实际意义;
(4) 给定 α=0.01\alpha=0.01 ,判断线性关系是否显著;
(5) 在 α=0.05\alpha=0.05 的显著性水平下, 给定 x0=90x_0=90, 求 y0y_0 的预测区间.


四. 证明题 (1小题, 共10分)

  1. 定义连续型随机变量 X,YX, Y 的密度函数为 p(x)>0,q(x)>0p(x)>0, q(x)>0 ,且 X,YX, Y 的定义域 DD 相同,定义Kullback-Leibler散度: D(pq)=xDp(x)logp(x)q(x)dxD(p \| q)=\int_{x \in \mathbb{D}} p(x) \log \frac{p(x)}{q(x)} d x
    (1) 求证: D(pq)=xDp(x)logp(x)q(x)dx0D(p || q)=\int_{x \in \mathbb{D}} p(x) \log \frac{p(x)}{q(x)} d x \geq 0
    (2) 若 XN(0,1),YN(μ,σ2)X \sim N(0,1), Y \sim N\left(\mu, \sigma^2\right) ,求 D(XY)D(X \mid Y) ,并说明 σ\sigma 变化时, D(XY)D(X \mid Y) 的变化。