上海交通大学-432统计学-2023年

一、选择题

  1. 先在一个学校的所有班级中抽 10 个班级, 然后在这 10 个班级中的所有学生中抽 30%30 \%, 请问这属于什么抽样()
    A. 整群抽样
    B. 多阶段抽样
    C. 简单随机抽样
    D. 配额抽样

  1. 现有三个汽车厂商在江苏和浙江的销量数据, 如果想要比较他们的销售结构, 用下列哪种图来进行展示最合适 ( )
    A. 雷达图
    B. 复式饼图
    C. 环形图
    D. 帕累托图

  1. 一组数据的下四分位数是 20, 上四分位数是 30, 现已知某个数据是 61, 请问它属于以下哪种类型? ( )
    A. 极端点
    B. 离群点
    C. 异常值
    D. 最大点
    【解析】 A\mathrm{A}, 考祭离群点和极端点的定义。上下分位数 +1.5QR+-1.5 * \mid \mathrm{QR} 外是离群点, 上下分位数 +31QR+-3 * 1 \mathrm{QR} 外是极端点, 在这里 IQR=10I Q R=10, 上分位数 +3QR=60<61+3 * \mid Q R=60<61, 因此选 A0A_0

  1. 对某所学校的学生进行抽样, 一种方法是按男女比例 6:46: 4 抽样, 另一种是按照文科理科比例 5:55: 5 抽样, 请问这属于什么抽样方法?( )
    A. 典型抽样
    B. 重点抽样
    C. 滚雪球抽样
    D. 配额抽样

  1. 一所大学准备采取一项学生在宿舍上网收费的措施, 为了解男女学生对这一措施的看法, 分别抽取了 150 名 男学生和 120 名女学生进行调查, 得到的结果如下:
男同学 女同学 合计
赞成 45 42 87
反对 105 78 183
合计 150 120 270

根据该列联表, 男女学生反对上网收费的期望频数分别为()
A. 48 和 39
B. 102 和 81
C. 15 和 14
D. 25 和 19


  1. 随机变量 XXYY 独立同分布, 分布列均为 P(X=k)=2k,k=1,2,3,{P}(X=k)=2^{-k}, k=1,2,3, \ldots, 则 P(XnY)=P(X \geq n Y) = ( )
    A. 22n+11\frac{2}{2^{n+1}-1}
    B. 22n1\frac{2}{2^{n}-1}
    C. 12\frac{1}{2}
    D. 12n+11\frac{1}{2^{n+1}-1}

  1. 随机变量 XXYY 相互独立, 分别服从参数为 λ1\lambda_1λ2\lambda_2 的指数分布, 则 X+YX+Y 的密度函数是 ( )

A. (λ1+λ2)e(λ1+λ2)z,z>0(\lambda_1 + \lambda_2) e^{-(\lambda_1 + \lambda_2)z}, z>0
B. λ1λ2λ2λ1(exp(λ1z)exp(λ2z)),z>0\frac{\lambda_1 \lambda_2}{\lambda_2-\lambda_1}\left(\exp \left(-\lambda_1 z\right)-\exp \left(-\lambda_2 z\right)\right), z>0
C. (λ1λ2)e(λ1λ2)z,z>0(\lambda_1 - \lambda_2) e^{-(\lambda_1 - \lambda_2)z}, z>0
D. (λ1λ2)e(λ1λ2)z,z>0(\lambda_1 \lambda_2) e^{-(\lambda_1 \lambda_2)z}, z>0


  1. θ^n\hat{\theta}_n 是参数 θ\theta 的一个估计量, 假设 θ^n\hat{\theta}_n 的期望与方差均存在, 且当样本量 nn 趋于无穷时, E[θ^n]θ{E}\left[\hat{\theta}_n\right] \rightarrow \theta, Var(θ^n)0{Var}\left(\hat{\theta}_n\right) \rightarrow 0, 则以下说法中, 错误的是 ( )
    A. θ^n\hat{\theta}_n 是参数 θ\theta 的一致估计量
    B. θ^n\hat{\theta}_n 依分布收敛到 θ\theta
    C. P(limn+θ^n=θ)=1{P}\left(\lim _{n \rightarrow+\infty} \hat{\theta}_n=\theta\right)=1
    D. limn+E[(θ^nθ)2]=0\lim _{n \rightarrow+\infty} {E}\left[\left(\hat{\theta}_n-\theta\right)^2\right]=0

  1. 对于正态总体的一组随机样本, 总体的方差 σ2\sigma^2 已知. 考虑假设检验问题: H0:μ=100H1:μ100H_0: \mu=100 \leftrightarrow H_1: \mu \neq 100. 现已知 μ\mu95%95 \% 置信区间是 [102.18,109.82][102.18,109.82], 则对于前面提到的假设检验问题, 基于该数据算得的 pp 值最有可能是 ( )
    A. 0.00130.0013
    B. 0.00260.0026
    C. 0.00520.0052
    D. 0.010.01

  1. 某电视台为统计收视率, 使用电话采访收集群众是否看过该电视台, 若要求 0.05 显著性水平下的误差不超过 10%10 \%, 则需要的最低样本量是 ( )
    A. 193
    B. 97
    C. 100
    D. 200

  1. 以下哪个分布不是指数族分布 ( )
    A. 二项分布
    B. 双参数指数分布
    C. 泊松分布
    D. 正态分布

  1. 有来自两点分布总体 b(1,θ)b(1, \theta) 的一组简单随机样本 X1,,XnX_1, \ldots, X_n, 则 θ\theta 的无偏估计的方差的 CR 下界是 ( )

A. θ(1θ)n\frac{\theta \left( 1-\theta \right)}{n}
B. θn\frac{\theta }{n}
C. θ(1θ){\theta \left( 1-\theta \right)}
D. 1θn\frac{1-\theta }{n}


  1. 某 4s 店声称其汽车达到了 10000 公里平均里程数的标准, 产检部门为检验他的说法是否属实, 应选取的备择假设是 ( )
    A. 平均里程数大于 10000 公里
    B. 平均里程数小于 10000 公里
    C. 平均里程数等于 10000 公里
    D. 平均里程数大于等于 10000 公里

  1. 某教授声称手术之后病人的胰岛素水平会降至 15 以下, 为了检验他的说法是否正确, 建立了假设检验问题 H0:μ15H0:μ<15H_0: \mu \geq 15 \leftrightarrow H_0: \mu<15, 现观测到经过手术后的 100 位病人的胰岛素水平并在 0.050.05 的显著性水平下拒绝了原假设, 则以下说法正确的是 ( )
    A. 没有充分的证据证明原假设错误
    B. 原假设的可信度小于 5%5 \%
    C. 正确接受备择假设的概率至少为 95%95 \%
    D. 正确接受备择假设的概率至少为 97.5%97.5 \%

  1. 含交互项的双因素方差分析,行因素有 rr 个水平,列因素有 mm 个水平,每组重复 kk 次,总共有 nn 个样本. 下面的方差分析表中 (I) (II) (III) 处的值缺失, 则缺失值 (III) 应该是 ( )
来源 df SS MS F
因素A 2 1.078 0.539 40.86
因素B 2 0.052 0.026 1.96
A:B (I) 0.689 (II) (III)
残差 18 0.238 0.013
总计 26 2.057

A. 26.5
B. 13.25
C. 8.33
D. 5.89


  1. 对一组数据建立三元线性回归,

y=β0+β1x1+β2x2+β3x3+εy=\beta_0+\beta_1 x_1+\beta_2 x_2+\beta_3 x_3+\varepsilon

其中只有 x1x_1 通过 tt 检验, 则以下说法中错误的是 ( )
A. 无需对整个模型进行线性检验
B. x2,x3x_2, x_3 不显著的原因可能是多重共线性造成的
C. 可以通过检验变量之间的相关系数来确定是否存在多重共线性
D. x2,x3x_2, x_3 可以舍弃, 因为系数不显著, 没有意义


  1. 随机变量 XN(0,σ2)X \sim N\left(0, \sigma^2\right), 则 Y=eXY=e^X 的概率密度函数是 ( )

A. 12πσexp((lny)22σ2)\frac{1}{\sqrt{2 \pi} \sigma} \exp \left(-\frac{(\ln y)^2}{2 \sigma^2}\right)
B. 12πσyexp(y22σ2)\frac{1}{\sqrt{2 \pi} \sigma y} \exp \left(-\frac{y^2}{2 \sigma^2}\right)
C. 12πσyexp((lny)22σ2)\frac{1}{\sqrt{2 \pi} \sigma y} \exp \left(-\frac{(\ln y)^2}{2 \sigma^2}\right)
D. 12πσyexp((lny)22)\frac{1}{\sqrt{2 \pi} \sigma y} \exp \left(-\frac{(\ln y)^2}{2}\right)


  1. 关于拟合优度 R2R^2 和调整拟合优度 Ra2R_a^2 的关系, 以下说法错误的是 ( )
    A. Ra2R_a^2 可能为负
    B. Ra2R_a^2 始终小于 R2R^2
    C. Ra2R_a^2 用样本量 nn 和自变量个数 kk 来进行调整后, 避免了引进不必要的自变量而高估 R2R^2
    D. 当自变量的个数越来越多的时候, Ra2R_a^2 取值会越来越接近 R2R^2

  1. 某时间序列数据存在 2 个拐点, 则用下列什么曲线来拟合更合适? ( )
    A. 二阶
    B. 三阶
    C. 指数曲线
    D. 一阶

  1. 以下哪一个指标不受时间序列平均水平和计量尺度的影响 ( )
    A. 平均误差
    B. 平均绝对误差
    C. 均方误差
    D. 平均相对误差

  1. 现有规模一大一小两家公司, 若想比较工资的离散程度, 可以采用以下哪个指标 ( )
    A. 方差
    B. 平均数
    C. 变异系数
    D. 异众比率

  1. 以下哪项是标准化残差图的作用 ( )
    A. 检验相关性和方差齐性
    B. 检验方差齐性和独立性
    C. 检验正态性和独立性
    D. 检验正态性和方差齐性

  1. 报税时候将数据报高, 属于以下哪类误差 ( )
    A. 有意识误差
    B. 无回答误差
    C. 理解误差
    D. 系统误差

  1. 面访式调查的缺点是 ( )
    A. 提高回答率
    B. 回答的质量难以控制
    C. 不能对数据摱集所花费的时间进行调解
    D. 成本较高

  1. 现有两条曲线, 曲线 A 的峰度系数是 2.5, 曲线 B 的峰度系数是是 3.5, 则 ( )
    A. 曲线 A 比曲线 B 略显陡峭
    B. 曲线 A 比曲线 B 陡峭许多
    C. 曲线 B 比曲线 A 略显陡峭
    D. 曲线 B 比曲线 A 陡峭许多

  1. 随机变量 (X,Y)N(0,0,σ12,σ22,ρ)(X, Y) \sim N\left(0,0, \sigma_1^2, \sigma_2^2, \rho\right), 则 ${E}[X \mid Y] = $ ( )
    A. YY
    B. 00
    C. ρσ1σ2Y\rho \frac{\sigma _1}{\sigma _2}Y
    D. σ1σ2Y\frac{\sigma _1}{\sigma _2}Y

  1. X1,,X20X_1, \ldots, X_{20} 是来自总体 N(μ,σ2)N\left(\mu, \sigma^2\right)的简单随机样本, 其中参数 μ\mu 已知, 则以下哪个是 σ2\sigma^2 的无偏的充分统计量 ( )
    A. i=120(Xiμ)220\frac{\sum_{i=1}^{20}\left(X_i-\mu\right)^2}{20}
    B. i=120(XiXˉ)220\frac{\sum_{i=1}^{20}\left(X_i-\bar{X}\right)^2}{20}
    C. i=119(Xiμ)219\frac{\sum_{i=1}^{19}\left(X_i-\mu\right)^2}{19}
    D. i=119(XiXˉ)219\frac{\sum_{i=1}^{19}\left(X_i-\bar{X}\right)^2}{19}

  1. 关于众数,说法正确的是()
    A. 一组数据肯定有一个众数
    B. 一组数据肯定不止一个众数
    C. 众数用于描述顺序型数据的集中趋势
    D. 众数用于描述分类型数据的集中趋势

  1. 在某公司进行的英语水平测试中, 新员工的平均得分是80分, 标准差是 5 分, 中 位数是85分, 则新员工得分的分布形状是 ( )
    A. 对称的
    B. 左偏的
    C. 右偏的
    D. 无法确定

  1. 当模型存在严重的多重共线性时, OLS 估计量将不具备 ( )
    A. 线性
    B. 无偏性
    C. 有效性
    D. 一致性

二、简答题

  1. 现有一组某互联网公司的薪资数据, 数据包括了: 程序员年龩 SS、工作年限 XX (年)、学历 EE ( 1:本科 2 :硕士 3: 博士), 试构建合适的线性模型来预测程序员的年薪, 并解释各系数的意义.

  1. 名词解释: 复合型序列。简述“移动平均趋势剔除法”的步骤, 以及所用的乘法模型公式, 用乘法模型公式表示分离季节成分。

  1. 随机变量 X1,X2 i.i.d. U(0,θ)X_1, X_2 \stackrel{\text { i.i.d. }}{\sim} U(0, \theta), 记 Y=max{X1,X2},Z=min{X1,X2}Y=\max \left\{X_1, X_2\right\} , Z=\min \left\{X_1, X_2\right\}.
    (1) 求 (Y,Z)(Y, Z) 的联合概率密度函数.
    (2)考虑假设检验问题:

H0:θ1H0:θ>1H_0: \theta \leq 1 \leftrightarrow H_0: \theta>1

以及拒绝域 W={(y,z):yz>0.9}W=\{(y, z): y z>0.9\}, 求该检验的势函数.


  1. 简单随机样本 X1,,XnX_1, \ldots, X_n 来自于标准正态总体 N(0,1)N(0,1), 试求 Yn=X12++Xn2nY_n=\sqrt{X_1^2+\ldots+X_n^2}-\sqrt{n} 的极限分布.

三、计算题

  1. 设简单随机样本 X1,,Xn i.i.d. N(μ,σ2)X_1, \ldots, X_n \stackrel{\text { i.i.d. }}{\sim} N\left(\mu, \sigma^2\right), 已知 (Xˉ,Sn)\left(\bar{X}, S_n\right)(μ,σ2)\left(\mu, \sigma^2\right) 的充分完备统计量, 其中

Xˉ=1ni=1nXi,Sn2=1n1i=1n(XiXˉ)2\bar{X}=\frac{1}{n} \sum_{i=1}^n X_i, \quad S_n^2=\frac{1}{n-1} \sum_{i=1}^n\left(X_i-\bar{X}\right)^2

(1) 求 μ,σ\mu, \sigma 的极大似然估计;
(2) 求 (Xˉ,Sn2)\left(\bar{X}, S_n^2\right) 的分布 (提示: χ2(m)\chi^2(m) 的密度函数为 fm(x)=(1/2)m2Γ(m/2)xm21ex2f_m(x)=\frac{(1 / 2)^{\frac{m}{2}}}{\Gamma(m / 2)} x^{\frac{m}{2}-1} e^{-\frac{x}{2}} );
(3) 由充分完备统计量求 μ+3σ\mu+3 \sigma 的 UMVUE;
(4) 由充分完备统计量求 μ2σ2\frac{\mu^2}{\sigma^2} 的 UMVUE.


  1. 考虑一元线性回归模型: yi=β0+β1xi+εiy_i=\beta_0+\beta_1 x_i+\varepsilon_i, 其中 yy 表示成年男性的身高或成年女性的身高乘以 1.081.08, xx 表示 父母亲的平均身高, 已有统计量 i=1nxi=1750,i=1nyi=1770,i=1n(xixˉ)(yiyˉ)=300\sum_{i=1}^n x_i=1750, \sum_{i=1}^n y_i=1770, \sum_{i=1}^n\left(x_i-\bar{x}\right)\left(y_i-\bar{y}\right)=300, i=1n(xixˉ)(xixˉ)=625,i=1n(yiyˉ)(yiyˉ)=400\sum_{i=1}^n\left(x_i-\bar{x}\right)\left(x_i-\bar{x}\right)=625, \sum_{i=1}^n\left(y_i-\bar{y}\right)\left(y_i-\bar{y}\right)=400 , 样本量 n=10n=10.
    (1) 求估计的回归方程;
    (2) 求决定系数 R2R^2 并解释其意义;
    (3) 已知某位家庭中, 父亲 190 cm190 \mathrm{~cm} 母亲 170 cm170 \mathrm{~cm}, 估计其儿女身高;
    (4) 对于假设检验问题: H0:β1=0.7H_0: \beta_1=0.7 v.s. H1:β10.7H_1: \beta_1 \ne 0.7, 试在 5%5 \% 的显著度下进行假设检验.

四. 证明题 (1小题, 共10分)

  1. 简单随机样本 U1,,UnU_1, \ldots, U_n 来自于均匀分布总体 U(0,1)U(0,1), 记 Tn=max1inUiT_n=\max _{1 \leq i \leq n} U_i, 则
    (1) 求 TnT_n 的分布函数
    (2) 证明 n(1Tn)LExp(1)n\left(1-T_n\right) \stackrel{L}{\rightarrow} {Exp}(1)