上海交通大学-432统计学-2021年

一.选择题 (30小题,每小题 2 分,共60分)

  1. 为调查全国疫情情况,调查组先从全国所有省份中随机抽取了八个省份,再对每个省份中的所有单位进行调查,这种抽样方法属于().
    A.分层抽样
    B.系统抽样
    C.整群抽样
    D.方便抽样

  1. 当一组数据呈对称分布时,在平均数加减 2 个标准差的范围之内大约有()的数据.
    A. 68%68 \%
    B. 95%95 \%
    C. 99.7%99.7 \%
    D. 89%89 \%

  1. 为调查群众戴口罩的频率, 调查者采用问卷调查, 问卷中的一个问题为"您戴口罩的频繁吗?", 选项为“从来不戴”、“极少戴”、“偶尔戴”、“经常戴”. 这一调查包含的误差类型是( )
    A.记忆误差
    B.理解误差
    C.无回答误差
    D.有意识误差

  1. 某奶粉生产企业欲了解消费者对奶粉成分的需求,选译调亘对奶粉购买力高、对奶粉成分有更高要求的年轻母亲,这种抽样方法属于( ).
    A.随机抽样
    B.方便抽样
    C.重点抽样
    D.代表抽样

  1. 在多元线性回归的线性关系检验与回归系数检验中,若 FF 检验不通过,则某个系数的 tt 检验 ().
    A.可能通过也可能不通过
    B.也不通过
    C.一定通过
    D.以上都不正确

  1. 计算机辅助电话调查的特点是 ().
    A.可以利用有形辅助物
    B.调查过程难以控制
    C.问卷难度可以复杂
    D.调查速度快

  1. 区间估计中 95%95 \% 的置信水平是指 ( ).
    A.总体参数落在一个特定的样本所构造的区间内的概率为 95%95 \%
    B.总体参数落在一个特定的样本所构造的区间内的概率为 5%5 \%
    C.在用同样方法构造的总体参数的多个区间中,包含总体参数的区间比例为 95%95 \%
    D.在用同样方法构造的总体参数的多个区间中,包含总体参数的区间比例为 5%5 \%

  1. 假设检验中使用 pp 值进行决策的优势是 () .
    A.可以精确地反映诀策的风险度
    B.手工计算简便
    C.进行决策的界限清晰
    D.以上都不正确

  1. X1,X2,Xn1X_1, X_2, \ldots X_{n_1} 是来自正态总体 N(μ1,σ12)N\left(\mu_1, \sigma_1^2\right) 的一个样本,设 Y1,Y2,,Yn2Y_1, Y_2, \ldots, Y_{n_2} 是来自正态总体 N(μ2,σ22)N\left(\mu_2, \sigma_2^2\right) 的一个样 本,且 Xi(i=1,2,3,,n1)X_i\left(i=1,2,3, \ldots, n_1\right)Yi(i=1,2,3,..,n2)Y_i\left(i=1,2,3, . ., n_2\right) 相互独立,已知 n1n2S12S22n_1 、 n_2 、 S_1^2 、 S_2^2 ,通过查表可知 Fα/2(n1,n2)Fα/2(n2,n1)Fα/2(n11,n21)Fα/2(n21,n11)F_{\alpha / 2}\left(n_1, n_2\right) 、 F_{\alpha / 2}\left(n_2, n_1\right) 、 F_{\alpha / 2}\left(n_1-1, n_2-1\right) 、 F_{\alpha / 2}\left(n_2-1, n_1-1\right) . 则方差之比 σ12/σ22\sigma_1^2 / \sigma_2^2 的置信区间为( ).
    A. S12/S22Fα/2(n1,n2)σ12σ22S12S22Fα/2(n2,n1)\frac{S_1^2 / S_2^2}{F_{\alpha / 2}\left(n_1, n_2\right)} \leq \frac{\sigma_1^2}{\sigma_2^2} \leq \frac{S_1^2}{S_2^2} F_{\alpha / 2}\left(n_2, n_1\right)
    B. S12/S22Fα/2(n11,n21)σ12σ22S12S22Fα/2(n21,n11)\frac{S_1^2 / S_2^2}{F_{\alpha / 2}\left(n_1-1, n_2-1\right)} \leq \frac{\sigma_1^2}{\sigma_2^2} \leq \frac{S_1^2}{S_2^2} F_{\alpha / 2}\left(n_2-1, n_1-1\right)
    C. S12/S22Fα/2(n1,n2)σ12σ22S12/S22Fα/2(n2,n1)\frac{S_1^2 / S_2^2}{F_{\alpha / 2}\left(n_1, n_2\right)} \leq \frac{\sigma_1^2}{\sigma_2^2} \leq \frac{S_1^2 / S_2^2}{F_{\alpha / 2}\left(n_2, n_1\right)}
    D. S12/S22Fα/2(n11,n21)σ12σ22S12/S22Fα/2(n21,n11)\frac{S_1^2 / S_2^2}{F_{\alpha / 2}\left(n_1-1, n_2-1\right)} \leq \frac{\sigma_1^2}{\sigma_2^2} \leq \frac{S_1^2 / S_2^2}{F_{\alpha / 2}\left(n_2-1, n_1-1\right)}

  1. 多变量数据的图示中,用于展示三个变量之间关系的是().
    A.散点图
    B.气泡图
    C.雷达图
    D.饼图

  1. 在假设检验中,不拒绝原假设意味着().
    A.原假设肯定是正确的
    B.原假设肯定是错误的
    C.没有证据证明原假设是正确的
    D.没有证据证明原假设是错误的

  1. 随机变量 X1X2X3X4X_1 、 X_2 、 X_3 、 X_4 独立同分布于正态分布 N(2,σ2)N\left(2, \sigma^2\right) ,则 (X1X2)2(X3+X44)2\frac{\left(X_1-X_2\right)^2}{\left(X_3+X_4-4\right)^2} 服从于 ().
    A. F(1,1)F(1,1)
    B. F(2,2)F(2,2)
    C. t(1)t(1)
    D. t(2)t(2)

  1. nn 个球随机放入 NN 个箱子内 (nN)(n \leq N) ,每个球放入各个箱子的概率相等,则每个箱子至多有一个球的概率为 () .
    A. ANnNn\frac{A_N^n}{N^n}
    B. ANnnN\frac{A_N^n}{n^N}
    C. CNmNn\frac{C_N^m}{N^n}
    D. CNnnN\frac{C_N^n}{n^N}

  1. X1X2X3X4X_1 、 X_2 、 X_3 、 X 4 是来自总体 XX 的样本, EX=μE X=\mu 则() 是 μ\mu 的最有效估计.
    A. μ^1=15x1+15x2+15x3+25x4\hat{\mu}_1=\frac{1}{5} x_1+\frac{1}{5} x_2+\frac{1}{5} x_3+\frac{2}{5} x_4
    B. μ^2=13x1+13x2+16x3+16x4\hat{\mu}_2=\frac{1}{3} x_1+\frac{1}{3} x_2+\frac{1}{6} x_3+\frac{1}{6} x_4
    C. μ^3=14x1+14x2+14x3+14x4\hat{\mu}_3=\frac{1}{4} x_1+\frac{1}{4} x_2+\frac{1}{4} x_3+\frac{1}{4} x_4
    D. μ^4=19x1+29x2+39x3+49x4\hat{\mu}_4=\frac{1}{9} x_1+\frac{2}{9} x_2+\frac{3}{9} x_3+\frac{4}{9} x_4

  1. 下列情况中,可能存在多重共线性的是().
    A.某个自变量的方差扩大因子 VIFV I F 小于 10
    B.模型中各个自变量显著不相关
    C.回归系数的正负号与预期相同
    D.某个自变量的容忍度小于 0.10.1

  1. 多元线性回归中残差图的作用是().
    A.检验线性关系是否显著
    B.检验回归系数是否显著
    C.判断自变量之间是否存在多重共线性
    D.判断对误差项 ϵ\epsilon 的假定是否成立

  1. 时间序列中逐期环比值(也称环比发展速度)的几何平均数减1后的结果是().
    A.平均增长率
    B.环比增长率
    C.定基增长率
    D.年度化增长率

  1. 如果一组数据分布的偏态系数是 0.40.4 ,则表明(.
    A.该组数据呈右偏,且偏斜程度很高
    B.该组数据呈右偏,且偏斜程度不高
    C.该组数据呈左偏,且偏斜程度很高
    D.该组数据呈左偏,且偏斜程度不高

  1. 根据以往的生产统计,某种产品的合格率约为 90%90 \% ,现要求估计误差为 5%5 \% ,在 5%5 \% 的显著性水平下,应抽取 ( ) 个产品作为样本.
    A. 138
    B. 139
    C. 384
    D. 385

  1. 估计的回归方程为 y^=β^0+β^1x1+β^2x2+β^3x3\hat{y}=\hat{\beta}_0+\hat{\beta}_1 x_1+\hat{\beta}_2 x_2+\hat{\beta}_3 x_3 ,其中在 5%5 \% 的显著度下, β^1β^2\hat{\beta}_1 、 \hat{\beta}_2 未通过 tt 检验, β^3\hat{\beta}_3 通过了 tt 检验,则在 5%5 \% 下我们可以认为().
    A. β1,β2=0;β30\beta_1, \beta_2=0 ; \beta_3 \neq 0
    B. β1,β20;β3=0\beta_1, \beta_2 \neq 0 ; \beta_3=0
    C. β1,β3=0;β20\beta_1, \beta_3=0 ; \beta_2 \neq 0
    D. $ \beta_2, \beta_3 \neq 0 ; \beta_1=0$

  1. 某企业准备用三种方法组装一种新的产品,为确定哪种方法每小时生产的产品数量最多,随机抽取了
    30 名工人,并指定每个人使用其中一种方法. 通过对每个工人生产的产品数进行方差分析得到下面的结果:
    方差分析表
来源 SSS S dfd f MSM S FF PP- $F $ crit
组间 aa cc 210 ff 0.2459460.245946 3.3541313.354131
组内 3836 dd ee - - -
总计 bb 29 - - - -

补全上面的方差分析表 ( ).
A. $ a=420, b=4256, c=2, d=27, e=142.07, f-1.478$
B. a=630,b=4466,c=3,d=26,e=147.54,f=1.423a=630, b=4466, c=3, d=26, e=147.54, f=1.423
C. a=420,b=4256,c=2,d=27,e=142.07,f=0.099a=420, b=4256, c=2, d=27, e=142.07, f=0.099
D. a=630,b=4466,c=3,d=26,e=147.54,f=0.164a=630, b=4466, c=3, d=26, e=147.54, f=0.164


  1. 关于方差分析中的多重比较方法中的最小显著差异 (LSD) 方法下列说法错误的是 ().
    A. LSDL S D 方法用于当自变量对因变量有显著影响时的进一步分析
    B. LSDL S D 方法通过两两配对来进一步检验哪些总体的方差之间有显著差异
    C. LSDL S D 方法的原假设通常为 H0:μi=μjH_0: \mu_i=\mu_j
    D. LSD=tα/2MSE(1ni+1nj)L S D=t_{\alpha / 2} \sqrt{M S E\left(\frac{1}{n_i}+\frac{1}{n_j}\right)}

  1. 下列关于调整的多重判定系数 Rα2R_\alpha^2 说法错误的是().
    AA 、是度量多元回归方程拟合程度的一个统计量
    B.相比较多重判定系数 R2R^2 ,可剔除变量个数对拟合优度的影响
    C. Rα2R_\alpha^2 的值不一定小于 R2R^2 的值
    D. Rα2R_\alpha^2 的值不会由于模型中自变量的个数的增加而越来越接近1

  1. 利用估计的回归方程进行区间估计时,关于平均值的置信区间和个别值预测区间,下面说法正确的是 ().
    A.置信区间比预测区间宽
    B.预测区间比置信区间宽
    C.二者一样宽
    D.不一定

  1. 在使用指数平滑法进行预测时,如果时间序列有较大的随机波动,则平滑系数α\alpha的取值().
    A.应该小些
    B.应该大些
    C.应该等于 0
    D.应该等于1

  1. 在比较计量单位不同的两组数据离散程度时,应该使用().
    A.离散系数
    B.标准差
    C.平均差
    D.全距

  1. 已知随机变量 X=12+12π0Yet22dt,XU(0,1)X=\frac{1}{2}+\frac{1}{\sqrt{2 \pi}} \int_0^Y e^{-\frac{t^2}{2}} d t, X \sim U(0,1) ,其中 YY 是一个连续型随机变量,则随机变量 YY 的概率 密度函数 g(y)g(y) 为 () .
    A. 12+12π0Yet22dt\frac{1}{2}+\frac{1}{\sqrt{2 \pi}} \int_0^Y e^{-\frac{t^2}{2}} d t
    B. 12πey22\frac{1}{\sqrt{2 \pi}} e \frac{y^2}{2}
    C. 1π(1+x2)\frac{1}{\pi\left(1+x^2\right)} \mid
    D. 12π+x2z\frac{1}{2 \pi+\frac{x^2}{z}}

  1. 随机变量 X,YX, Y 相互独立且均服从于标准正态分布,则随机变量 X/YX / Y 的概率密度函数为 () .
    A. 12+12π0Yet22dt\frac{1}{2}+\frac{1}{\sqrt{2 \pi}} \int_0^Y e-\frac{t^2}{2} d t
    B. 12πey22\frac{1}{\sqrt{2 \pi}} e \frac{y^2}{2}
    C. 1n(1+x2)\frac{1}{n\left(1+x^2\right)}
    D. 12π+x2z\frac{1}{2 \pi+\frac{x^2}{z}}

  1. ξ,ηU(0,1)\xi, \eta \sim U(0,1) 且相互独立, X1=min(ξ,η),X2=max(ξ,η)X_1=\min (\xi, \eta), X_2=\max (\xi, \eta) ,则 X1,X2X_1, X_2 的联合密度函数为().
    A. f(x1,x2)=2I{0<x1x2<1}f\left(x_1, x_2\right)=2 I_{\left\{0<x_1 \leq x_2<1\right\}}
    B. f(x1,x2)=I{0<x1x2<1}f\left(x_1, x_2\right)=I_{\{0<x 1 \leq x 2<1\}}
    C. f(x1,x2)=I{0<x1<1,0<x2<1}f\left(x_1, x_2\right)=I_{\left\{0<x_1<1,0<x_2<1\right\}}
    D. 以上都不正确

  1. 某一商场 30 分钟内到达的人数服从参数为 6 的泊松分布,则 10 分钟内来商场的人数等于 3 的概率为().
    A. 43e2\frac{4}{3} e^{-2}
    B. 699!e6\frac{6^9}{9 !} e^{-6}
    C. 223e2\frac{22}{3} e^{-2}
    D. 163e2\frac{16}{3} e^{-2}

二、简答题

  1. 随机变量 X1,X2X_1, X_2 相互独立,且均服从于均值为 1 的指数分布,现有假设检验 H0:λ=1;H1:λ=0.1H_0: \lambda=1 ; H_1: \lambda=0.1 . 当拒绝域为 X1>3X_1>3 ,犯第一类错误和第二类错误的概率分别为 α1,β1\alpha_1, \beta_1 ; 当拒绝域为 Xˉ>3\bar{X}>3 ,其中 Xˉ=(X1+X2)/2\bar{X}=\left(X_1+X_2\right) / 2 ,犯第 一类错误和第二类错误的概率分别为 α2,β2\alpha_2, \beta_2 .
    (1) 求 α1β1\alpha_1 、 \beta_1
    (2) 求 α2\alpha_2
    (3) 说明随着样本量的增加 α1,β1,α2,β2\alpha_1, \beta_1, \alpha_2, \beta_2 怎样变化,以及 α2+β2=1\alpha_2+\beta_2=1 是否成立.

  1. 阐述季节指数的计算方法.


  2. 建立多元回归模型时,为什么需要进行变量选择? 并阐述向前选择法的步骤.


  1. 随机变量 Xi(i=1,2,3,,n)X_i(i=1,2,3, \ldots, n) 独立同分布,且 E(Xi)=1,E(Xi2)=2,E(Xi4)=8E\left(X_i\right)=1, E\left(X_i^2\right)=2, E\left(X_i^4\right)=8 ,则当 nn \rightarrow \infty 时, i1nXi2n\frac{\sum_{i-1}^n X_i^2}{n} 服从什么分布,并说明概率密度函数的形态变化.

三、计算题

  1. 为估计两种方法组装产品所需时间的差异, 分别对两种不同的组装方法随机安排12名工人, 每个工人独立组装一件产品所需的时间见下表:

 方法一 28.330.129.037.632.128.836.037.238.534.428.030.0 方法二 27.622.231.033.820.030.231.726.032.031.233.426.5\begin{array}{lllllll} \text { 方法一 } & 28.3 & 30.1 & 29.0 & 37.6 & 32.1 & 28.8 & 36.0 & 37.2 & 38.5 & 34.4 & 28.0 & 30.0 \\ \hline \text { 方法二 } & 27.6 & 22.2 & 31.0 & 33.8 & 20.0 & 30.2 & 31.7 & 26.0 & 32.0 & 31.2 & 33.4 & 26.5 \\ \end{array}

假定两种方法组装产品的时间服从正态分布,且方差相等.
(1) 试以95%的置信水平建立两种方法组装产品所需平均时间之差的置信区间 (α=0.05)(\alpha=0.05) ;
(2) 这两种方法组装产品所需时间有无显著差别? (α=0.05)(\alpha=0.05)


  1. 一家房地产评估公司想对某城市的房地产销售价格 (y)(y) 与地产评估价值 (x1)\left(x_1\right) 、房产评估价值 (x2)\left(x_2\right) 和使用面积 (x3)\left(x_3\right) 建 立一个模型,以便对销售价格进行合理预测. 为此,收集了15栋住宅的房地产评估数据,经回归得到下面的有关结果 (α=0.05)(\alpha=0.05)

dfSSMSFpvalue 回归 23363343.030.00 残差  总计 1475375973.33\begin{array}{|c|c|c|c|c|c|} \hline & d f & SS & M S & F & p-value \\ \hline \text { 回归 } & & & 23363343.03 & & 0.00 \\ \hline \text { 残差 } & & & & - & - \\ \hline \text { 总计 } & 14 & 75375973.33 & - & - & - \\ \hline \end{array}

 est.  std.error tpvalue 截距 207.9037617.04860.33690.7425x11.43780.56452.54720.0271x20.85450.26633.20910.0083x30.06260.06560.95380.3607\begin{array}{|c|c|c|c|c|} \hline & \text { est. } & \text { std.error } & t & p -v a l u e \\ \hline \text { 截距 } & 207.9037 & 617.0486 & 0.3369 & 0.7425 \\ \hline x_1 & 1.4378 & 0.5645 & 2.5472 & 0.0271 \\ \hline x_2 & 0.8545 & 0.2663 & 3.2091 & 0.0083 \\ \hline x_3 & 0.0626 & 0.0656 & 0.9538 & 0.3607 \\ \hline \end{array}

(1) 补全方差分析表,写出销售价格对地产评估价值、房产评估价值、使用面积的多元线性回归方程,并解释各回归系数的意义;
(2) 检验回归方程的线性关系是否显著; (α=0.05)(\alpha=0.05)
(3) 检验各回归系数是否显著; (α=0.05)(\alpha=0.05)
(4) 计算多重判定系数 R2R^2 ,并说明它的实际意义;
(5) 计算估计标准误差 SeS_e ,并说明它的实际意义


四. 证明题 (1小题, 共10分)

  1. 已知一列随机变量 X1,X2,..,Xn,..X_1, X_2, . ., X_n, . . 相互独立,且都服从 (0,1)(0,1) 上的均匀分布,令 N=min{N=\min \{ n1:X1+X2++Xn>x}\left.n \geq 1: X_1+X_2+\ldots+X_n>x\right\}, 其中x(0,1)x\in (0,1).
    (1) 证明 P(N>n)=xnn!P(N>n)=\frac{x^n}{n !};
    (2) 求 E(N)E(N) .