上海交通大学-432统计学-2023年

一、选择题

  1. 先在一个学校的所有班级中抽 10 个班级, 然后在这 10 个班级中的所有学生中抽 30%30 \%, 请问这属于什么抽样()
    A. 整群抽样
    B. 多阶段抽样
    C. 简单随机抽样
    D. 配额抽样

Solution: B

多阶段抽样是先将一个很大的总体划分为若干个子总体,即一阶单位,再把一阶单位划分为若干个更小的单位,称为二阶单位,照此继续下去划分出更小的单位,依次称为三阶单位、四阶单位等。然后分别按随机原则逐阶段抽样。

  1. 现有三个汽车厂商在江苏和浙江的销量数据, 如果想要比较他们的销售结构, 用下列哪种图来进行展示最合适 ( )
    A. 雷达图
    B. 复式饼图
    C. 环形图
    D. 帕累托图

Solution: C

只有两个数据, 不适合用雷达图展示, 应该用环形图.

  1. 一组数据的下四分位数是 20, 上四分位数是 30, 现已知某个数据是 61, 请问它属于以下哪种类型? ( )
    A. 极端点
    B. 离群点
    C. 异常值
    D. 最大点

Solution: A

此处上下四分位数差 IQR=3020=10IQR = 30 - 20 = 10, 超过四分位数 1.5 个 IQR, 即 <5 或 >45, 是离群点, 超过四分位数 3 个 IQR, 即 <-10 或 >60, 是极端点.

  1. 对某所学校的学生进行抽样, 一种方法是按男女比例 6:46: 4 抽样, 另一种是按照文科理科比例 5:55: 5 抽样, 请问这属于什么抽样方法?( )
    A. 典型抽样
    B. 重点抽样
    C. 滚雪球抽样
    D. 配额抽样

Solution: D

配额抽样也称“定额抽样”,是指调查人员将调查总体样本按一定标志分类,确定各类单位的样本数额,在配额内任意抽选样本的抽样方式。

  1. 一所大学准备采取一项学生在宿舍上网收费的措施, 为了解男女学生对这一措施的看法, 分别抽取了 150 名 男学生和 120 名女学生进行调查, 得到的结果如下:
男同学 女同学 合计
赞成 45 42 87
反对 105 78 183
合计 150 120 270

根据该列联表, 男女学生反对上网收费的期望频数分别为()
A. 48 和 39
B. 102 和 81
C. 15 和 14
D. 25 和 19

Solution: B

计算期望频数, 在列联表原假设下, 性别与是否反对是独立的, 则这里用边际分布的乘积即可

270150270183270=101.667,  270120270183270=81.3333270\cdot \frac{150}{270}\cdot \frac{183}{270}=101.667,\ \ 270\cdot \frac{120}{270}\cdot \frac{183}{270}=81.3333

  1. 随机变量 XXYY 独立同分布, 分布列均为 P(X=k)=2k,k=1,2,3,{P}(X=k)=2^{-k}, k=1,2,3, \ldots, 则 P(XnY)=P(X \geq n Y) = ( )
    A. 22n+11\frac{2}{2^{n+1}-1}
    B. 22n1\frac{2}{2^{n}-1}
    C. 12\frac{1}{2}
    D. 12n+11\frac{1}{2^{n+1}-1}

Solution:

由全概率公式, 有

P(XnY)=k=1P(Xnk)P(Y=k)=k=1(2kj=nk2j)=k=1(2k21nk)=k=121(n+1)k=22n+11\begin{aligned} P\left( X\ge nY \right) & =\sum_{k=1}^{\infty}{P\left( X\ge nk \right) P\left( Y=k \right)} \\ &=\sum_{k=1}^{\infty}{\left( 2^{-k}\sum_{j=nk}^{\infty}{2^{-j}} \right)} \\ &=\sum_{k=1}^{\infty}{\left( 2^{-k}\cdot 2^{1-nk} \right)} \\ &=\sum_{k=1}^{\infty}{2^{1-\left( n+1 \right) k}}=\frac{2}{2^{n+1}-1} \end{aligned}

  1. 随机变量 XXYY 相互独立, 分别服从参数为 λ1\lambda_1λ2\lambda_2 的指数分布, 则 X+YX+Y 的密度函数是 ( )

A. (λ1+λ2)e(λ1+λ2)z,z>0(\lambda_1 + \lambda_2) e^{-(\lambda_1 + \lambda_2)z}, z>0
B. λ1λ2λ2λ1(exp(λ1z)exp(λ2z)),z>0\frac{\lambda_1 \lambda_2}{\lambda_2-\lambda_1}\left(\exp \left(-\lambda_1 z\right)-\exp \left(-\lambda_2 z\right)\right), z>0
C. (λ1λ2)e(λ1λ2)z,z>0(\lambda_1 - \lambda_2) e^{-(\lambda_1 - \lambda_2)z}, z>0
D. (λ1λ2)e(λ1λ2)z,z>0(\lambda_1 \lambda_2) e^{-(\lambda_1 \lambda_2)z}, z>0

Solution: B

Z=X+YZ=X+Y, 则

FZ(z)=P(X+Yz)=0z0zyλ1λ2exp(λ1xλ2y)dxdy=0zλ2(1exp(λ1(zy)))exp(λ2y)dy=1exp(λ2z)λ2λ2λ1(exp(λ1z)exp(λ2z))\begin{aligned} F_Z(z) & = P(X+Y \leq z) \\ & =\int_0^z \int_0^{z-y} \lambda_1 \lambda_2 \exp \left(-\lambda_1 x-\lambda_2 y\right) d x d y \\ & =\int_0^z \lambda_2\left(1-\exp \left(-\lambda_1(z-y)\right)\right) \exp \left(-\lambda_2 y\right) d y \\ & =1-\exp \left(-\lambda_2 z\right)-\frac{\lambda_2}{\lambda_2-\lambda_1}\left(\exp \left(-\lambda_1 z\right)-\exp \left(-\lambda_2 z\right)\right) \end{aligned}

因此 ZZ 的密度函数是

f(z)=λ2exp(λ2z)λ2λ2λ1(λ2exp(λ2z)λ1exp(λ1z))=λ1λ2λ2λ1(exp(λ1z)exp(λ2z))\begin{aligned} f(z) & =\lambda_2 \exp \left(-\lambda_2 z\right)-\frac{\lambda_2}{\lambda_2-\lambda_1}\left(\lambda_2 \exp \left(-\lambda_2 z\right)-\lambda_1 \exp \left(-\lambda_1 z\right)\right) \\ & =\frac{\lambda_1 \lambda_2}{\lambda_2-\lambda_1}\left(\exp \left(-\lambda_1 z\right)-\exp \left(-\lambda_2 z\right)\right) \end{aligned}

  1. θ^n\hat{\theta}_n 是参数 θ\theta 的一个估计量, 假设 θ^n\hat{\theta}_n 的期望与方差均存在, 且当样本量 nn 趋于无穷时, E[θ^n]θ{E}\left[\hat{\theta}_n\right] \rightarrow \theta, Var(θ^n)0{Var}\left(\hat{\theta}_n\right) \rightarrow 0, 则以下说法中, 错误的是 ( )
    A. θ^n\hat{\theta}_n 是参数 θ\theta 的一致估计量
    B. θ^n\hat{\theta}_n 依分布收敛到 θ\theta
    C. P(limn+θ^n=θ)=1{P}\left(\lim _{n \rightarrow+\infty} \hat{\theta}_n=\theta\right)=1
    D. limn+E[(θ^nθ)2]=0\lim _{n \rightarrow+\infty} {E}\left[\left(\hat{\theta}_n-\theta\right)^2\right]=0

Solution: C

A 是经典结论, B 可由 A 推出, C 表示几乎处处收敛, 这不一定成立. D 是均方收敛, 而 MSE(θ^)=Var(θ^)+[Eθ^θ]2MSE\left( \hat{\theta} \right) =Var\left( \hat{\theta} \right) +\left[ E\hat{\theta}-\theta \right] ^2, 因此 D 也正确.

  1. 对于正态总体的一组随机样本, 总体的方差 σ2\sigma^2 已知. 考虑假设检验问题: H0:μ=100H1:μ100H_0: \mu=100 \leftrightarrow H_1: \mu \neq 100. 现已知 μ\mu95%95 \% 置信区间是 [102.18,109.82][102.18,109.82], 则对于前面提到的假设检验问题, 基于该数据算得的 pp 值最有可能是 ( )
    A. 0.00130.0013
    B. 0.00260.0026
    C. 0.00520.0052
    D. 0.010.01

Solution: B

题目给出的置信区间说明 样本均值 Xˉ=106\bar{X}=106, 半个置信区间的长度是 3.82=σnz0.9753.82=\frac{\sigma}{\sqrt{n}}z_{0.975}, 得 σn=3.821.96=1.9490\frac{\sigma}{\sqrt{n}}=\frac{3.82}{1.96}=1.9490. 据此计算得到 ZZ 统计量

Z=n(Xˉ100)σ=61.9490=3.0785Z=\frac{\sqrt{n}\left( \bar{X}-100 \right)}{\sigma}=\frac{6}{1.9490}=3.0785

pp 值是

P(Z3.0785)=1Φ(3.0785)+Φ(3.0785)0.0026P\left( \left| Z \right|\ge 3.0785 \right) =1-\Phi \left( 3.0785 \right) +\Phi \left( -3.0785 \right) \approx 0.0026

  1. 某电视台为统计收视率, 使用电话采访收集群众是否看过该电视台, 若要求 0.05 显著性水平下的误差不超过 10%10 \%, 则需要的最低样本量是 ( )
    A. 193
    B. 97
    C. 100
    D. 200

Solution: B

题目意为, 收视率为 π\pi, 用抽样收视率 Xˉ\bar{X} 来估计 π\pi, 试问需要多大的样本量, 才可以保证

P(Xˉπ0.1)0.05P\left( \left| \bar{X}-\pi \right|\ge 0.1 \right) \le 0.05

利用正态近似, n(Xˉπ)N(0,π(1π))\sqrt{n}\left( \bar{X}-\pi \right) \sim N\left( 0,\pi \left( 1-\pi \right) \right), 则

P(Xˉπ0.1)=P(n(Xˉπ)π(1π)n0.1π(1π))=0.05P\left( \left| \bar{X}-\pi \right|\ge 0.1 \right) =P\left( \left| \frac{\sqrt{n}\left( \bar{X}-\pi \right)}{\sqrt{\pi \left( 1-\pi \right)}} \right|\ge \frac{\sqrt{n}0.1}{\sqrt{\pi \left( 1-\pi \right)}} \right) =0.05

可近似解得 n0.1π(1π)=z0.025\frac{\sqrt{n}0.1}{\sqrt{\pi \left( 1-\pi \right)}}=z_{0.025}, 于是 n=100z0.0252π(1π)n=100\cdot z_{0.025}^{2}\pi \left( 1-\pi \right).

由于题目没有给出 π\pi 的大概数值, 则利用不等式 π(1π)14\pi \left( 1-\pi \right) \le \frac{1}{4}, 得 n=96.0365n = 96.0365. 考虑到 nn 是整数, 所以 nn 至少为 97.

  1. 以下哪个分布不是指数族分布 ( )
    A. 二项分布
    B. 双参数指数分布
    C. 泊松分布
    D. 正态分布

Solution: B

双参数指数分布的支撑集与参数有关, 因此不可能是指数族分布.

  1. 有来自两点分布总体 b(1,θ)b(1, \theta) 的一组简单随机样本 X1,,XnX_1, \ldots, X_n, 则 θ\theta 的无偏估计的方差的 CR 下界是 ( )

A. θ(1θ)n\frac{\theta \left( 1-\theta \right)}{n}
B. θn\frac{\theta }{n}
C. θ(1θ){\theta \left( 1-\theta \right)}
D. 1θn\frac{1-\theta }{n}

Solution: A

先计算 Fisher 信息量, I(θ)=E[2logf(X;θ)θ2]=1θ+11θ=1θ(1θ)I(\theta)=-{E}\left[\frac{\partial^2 \log f(X ; \theta)}{\partial \theta^2}\right]=\frac{1}{\theta}+\frac{1}{1-\theta} = \frac{1}{\theta(1-\theta)}.

则 C-R 下界是 1nI(θ)=θ(1θ)n\frac{1}{nI\left( \theta \right)}=\frac{\theta \left( 1-\theta \right)}{n}.

  1. 某 4s 店声称其汽车达到了 10000 公里平均里程数的标准, 产检部门为检验他的说法是否属实, 应选取的备择假设是 ( )
    A. 平均里程数大于 10000 公里
    B. 平均里程数小于 10000 公里
    C. 平均里程数等于 10000 公里
    D. 平均里程数大于等于 10000 公里

Solution: A

将想要检验的内容放在备择假设.

  1. 某教授声称手术之后病人的胰岛素水平会降至 15 以下, 为了检验他的说法是否正确, 建立了假设检验问题 H0:μ15H0:μ<15H_0: \mu \geq 15 \leftrightarrow H_0: \mu<15, 现观测到经过手术后的 100 位病人的胰岛素水平并在 0.050.05 的显著性水平下拒绝了原假设, 则以下说法正确的是 ( )
    A. 没有充分的证据证明原假设错误
    B. 原假设的可信度小于 5%5 \%
    C. 正确接受备择假设的概率至少为 95%95 \%
    D. 正确接受备择假设的概率至少为 97.5%97.5 \%

Solution: C

显著性水平衡量的是 “拒真” 概率, 则拒绝了正确原假设的概率至多为 0.050.05, 换句话说: 正确接受备择假设的概率至少为 95%95 \%.

  1. 含交互项的双因素方差分析,行因素有 rr 个水平,列因素有 mm 个水平,每组重复 kk 次,总共有 nn 个样本. 下面的方差分析表中 (I) (II) (III) 处的值缺失, 则缺失值 (III) 应该是 ( )
来源 df SS MS F
因素A 2 1.078 0.539 40.86
因素B 2 0.052 0.026 1.96
A:B (I) 0.689 (II) (III)
残差 18 0.238 0.013
总计 26 2.057

A. 26.5
B. 13.25
C. 8.33
D. 5.89

Solution: B

可以看出 r=m=3r = m = 3, 因此交互项的自由度应该是 dfA:B=(r1)(m1)=4df_{A:B} = (r-1)(m-1) = 4. 所以 MSA:B=SSA:BdfA:B=0.6894=0.1723MS_{A:B}=\frac{SS_{A:B}}{df_{A:B}}=\frac{0.689}{4}=0.1723, FA:B=MSA:BMSE=0.17230.013=13.25F_{A:B}=\frac{MS_{A:B}}{MSE}=\frac{0.1723}{0.013}=13.25.

  1. 对一组数据建立三元线性回归,

y=β0+β1x1+β2x2+β3x3+εy=\beta_0+\beta_1 x_1+\beta_2 x_2+\beta_3 x_3+\varepsilon

其中只有 x1x_1 通过 tt 检验, 则以下说法中错误的是 ( )
A. 无需对整个模型进行线性检验
B. x2,x3x_2, x_3 不显著的原因可能是多重共线性造成的
C. 可以通过检验变量之间的相关系数来确定是否存在多重共线性
D. x2,x3x_2, x_3 可以舍弃, 因为系数不显著, 没有意义

Solution: D

存在一个变量显著, 则 FF 检验必定通过, A 正确. BC说法正确. D 错误, 不应该直接舍弃, 可能的做法是先尝试舍弃其中一个变量.

  1. 随机变量 XN(0,σ2)X \sim N\left(0, \sigma^2\right), 则 Y=eXY=e^X 的概率密度函数是 ( )

A. 12πσexp((lny)22σ2)\frac{1}{\sqrt{2 \pi} \sigma} \exp \left(-\frac{(\ln y)^2}{2 \sigma^2}\right)
B. 12πσyexp(y22σ2)\frac{1}{\sqrt{2 \pi} \sigma y} \exp \left(-\frac{y^2}{2 \sigma^2}\right)
C. 12πσyexp((lny)22σ2)\frac{1}{\sqrt{2 \pi} \sigma y} \exp \left(-\frac{(\ln y)^2}{2 \sigma^2}\right)
D. 12πσyexp((lny)22)\frac{1}{\sqrt{2 \pi} \sigma y} \exp \left(-\frac{(\ln y)^2}{2}\right)

Solution: C

YY 是对数正态分布. 直接求其密度函数, 对任意 y>0y > 0, 则

fY(y)=1yfX(lny)=1y12πσ2e(lny)22σ2f_Y\left( y \right) =\left| \frac{1}{y} \right|\cdot f_X\left( \ln y \right) =\frac{1}{y}\frac{1}{\sqrt{2\pi \sigma ^2}}e^{-\frac{\left( \ln y \right) ^2}{2\sigma ^2}}

  1. 关于拟合优度 R2R^2 和调整拟合优度 Ra2R_a^2 的关系, 以下说法错误的是 ( )
    A. Ra2R_a^2 可能为负
    B. Ra2R_a^2 始终小于 R2R^2
    C. Ra2R_a^2 用样本量 nn 和自变量个数 kk 来进行调整后, 避免了引进不必要的自变量而高估 R2R^2
    D. 当自变量的个数越来越多的时候, Ra2R_a^2 取值会越来越接近 R2R^2

Solution: C

根据定义

Ra2=1(1R2)(n1)np1R_{a}^{2}=1-\frac{\left( 1-R^2 \right) \left( n-1 \right)}{n-p-1}

它可能是负数, 且显然小于 R2R^2, 故 AB 均正确. C 也正确. D 错误, 当样本量增大而变量数固定时, 二者越来越接近.

  1. 某时间序列数据存在 2 个拐点, 则用下列什么曲线来拟合更合适? ( )
    A. 二阶
    B. 三阶
    C. 指数曲线
    D. 一阶

Solution: B

三阶曲线有 2 个拐点.

  1. 以下哪一个指标不受时间序列平均水平和计量尺度的影响 ( )
    A. 平均误差
    B. 平均绝对误差
    C. 均方误差
    D. 平均相对误差

Solution: D

四个选项均不受平均水平的影响, 而相对误差可以去除数据尺度的影响.

  1. 现有规模一大一小两家公司, 若想比较工资的离散程度, 可以采用以下哪个指标 ( )
    A. 方差
    B. 平均数
    C. 变异系数
    D. 异众比率

Solution: C

变异系数不受量纲影响, 用于比较数据的离散程度.

  1. 以下哪项是标准化残差图的作用 ( )
    A. 检验相关性和方差齐性
    B. 检验方差齐性和独立性
    C. 检验正态性和独立性
    D. 检验正态性和方差齐性

Solution: D

标准化残差图主要检验模型假设是否成立, 即随机误差项是否方差相等. 更进一步也可以检验随机误差项的正态性.

  1. 报税时候将数据报高, 属于以下哪类误差 ( )
    A. 有意识误差
    B. 无回答误差
    C. 理解误差
    D. 系统误差

Solution: A

有意识误差,当调查的问题比较敏感,被调查者不愿意回答,迫于各种原因又必须回答时,可能就会提供一个不真实的数字。

而调查纳税情况时,被调查者往往高报,以表现自己没有漏税行为。

  1. 面访式调查的缺点是 ( )
    A. 提高回答率
    B. 回答的质量难以控制
    C. 不能对数据摱集所花费的时间进行调解
    D. 成本较高

Solution: D

  1. 现有两条曲线, 曲线 A 的峰度系数是 2.5, 曲线 B 的峰度系数是是 3.5, 则 ( )
    A. 曲线 A 比曲线 B 略显陡峭
    B. 曲线 A 比曲线 B 陡峭许多
    C. 曲线 B 比曲线 A 略显陡峭
    D. 曲线 B 比曲线 A 陡峭许多

Solution: D

峰度系数相差1, 陡峭程度相差较大, 且峰度系数越高越陡峭.

  1. 随机变量 (X,Y)N(0,0,σ12,σ22,ρ)(X, Y) \sim N\left(0,0, \sigma_1^2, \sigma_2^2, \rho\right), 则 E[XY]={E}[X \mid Y] = ( )
    A. YY
    B. 00
    C. ρσ1σ2Y\rho \frac{\sigma _1}{\sigma _2}Y
    D. σ1σ2Y\frac{\sigma _1}{\sigma _2}Y

Solution: C

直接根据多元正态分布的条件分布公式

XYN(ρσ1σ2Y,σ12(1ρ2))X\mid Y\sim N\left( \rho \frac{\sigma _1}{\sigma _2}Y,\sigma _{1}^{2}\left( 1-\rho ^2 \right) \right)

E(XY)=ρσ1σ2YE\left( X\mid Y \right) =\rho \frac{\sigma _1}{\sigma _2}Y.

  1. X1,,X20X_1, \ldots, X_{20} 是来自总体 N(μ,σ2)N\left(\mu, \sigma^2\right)的简单随机样本, 其中参数 μ\mu 已知, 则以下哪个是 σ2\sigma^2 的无偏的充分统计量 ( )
    A. i=120(Xiμ)220\frac{\sum_{i=1}^{20}\left(X_i-\mu\right)^2}{20}
    B. i=120(XiXˉ)220\frac{\sum_{i=1}^{20}\left(X_i-\bar{X}\right)^2}{20}
    C. i=119(Xiμ)219\frac{\sum_{i=1}^{19}\left(X_i-\mu\right)^2}{19}
    D. i=119(XiXˉ)219\frac{\sum_{i=1}^{19}\left(X_i-\bar{X}\right)^2}{19}

Solution: A

由于 A,C 已知, 那么根据因子分解定理 i=120(Xiμ)2\sum_{i=1}^{20}{\left( X_i-\mu \right) ^2}σ2\sigma^2 的充分统计量, 因此 B D 错误. C 不是无偏估计.

  1. 关于众数,说法正确的是()
    A. 一组数据肯定有一个众数
    B. 一组数据肯定不止一个众数
    C. 众数用于描述顺序型数据的集中趋势
    D. 众数用于描述分类型数据的集中趋势

Solution: A

当每一个数据出现的次数都相同时, 众数不存在.

  1. 在某公司进行的英语水平测试中, 新员工的平均得分是80分, 标准差是 5 分, 中 位数是85分, 则新员工得分的分布形状是 ( )
    A. 对称的
    B. 左偏的
    C. 右偏的
    D. 无法确定

Solution: B

平均值小于中位数, 说明是左偏的.

  1. 当模型存在严重的多重共线性时, OLS 估计量将不具备 ( )
    A. 线性
    B. 无偏性
    C. 有效性
    D. 一致性

Solution: C

严重多重共线性发生时, 设计矩阵接近奇异, 其逆矩阵特征值将非常大, 则估计量的方差会变大, 不再具有有效性.

二、简答题

  1. 现有一组某互联网公司的薪资数据, 数据包括了: 程序员年龩 SS、工作年限 XX (年)、学历 EE ( 1:本科 2 :硕士 3: 博士), 试构建合适的线性模型来预测程序员的年薪, 并解释各系数的意义.

Solution:
引入虚拟变量进行回归 (季节模型), 以本科为 baseline, 引入另外两个虚拟变量

E2i={1,i个员工是硕士,0,否则.,  E3i={1,i个员工是博士,0,否则.E_{2i}=\begin{cases} 1,& \text{第}i\text{个员工是硕士,}\\ 0,& \text{否则}.\\ \end{cases},\ \ E_{3i}=\begin{cases} 1,& \text{第}i\text{个员工是博士,}\\ 0,& \text{否则}.\\ \end{cases}

建立线性回归模型:

Yi=β0+β1Xi+β2E2i+β3E3i+εiY_i=\beta _0+\beta _1X_i+\beta _2E_{2i}+\beta _3E_{3i}+\varepsilon _i

其中 β0\beta_0 是截距项, β1\beta_1 表示每增加一年工作年限, 其薪资的平均增长. β2\beta_2 表示硕士学历相比本科学历的平均工资增长. β3\beta_3 表示博士学历相比本科学历的平均工资增长.

  1. 名词解释: 复合型序列。简述“移动平均趋势剔除法”的步骤, 以及所用的乘法模型公式, 用乘法模型公式表示分离季节成分。

Solution:
复合型序列是指含有趋势、季节、周期和随机成分的序列。对这类序列的预测方法通常是将时间序列的各个因素依次分解出来,然后再进行预测。

移动平均趋势剔除法:

a、计算移动平均值M
b、剔除原序列中的趋势成分,即用序列各项数据 Y 除以对应的移动平均值 M (乘法模型中分离各因素的影响)
c、消除不规则变动 I ,即求解各期季节指数 S
d、调整季节指数,即用季节指数的调整系数对所求季节指数进行归一化处理

乘法模型是

yt=TtStCtIty_t=T_t * S_t * C_t * I_t

其中T表示长期趋势,S表示季节变动,C表示循环变动,I表示不规则变动.

  1. 随机变量 X1,X2 i.i.d. U(0,θ)X_1, X_2 \stackrel{\text { i.i.d. }}{\sim} U(0, \theta), 记 Y=max{X1,X2},Z=min{X1,X2}Y=\max \left\{X_1, X_2\right\} , Z=\min \left\{X_1, X_2\right\}.
    (1) 求 (Y,Z)(Y, Z) 的联合概率密度函数.
    (2)考虑假设检验问题:

H0:θ1H0:θ>1H_0: \theta \leq 1 \leftrightarrow H_0: \theta>1

以及拒绝域 W={(y,z):yz>0.9}W=\{(y, z): y z>0.9\}, 求该检验的势函数.

Solution:

(1) 直接根据次序统计量的分布的结论, 有

f(y,z)=2θ2I{0zyθ}f(y, z)=\frac{2}{\theta^2} \mathrm{I}_{\{0 \leq z \leq y \leq \theta\}}

(2) 根据定义

ρ(θ)=P(YZ>0.9)=yz>0.9,0zyθ2θ2dydz\begin{aligned} \rho \left( \theta \right) & =P\left( YZ>0.9 \right) \\ & =\iint_{y z>0.9,0 \leq z \leq y \leq \theta} \frac{2}{\theta^2} d y d z \end{aligned}

θ(0,0.9)\theta \in(0, \sqrt{0.9}) 时, 被积区域是空集, 则ρ(θ)=0\rho(\theta)=0;

θ[0.9,+)\theta \in[\sqrt{0.9},+\infty) 时,

ρ(θ)=0.9θ0.9yy2θ2dydz=0.9θ2θ2(y0.9y)dy=11.8θ2lnθ0.9θ2+0.9ln0.9θ2\begin{aligned} \rho(\theta) & =\int_{\sqrt{0.9}}^\theta \int_{\frac{0.9}{y}}^y \frac{2}{\theta^2} d y d z \\ & =\int_{\sqrt{0.9}}^\theta \frac{2}{\theta^2}\left(y-\frac{0.9}{y}\right) d y \\ & =1-\frac{1.8}{\theta^2} \ln \theta-\frac{0.9}{\theta^2}+\frac{0.9 \ln 0.9}{\theta^2} \end{aligned}

  1. 简单随机样本 X1,,XnX_1, \ldots, X_n 来自于标准正态总体 N(0,1)N(0,1), 试求 Yn=X12++Xn2nY_n=\sqrt{X_1^2+\ldots+X_n^2}-\sqrt{n} 的极限分布.

Solution:

Zn=X12+X22+Xn2nZ_n=\frac{X_{1}^{2}+X_{2}^{2}+\cdots X_{n}^{2}}{n}, 则根据中心极限定理, 有

n(Zn1)dN(0,2)\sqrt{n}\left( Z_n-1 \right) \xrightarrow{d}N\left( 0,2 \right)

g(x)=xg(x) = \sqrt{x}, 则 g(1)=12g'(1) = \frac{1}{2}, 则根据 Delta 方法,

n(g(Zn)g(1))dN(0,2[g(1)]2)\sqrt{n}\left( g\left( Z_n \right) -g\left( 1 \right) \right) \xrightarrow{d}N\left( 0,2\cdot \left[ g'\left( 1 \right) \right] ^2 \right)

Yn=n(X12+X22+Xn2n1)dN(0,12)Y_n=\sqrt{n}\left( \sqrt{\frac{X_{1}^{2}+X_{2}^{2}+\cdots X_{n}^{2}}{n}}-1 \right) \xrightarrow{d}N\left( 0,\frac{1}{2} \right)

三、计算题

  1. 设简单随机样本 X1,,Xn i.i.d. N(μ,σ2)X_1, \ldots, X_n \stackrel{\text { i.i.d. }}{\sim} N\left(\mu, \sigma^2\right), 已知 (Xˉ,Sn)\left(\bar{X}, S_n\right)(μ,σ2)\left(\mu, \sigma^2\right) 的充分完备统计量, 其中

Xˉ=1ni=1nXi,Sn2=1n1i=1n(XiXˉ)2\bar{X}=\frac{1}{n} \sum_{i=1}^n X_i, \quad S_n^2=\frac{1}{n-1} \sum_{i=1}^n\left(X_i-\bar{X}\right)^2

(1) 求 μ,σ\mu, \sigma 的极大似然估计;
(2) 求 (Xˉ,Sn2)\left(\bar{X}, S_n^2\right) 的分布 (提示: χ2(m)\chi^2(m) 的密度函数为 fm(x)=(1/2)m2Γ(m/2)xm21ex2f_m(x)=\frac{(1 / 2)^{\frac{m}{2}}}{\Gamma(m / 2)} x^{\frac{m}{2}-1} e^{-\frac{x}{2}} );
(3) 由充分完备统计量求 μ+3σ\mu+3 \sigma 的 UMVUE;
(4) 由充分完备统计量求 μ2σ2\frac{\mu^2}{\sigma^2} 的 UMVUE.

Solution:

(1) 过程略去, (Xˉ,n1nSn2)\left( \bar{X},\frac{n-1}{n}S_{n}^{2} \right)(μ,σ2)\left(\mu, \sigma^2\right) 的MLE. 根据不变性, (Xˉ,n1nSn2)\left( \bar{X},\sqrt{\frac{n-1}{n}S_{n}^{2}} \right)(μ,σ)\left(\mu, \sigma \right) 的MLE

(2) 根据 Fisher 引理, XˉN(μ,σ2n)\bar{X}\sim N\left( \mu ,\frac{\sigma ^2}{n} \right), (n1)Sn2σ2χ2(n1)\frac{\left( n-1 \right) S_{n}^{2}}{\sigma ^2}\sim \chi ^2\left( n-1 \right) 且二者独立. 因此 (U,V)=(Xˉ,Sn2)\left( U,V \right) =\left( \bar{X},S_{n}^{2} \right) 的联合密度函数是

fU,V(u,v)=12πσ2nen(uμ)22σ2n1σ2(1/2)n12Γ(n12)(n1σ2v)n121en12σ2vf_{U,V}\left( u,v \right) =\frac{1}{\sqrt{2\pi \frac{\sigma ^2}{n}}}e^{-\frac{n\left( u-\mu \right) ^2}{2\sigma ^2}}\cdot \frac{n-1}{\sigma ^2}\frac{\left( 1/2 \right) ^{\frac{n-1}{2}}}{\Gamma \left( \frac{n-1}{2} \right)}\left( \frac{n-1}{\sigma ^2}v \right) ^{\frac{n-1}{2}-1}e^{-\frac{n-1}{2\sigma ^2}v}

(3) 根据 L-S 定理, 只需基于充分完备统计量求 μ+3σ\mu+3 \sigma 的无偏估计. 而 Xˉ\bar{X}μ\mu 的无偏估计. 而

E(n1σSn)=0+t12(1/2)n12Γ(n12)tn121et2dt=0+(1/2)n12Γ(n12)tn21et2dt=1Γ(n12)(1/2)120+(t2)n21et2d(t2)=2Γ(n2)Γ(n12),\begin{aligned} E\left( \frac{\sqrt{n-1}}{\sigma}S_n \right) &=\int_0^{+\infty}{t^{\frac{1}{2}}\frac{\left( 1/2 \right) ^{\frac{n-1}{2}}}{\Gamma \left( \frac{n-1}{2} \right)}t^{\frac{n-1}{2}-1}e^{-\frac{t}{2}}\text{d}t} \\ &=\int_0^{+\infty}{\frac{\left( 1/2 \right) ^{\frac{n-1}{2}}}{\Gamma \left( \frac{n-1}{2} \right)}t^{\frac{n}{2}-1}e^{-\frac{t}{2}}\text{d}t} \\ &=\frac{1}{\Gamma \left( \frac{n-1}{2} \right)}\left( 1/2 \right) ^{-\frac{1}{2}}\int_0^{+\infty}{\left( \frac{t}{2} \right) ^{\frac{n}{2}-1}e^{-\frac{t}{2}}\text{d}\left( \frac{t}{2} \right)} \\ &=\sqrt{2}\frac{\Gamma \left( \frac{n}{2} \right)}{\Gamma \left( \frac{n-1}{2} \right)}, \end{aligned}

E(Sn)=Γ(n2)Γ(n12)2n1σE\left( S_n \right) =\frac{\Gamma \left( \frac{n}{2} \right)}{\Gamma \left( \frac{n-1}{2} \right)}\sqrt{\frac{2}{n-1}}\sigma. 故 n12Γ(n12)Γ(n2)Sn\sqrt{\frac{n-1}{2}}\frac{\Gamma \left( \frac{n-1}{2} \right)}{\Gamma \left( \frac{n}{2} \right)}S_nσ\sigma 的无偏估计.

因此 T=Xˉ+3n12Γ(n12)Γ(n2)SnT=\bar{X}+3\sqrt{\frac{n-1}{2}}\frac{\Gamma \left( \frac{n-1}{2} \right)}{\Gamma \left( \frac{n}{2} \right)}S_nμ+3σ\mu + 3\sigma 的 UMVUE.

(4) 容易计算 E(Xˉ2)=μ2+σ2nE\left( \bar{X}^2 \right) =\mu ^2+\frac{\sigma ^2}{n}, 而

E(σ2(n1)Sn2)=0+1t(1/2)n12Γ(n12)tn121et2dt=12Γ(n12)0+(t2)n122et2d(t2)=Γ(n121)2Γ(n12)=12(n121)=1n3,\begin{aligned} E\left( \frac{\sigma ^2}{\left( n-1 \right) S_{n}^{2}} \right) &=\int_0^{+\infty}{\frac{1}{t}\frac{\left( 1/2 \right) ^{\frac{n-1}{2}}}{\Gamma \left( \frac{n-1}{2} \right)}t^{\frac{n-1}{2}-1}e^{-\frac{t}{2}}\text{d}t} \\ &=\frac{1}{2\Gamma \left( \frac{n-1}{2} \right)}\int_0^{+\infty}{\left( \frac{t}{2} \right) ^{\frac{n-1}{2}-2}e^{-\frac{t}{2}}\text{d}\left( \frac{t}{2} \right)} \\ &=\frac{\Gamma \left( \frac{n-1}{2}-1 \right)}{2\Gamma \left( \frac{n-1}{2} \right)}=\frac{1}{2\left( \frac{n-1}{2}-1 \right)}=\frac{1}{n-3}, \end{aligned}

E(n3(n1)Sn2)=1σ2E\left( \frac{n-3}{\left( n-1 \right) S_{n}^{2}} \right) =\frac{1}{\sigma ^2}. 则根据 Xˉ,Sn2\bar{X}, S_n^2 的独立性, 有

E(Xˉ2n3(n1)Sn2)=μ2σ2+1nE\left( \bar{X}^2\cdot \frac{n-3}{\left( n-1 \right) S_{n}^{2}} \right) =\frac{\mu ^2}{\sigma ^2}+\frac{1}{n}

综合以上, 有 Z=(n3)Xˉ2(n1)Sn21nZ=\frac{\left( n-3 \right) \bar{X}^2}{\left( n-1 \right) S_{n}^{2}}-\frac{1}{n}μ2σ2\frac{\mu^2}{\sigma^2} 的 UMVUE.

  1. 考虑一元线性回归模型: yi=β0+β1xi+εiy_i=\beta_0+\beta_1 x_i+\varepsilon_i, 其中 yy 表示成年男性的身高或成年女性的身高乘以 1.081.08, xx 表示 父母亲的平均身高, 已有统计量 i=1nxi=1750,i=1nyi=1770,i=1n(xixˉ)(yiyˉ)=300\sum_{i=1}^n x_i=1750, \sum_{i=1}^n y_i=1770, \sum_{i=1}^n\left(x_i-\bar{x}\right)\left(y_i-\bar{y}\right)=300, i=1n(xixˉ)(xixˉ)=625,i=1n(yiyˉ)(yiyˉ)=400\sum_{i=1}^n\left(x_i-\bar{x}\right)\left(x_i-\bar{x}\right)=625, \sum_{i=1}^n\left(y_i-\bar{y}\right)\left(y_i-\bar{y}\right)=400 , 样本量 n=10n=10.
    (1) 求估计的回归方程;
    (2) 求决定系数 R2R^2 并解释其意义;
    (3) 已知某位家庭中, 父亲 190 cm190 \mathrm{~cm} 母亲 170 cm170 \mathrm{~cm}, 估计其儿女身高;
    (4) 对于假设检验问题: H0:β1=0.7H_0: \beta_1=0.7 v.s. H1:β10.7H_1: \beta_1 \ne 0.7, 试在 5%5 \% 的显著度下进行假设检验.

Solution:

(1) 根据结论 β^1=lxylxx=300625=0.48\hat{\beta}_1=\frac{l_{xy}}{l_{xx}}=\frac{300}{625}=0.48, 以及 β^0=yˉβ^1xˉ=1770.48175=93\hat{\beta}_0=\bar{y}-\hat{\beta}_1\bar{x}=177-0.48\cdot 175=93, 则回归方程是

y^=93+0.48x\hat{y}=93+0.48x

(2) R2=lxy2lxxlyy=3002625400=0.36R^2=\frac{l_{xy}^{2}}{l_{xx}l_{yy}}=\frac{300^2}{625\cdot 400}=0.36, 这表示子女身高的变化有 36% 的部分可以由父母的平均身高来解释.

(3) 对于儿子: y^=93+0.48190+1702=179.4\hat{y}=93+0.48\cdot \frac{190+170}{2}=179.4,

对于女儿: y^=179.41.08=166.111\hat{y}=\frac{179.4}{1.08}=166.111.

(4) 注意到 R2=1SSESSTR^2=1-\frac{SSE}{SST}, 而 SST=lyySST=l_{yy}, 故

σ^2=SSEn2=(1R2)4008=0.644008=32\hat{\sigma}^2=\frac{SSE}{n-2}=\frac{\left( 1-R^2 \right) \cdot 400}{8}=\frac{0.64\cdot 400}{8}=32

β1^\hat{\beta_1} 的标准误差是

se(β^1)=1lxxσ^=32625=0.226se\left( \hat{\beta}_1 \right) =\frac{1}{\sqrt{l_{xx}}}\hat{\sigma}=\frac{\sqrt{32}}{\sqrt{625}}=0.226

故有 tt 统计量,

t=β^10.7se(β^1)=0.480.70.226=0.973t=\frac{\hat{\beta}_1-0.7}{se\left( \hat{\beta}_1 \right)}=\frac{0.48-0.7}{0.226}=-0.973

原假设成立时, 其分布是自由度为 88tt 分布 t(8)t(8). 因此检验的拒绝域是 W={tt0.975(8)}={t2.30}W=\left\{ \left| t \right|\ge t_{0.975}\left( 8 \right) \right\} =\left\{ \left| t \right|\ge 2.30 \right\}, 故不应拒绝原假设.

四. 证明题 (1小题, 共10分)

  1. 简单随机样本 U1,,UnU_1, \ldots, U_n 来自于均匀分布总体 U(0,1)U(0,1), 记 Tn=max1inUiT_n=\max _{1 \leq i \leq n} U_i, 则
    (1) 求 TnT_n 的分布函数
    (2) 证明 n(1Tn)LExp(1)n\left(1-T_n\right) \stackrel{L}{\rightarrow} {Exp}(1)

Solution:

(1) 对于 t[0,1]t \in [0,1], 有

FT(t)=P(Tnt)=P(X1t,,Xnt)=[P(X1t)]n=tn\begin{aligned} F_T\left( t \right) =P\left( T_n\le t \right) & =P\left( X_1\le t,\cdots ,X_n\le t \right) \\ & =\left[ P\left( X_1\le t \right) \right] ^n=t^n \end{aligned}

TnT_n 的分布函数是

FT(t)={0,t<0,tn,0t<1,1,,t1.F_T\left( t \right) =\begin{cases} 0,& t<0,\\ t^n,& 0\le t<1,\\ 1,& ,t\ge 1.\\ \end{cases}

(2) 容易算得 TnT_n 的密度函数是

fT(t)=ntn1,0<t<1f_T\left( t \right) =nt^{n-1},0<t<1

Zn=n(1Tn)Z_n=n\left( 1-T_n \right), 由变量变换法, 有 ZnZ_n 的密度函数

fZ(z)=1nn(1zn)n1,0<1zn<1e1,z>0\begin{aligned} f_Z\left( z \right) &=\left| -\frac{1}{n} \right|\cdot n\cdot \left( 1-\frac{z}{n} \right) ^{n-1},0<1-\frac{z}{n}<1 \\ &\rightarrow e^{-1},z>0 \end{aligned}

后者是 Exp(1)Exp(1) 的密度函数, 故有 n(1Tn)LExp(1)n\left(1-T_n\right) \stackrel{L}{\rightarrow} {Exp}(1).