中国科学技术大学-432统计学-2022年

一、填空与选择题(35分)

  1. (5分) 一个醉汉走在路上,往左走两步就撞了南墙,往右走三步就会撞北墙。因为喝得太多,醉汉向左向右走的概率相同都是 0.5,则醉汉撞到南墙的概率是 \underline{\qquad}.

Solution: 35\frac{3}{5}.
画坐标轴, 记起点是 00, 南墙是 2-2, 北墙是 33, 记 pkp_k 为 “起点是kk, 最后撞南墙的概率”, 则有

pk=0.5pk1+0.5pk+1,k=1,0,1,2,p_k = 0.5 p_{k-1} + 0.5p_{k+1},\quad k=-1,0,1,2,

化简为 pkpk1=pk+1pkp_k-p_{k-1} = p_{k+1}-p_k, 恰好构成等差数列, 结合初值 p2=1p_{-2}=1, p3=0p_3=0, 解得 p0=3/5p_0=3/5.

  1. (10分) 张先生问李先生:“您家有几个孩子?” 李先生:“两个。” 若张先生问:“大的是男孩子吗?” 李先生回答:“是的。” 则李先生的小孩子也是男孩的概率为\underline{\qquad}. 若张先生问:“有男孩子吗?” 李先生回答:“有的。” 则这种情况下李先生的小孩子是男孩子的概率为 \underline{\qquad}.

Solution: 12\frac{1}{2}; 23\frac{2}{3}.
A1=A_1 = “第一个是男孩”, A2=A_2 = “第二个是男孩”. 则第一种情况对应的概率是

P(A2A1)=P(A2)=12.P\left( A_2|A_1 \right) =P\left( A_2 \right) =\frac{1}{2}.

第二种则是

P(A2A1A2)=P(A2)P(A1A2)=12114=23.P\left( A_2|A_1\cup A_2 \right) =\frac{P\left( A_2 \right)}{P\left( A_1\cup A_2 \right)}=\frac{\frac{1}{2}}{1-\frac{1}{4}}=\frac{2}{3}.

  1. (5分) 请问下列随机变量密度函数相互独立的是:
    A. 6x2y36 x^2 y^3;
    B. 4(x3y+xy3)4(x^3y+xy^3);
    C. 6e3x2y6e^{-3x-2y};
    D. 以上均无法判断

Solution: D. 所有选项均未给出使密度函数满足非负性,正则性的条件(原题如此), 故只能选 D.

  1. (10分) 甲乙玩剪刀石头布的游戏,胜利得1分,失败得-1分,平局得0分,现在甲出剪刀石头布的概率分别为(1/4, 3/8, 3/8), 乙出剪刀石头布的概率分别为(3/8, 1/4, 3/8), 问每场比赛甲的平均得分是 \underline{\qquad}。若乙调整策略,出剪刀石头布的概率均为1/3,问此时每场比赛甲的平均得分是\underline{\qquad}

Solution: 164-\frac{1}{64}; 00.

调整前, 有

E(X)=1(14(3814)+38(3838)+38(1438))=164.E\left( X \right) =1\cdot \left( \frac{1}{4}\cdot \left( \frac{3}{8}-\frac{1}{4} \right) +\frac{3}{8}\cdot \left( \frac{3}{8}-\frac{3}{8} \right) +\frac{3}{8}\cdot \left( \frac{1}{4}-\frac{3}{8} \right) \right) =-\frac{1}{64}.

调整后, 有

E(X)=1(14(1313)+38(1313)+38(1313))=0.E\left( X \right) =1\cdot \left( \frac{1}{4}\cdot \left( \frac{1}{3}-\frac{1}{3} \right) +\frac{3}{8}\cdot \left( \frac{1}{3}-\frac{1}{3} \right) +\frac{3}{8}\cdot \left( \frac{1}{3}-\frac{1}{3} \right) \right) =0.

  1. (5分) 根据样本已经得到了 θ\theta95%95\% 置信区间 (θ^1,θ^2)(\hat{\theta}_1,\hat{\theta}_2), 正确的是( ).
    A. 该区间以 95%95 \% 的概率包含真值
    B. 参数 θ\theta 在该区间内的概率为 95%95 \%
    C. 该区间有 95%95 \% 的可能性包含参数 θ\theta
    D. 参数 θ\theta 或者在 (θ^1,θ^2)(\hat{\theta}_1,\hat{\theta}_2) 内, 或者不在 (θ^1,θ^2)(\hat{\theta}_1,\hat{\theta}_2)

Solution: D. 此时已经根据样本值得到了一个固定的置信区间, 参数要么在这个固定的区间中, 要么不在其中. 注意如果题干改为抽样之前, 则由于样本还未获得, 两个区间端点都是随机的, 随机区间 (θ^1,θ^2)(\hat{\theta}_1,\hat{\theta}_2) 覆盖参数真值 θ\theta 的概率是 95%95\%. 但现在, 区间已定, 参数也是个常数, 要么在里面, 要么不在里面.

二、计算与分析题

  1. (25分) XN(0,1)X\sim N(0,1), YB(1,12)Y\sim B(1,\frac{1}{2}), 它们独立, 定义 Z=X(2Y1)Z=X(2Y-1).
    (1)(7分) 求 ZZ 的分布;
    (2)(8分) 求 Corr(X,Z)(X,Z);
    (3)(8分) X,ZX,Z 独立吗?

Solution: (1) 对任意 zz, 由于 XN(0,1)-X\sim N(0,1),

P(Zz)=P(X1z)P(Y=1)+P(X(1)z)P(Y=0)=12Φ(z)+12Φ(z)=Φ(z).P\left( Z\le z \right) =P\left( X\cdot 1\le z \right) P\left( Y=1 \right) +P\left( X\cdot \left( -1 \right) \le z \right) P\left( Y=0 \right) =\frac{1}{2}\Phi \left( z \right) +\frac{1}{2}\Phi \left( z \right) =\Phi \left( z \right) .

因此 ZN(0,1)Z\sim N(0,1).

(2) 由于 E(X)=E(Z)=0E(X)=E(Z)=0, 而

E(XZ)=E(X2(2Y1))=E(X2)E(2Y1)=0,E\left( XZ \right) =E\left( X^2\left( 2Y-1 \right) \right) =E\left( X^2 \right) E\left( 2Y-1 \right) =0,

Cov(X,Z)=0Cov(X,Z)=0, 故 Corr(X,Z)=0\mathrm{Corr}(X,Z)=0,

(3) 显然不独立, 考虑

P(X1,Z1)=P(X1,X1)P(Y=1)+P(X1,X1)P(Y=0)=12Φ(1)+12[Φ(1)Φ(1)]=Φ(1)12Φ(1)Φ2(1).\begin{aligned} P\left( X\le 1,Z\le 1 \right) &=P\left( X\le 1,X\le 1 \right) P\left( Y=1 \right) +P\left( X\le 1,-X\le 1 \right) P\left( Y=0 \right)\\ &=\frac{1}{2}\Phi \left( 1 \right) +\frac{1}{2}\left[ \Phi \left( 1 \right) -\Phi \left( -1 \right) \right] =\Phi \left( 1 \right) -\frac{1}{2}\Phi \left( -1 \right) \ne \Phi ^2\left( 1 \right) .\\ \end{aligned}

  1. (20分) 设X1,X2,X_1,X_2,\cdots是i.i.d.连续型非负随机变量(如跳远成绩), 记

Ak={Xk=max{X1,,Xk}}A_k = \{X_k = \max\{X_1,\cdots,X_k\}\}

为一个记录发生. 求:
(1) (8分) P(Ak)P(A_k);
(2) (12分) Var(k=1nIAk)Var(\sum_{k=1}^n I_{A_k}).

Solution:
(1) 根据对称性, P(Ak)=P(Xk=max{X1,,Xk})=1kP(A_k)=P(X_k=\max\{X_1,\cdots,X_k\})=\frac{1}{k}.

(2) 由于IAkB(1,1k)I_{A_k}\sim B(1,\frac{1}{k}), 故Var(IAk)=(11k)1kVar(I_{A_k})=(1-\frac{1}{k})\frac{1}{k}. 再考虑 k<jk<j 时条件概率

P(AjAk)=P(Xj=max{Xk,Xk+1,,Xj}Ak),P\left( A_j\mid A_k \right) =P\left( X_j=\max \left\{ X_k,X_{k+1},\cdots ,X_j \right\} \mid A_k \right) ,

我们发现无论X1,,XkX_1,\cdots,X_k怎么排序, 还是只要XjX_j在所有当中排第1就好, 即条件概率仍然是1j\frac{1}{j}. 我们计算

E(IAkIAj)=P(AkAj)=1kP(AjAk)=1k1j,E\left( I_{A_k}I_{A_j} \right) =P\left( A_kA_j \right) =\frac{1}{k}P\left( A_j\mid A_k \right) = \frac{1}{k}\frac{1}{j},

这也说明协方差为0, 故有

Var(k=1nIAk)=k=1n(11k)1k.Var\left( \sum_{k=1}^n{I_{A_k}} \right) =\sum_{k=1}^n{\left( 1-\frac{1}{k} \right) \frac{1}{k}}.

  1. (20分) 设 X1,,XnX_1,\cdots,X_n 是 i.i.d. 的 N(μ,σ2)N(\mu,\sigma^2) 的随机样本, 其中 μ,σ2\mu,\sigma^2 是未知参数.
    (1) (10分) 样本标准差是总体标准差无偏估计吗?
    (2) (10分) xˉ2\bar{x}^2μ2\mu^2 的无偏估计吗? 若不是, 给出 μ2\mu^2 的一个无偏估计.

Solution: (1) 不是. 已知 E(S2)=σ2E(S^2) =\sigma^2, 而

Var(S)=E(S2)[E(S)]2>0,Var(S) = E(S^2) - [E(S)]^2 >0,

[E(S)]2<E(S2)=σ2[E(S)]^2 < E(S^2) = \sigma^2, 故 E(S)<σE(S)<\sigma.

(2) 由于 xˉN(μ,σ2n)\bar{x} \sim N(\mu,\frac{\sigma^2}{n}), 故 E(xˉ2)=μ2+σ2nE(\bar{x}^2) = \mu^2 +\frac{\sigma^2}{n}, 它不是 μ2\mu^2 的无偏估计, 修正后看出 xˉ2S2n\bar{x}^2 - \frac{S^2}{n} 恰好是 μ2\mu^2 的无偏估计.

  1. (30分) 为调查某商品在商场货架上的滞留时间,随机调查9个样本的滞留时间 X1,,X9X_1,\cdots,X_9, 其中计算得到 xˉ=131\bar{x}=131, 假设总体 XN(μ,9)X\sim N(\mu,9). u0.95=1.645u_{0.95}=1.645.
    (1)(10分) 检验 H0:μ130H_0:\mu \le 130, 备择假设是其对立, α=0.05\alpha = 0.05.
    (2)(10分) 若 μ=131\mu = 131, 样本量改为 nn, 求犯第二类错误的概率 β\beta, 并指出: 想要 β0.05\beta\le 0.05, 我们应该需要多少样本.
    (3)(10分) 求 θ=P(X130)\theta = P(X\le 130) 的 MLE, 并给出 95% 置信下限.

Solution: (1) 拒绝域是

W={nxˉ130σ=xˉ130>1.645}W=\left\{ \sqrt{n}\frac{\bar{x}-130}{\sigma}=\bar{x}-130>1.645 \right\}

现在 xˉ130=1\bar{x} -130 = 1, 不落入拒绝域, 不能拒绝原假设.

(2) 犯第二类错误的概率是

β=P(nxˉ1303<1.645μ=131)=P(xˉ131<1+3n1.645μ=131)=Φ(n3(1+3n1.645))=Φ(n3+1.645),\begin{aligned} \beta &=P\left( \left. \sqrt{n}\frac{\bar{x}-130}{3}<1.645 \right|\mu =131 \right) =P\left( \left. \bar{x}-131<-1+\frac{3}{\sqrt{n}}1.645 \right|\mu =131 \right)\\ &=\Phi \left( \frac{\sqrt{n}}{3}\left( -1+\frac{3}{\sqrt{n}}1.645 \right) \right) =\Phi \left( -\frac{\sqrt{n}}{3}+1.645 \right),\\ \end{aligned}

令其小于 0.050.05, 则有

n3+1.645<1.645,-\frac{\sqrt{n}}{3}+1.645<-1.645,

解得 n>9.87\sqrt{n}>9.87, 故 n>97.42n>97.42, 取 n=98n=98.

(3) 计算得

g(μ)=P(X130)=P(Xμ3130μ3)=Φ(130μ3),g(\mu)=P\left( X\le 130 \right) =P\left( \frac{X-\mu}{3}\le \frac{130-\mu}{3} \right) =\Phi \left( \frac{130-\mu}{3} \right) ,

由 MLE 不变性, 有 g^=Φ(130xˉ3)=Φ(1/3)\hat{g}=\Phi \left( \frac{130-\bar{x}}{3} \right) =\Phi(-1/3). 而由于 Φ\Phi 是单调函数, g(μ)g(\mu)μ\mu 单调减函数, 故有

{μa}={g(μ)g(a)},\left\{ \mu \le a \right\} =\left\{ g\left( \mu \right) \ge g\left( a \right) \right\} ,

我们可以选 aaμ\mu 的 0.95 置信上限, 即 a=xˉ+1.645a=\bar{x}+1.645, 故有

g(a)=Φ(130xˉ1.6453)=Φ(2.6453)g\left( a \right) =\Phi \left( \frac{130-\bar{x}-1.645}{3} \right) =\Phi \left( \frac{-2.645}{3} \right)

g(μ)g(\mu) 的 0.95 置信下限.

  1. (20分) 有线性模型

Yi=bxi3+εi,i=1,2,,n,Y_i = b|x_i-3|+\varepsilon_i,\quad i =1,2,\cdots,n,

(1)(10分) 若欲用最小二乘法求 bb 的估计, ε\varepsilon 需要满足什么要求?
(2)(10分) 已知 (x,y)(x,y) 的三个数据点 (3,1)(3,1), (4,3)(4,3), (2,2)(2,2), 求 bb 的最小二乘估计.

Solution: (1) 若要做最小二乘估计, 则 ε1,,εn\varepsilon_1,\cdots,\varepsilon_n 应该是零均值, 同方差, 协方差为 00, 并且不能和自变量 xi3|x_i-3| 有相关性. (注意: 不需要正态假设)

(2) 记 zi=xi3z_i = |x_i-3|, 对应的最小二乘估计是 b^=i=1nziyii=1nzi2\hat{b} = \frac{\sum_{i=1}^n z_iy_i}{\sum_{i=1}^nz_i^2}, 代入数据有

b^=01+13+1202+12+12=2.5.\hat{b}=\frac{0\cdot 1+1\cdot 3+1\cdot 2}{0^2+1^2+1^2}=2.5.