南开大学-432统计学-2024年

一、(10分) X1,X2X_1,X_2 独立同服从 N(0,σ2)N(0,\sigma^2), 求 (X1+X2X1X2)2\left( \frac{X_1+X_2}{X_1-X_2} \right)^2 的分布.

Solution: 注意到 Y1=X1+X2Y_1 = X_1+X_2Y2=X1X2Y_2 = X_1 -X_2 都服从 N(0,2σ2)N(0,2\sigma^2), 故 Y122σ2χ2(1)\frac{Y_1^2}{2\sigma^2}\sim \chi^2(1), Y222σ2χ2(1)\frac{Y_2^2}{2\sigma^2} \sim \chi^2(1). 同时 Cov(Y1,Y2)=Cov(X1+X2,X1X2)=0Cov(Y_1,Y_2)=Cov(X_1+X_2,X_1-X_2)=0, 故它们独立. 因此有

(X1+X2X1X2)2=Y12/2σ2Y22/2σ2F(1,1).\left( \frac{X_1+X_2}{X_1-X_2} \right)^2 = \frac{Y_1^2/2\sigma^2}{Y_2^2/2\sigma^2} \sim F\left(1,1\right).

二、(15分) 甲乙打飞机, 甲命中率 0.9, 乙命中率 0.8. 飞机被命中一次则有 70% 概率被击落, 被命中两次则一定被击落.

(1) (3分) 求飞机被击落概率.

(2) (4分) 若已知飞机被击落, 求它是被一发炮弹击落的概率.

(3) (4分) 若已知飞机被击中, 求它被击落的概率.

(4) (4分) 若已知飞机被击中, 求它被甲中的概率.

Solution: (1) P(被击落)=0.9×(10.8)×0.7+0.8×(10.9)×0.7+0.9×0.8×1=0.902.P(\text{被击落}) = 0.9 \times (1-0.8) \times 0.7 + 0.8 \times (1-0.9) \times 0.7 + 0.9 \times 0.8 \times 1 = 0.902..

(2) P(一发击落被击落)=P(一发击落被击落)P(被击落)=0.9×(10.8)×0.7+0.8×(10.9)×0.70.9020.202P(\text{一发击落} | \text{被击落}) = \frac{P(\text{一发击落} \cap \text{被击落})}{P(\text{被击落})} = \frac{0.9 \times (1-0.8) \times 0.7 + 0.8 \times (1-0.9) \times 0.7}{0.902} \approx 0.202.

(3) P(被击落被击中)=P(被击落被击中)P(被击中)=0.9021(10.9)×(10.8)0.920P(\text{被击落} | \text{被击中}) = \frac{P(\text{被击落} \cap \text{被击中})}{P(\text{被击中})} = \frac{0.902}{1 - (1 - 0.9) \times (1 - 0.8)} \approx 0.920.

(4) P(被甲中被击中)=P(被甲中被击中)P(被击中)=0.90.9+0.80.9×0.80.918P(\text{被甲中} | \text{被击中}) = \frac{P(\text{被甲中} \cap \text{被击中})}{P(\text{被击中})} = \frac{0.9}{0.9 + 0.8 - 0.9 \times 0.8} \approx 0.918.

三、(15分) 设 F(x)=P(ξ<x)F(x) = P(\xi < x), 其中 ξ\xi 是随机变量. 证明:

(1) (5分) F(x)F(x) 不减;

(2) (5分) F(x)F(x) 左连续;

(3) (5分) F()=0F(-\infty)=0, F(+)=1F(+\infty)=1.

Solution: (1) 设 x1<x2x_1<x_2, 则 {ξ<x1}{ξ<x2}\{\xi < x_1\} \subset \{\xi < x_2\}, 因此 F(x1)=P(ξ<x1)P(ξ<x2)=F(x2)F(x_1)=P(\xi <x_1) \le P(\xi<x_2) = F(x_2).

(2) 设 ana_n 是任一单调下降趋于 00 的序列, 则由概率的连续性,

limxx0F(x)=limnF(x0an)=limnP(ξ<x0an)=P(limn{ξ<x0an})=P(ξ<x0)=F(x0).\lim \limits_{x\to x_0^{-}} F\left(x\right) = \lim \limits_{n\to \infty} F\left(x_0-a_n\right) = \lim \limits_{n\to \infty} P\left( \xi < x_0 -a_n\right) = P\left( \lim \limits_{n\to \infty} \left\{ \xi < x_0 -a_n \right\}\right) = P\left( \xi < x_0\right) =F\left(x_0\right).

(3) 先考虑左侧极限, 有

F()=limxF(x)=limn+F(n)=limn+(ξ<n)=P(limn{ξ<n})=P()=0.F\left( -\infty \right) = \lim \limits_{x\to -\infty} F\left(x\right) =\lim \limits_{n\to +\infty} F\left(-n\right) = \lim \limits_{n\to +\infty}\left( \xi < -n\right) = P\left( \lim \limits_{n\to \infty} \left\{ \xi < -n \right\}\right) =P\left( \emptyset \right) =0.

同理右侧极限是

F(+)=limx+F(x)=limn+F(n)=limn+(ξ<n)=P(limn{ξ<n})=P(Ω)=1.F\left( +\infty \right) = \lim \limits_{x\to +\infty} F\left(x\right) =\lim \limits_{n\to +\infty} F\left(n\right) = \lim \limits_{n\to +\infty}\left( \xi < n\right) = P\left( \lim \limits_{n\to \infty} \left\{ \xi < n \right\}\right) =P\left( \Omega \right) =1.

四、(15分) 第一条路到火车站的时间是 N(40,102)N(40,10^2), 第二条路到火车站的时间是 N(50,42)N(50,4^2).

(1) (7分) 距离火车出发还有 60 分钟, 走哪条路赶上的概率大?

(2) (8分) 距离火车出发还有 45 分钟, 走哪条路赶上的概率大?

Solution: (1) P(赶上火车 | 第一条路)=Φ(604010)0.977P(\text{赶上火车 | 第一条路}) = \Phi\left(\frac{60 - 40}{10}\right) \approx 0.977, P(赶上火车 | 第二条路)=Φ(60504)0.994P(\text{赶上火车 | 第二条路}) = \Phi\left(\frac{60 - 50}{4}\right) \approx 0.994, 选第二条.

(2) P(赶上火车 | 第一条路)=Φ(454010)0.691P(\text{赶上火车 | 第一条路}) = \Phi\left(\frac{45 - 40}{10}\right) \approx 0.691, P(赶上火车 | 第二条路)=Φ(45504)0.106P(\text{赶上火车 | 第二条路}) = \Phi\left(\frac{45 - 50}{4}\right) \approx 0.106, 选第一条.

Remark: 有同学认为应该考虑 X>0X>0 的概率, 这确实是题目设置问题, 但不影响最后结论.

五、(15分) 设 X1,,XmX_1,\cdots,X_m 来自总体 N(μ1,σ2)N(\mu_1,\sigma^2), Y1,,YnY_1,\cdots,Y_n 来自总体 N(μ2,σ2)N(\mu_2,\sigma^2).

(1) (7分) 求 (μ1,μ2,σ2)(\mu_1,\mu_2,\sigma^2) 的 MLE;

(2) (8分) 判断上述估计是否无偏.

Solution: (1) 这是联合样本方差估计问题, 结果是

μ^1=Xˉ,μ^2=Yˉ,σ^2=1m+n(i=1m(XiXˉ)2+j=1n(YjYˉ)2).\widehat{\mu}_1 = \bar{X},\quad \widehat{\mu}_2 = \bar{Y}, \quad \widehat{\sigma}^2 = \frac{1}{m+n}\left(\sum_{i=1}^m\left(X_i-\bar{X}\right)^2 + \sum_{j=1}^n \left(Y_j-\bar{Y}\right)^2\right).

(2) μ^1\widehat{\mu}_1, μ^2\widehat{\mu}_2 是无偏的, 但 σ^2\widehat{\sigma}^2 不是无偏的, 用自由度修正为 m+nm+n2σ^2\frac{m+n}{m+n-2}\widehat{\sigma}^2 才是无偏的.

六、(15分) 甲和乙独立地找书中错字, 甲找了120个, 乙找了124个, 重复的有80个, 试用矩法估计求:

(1) (7分) 错字总数;

(2) (8分) 未被找到的错字数.

Solution: (1) 设错字总数是 nn, 甲找错字的个数是 XB(n,p1)X \sim B(n,p_1), 乙找错字的个数是 YB(n,p2)Y \sim B(n,p_2), 且它们独立. 这里根据题干可以看出 p1p_1p2p_2 是十分接近的, 因此不妨认为 p1=p2=pp_1=p_2 = p 以减少参数. 因此有 E(X)=E(Y)=npE(X)=E(Y) = np, E(XYn)=np2E(\frac{XY}{n})=np^2.

用样本代替总体, 有方程

{122=n^p^,80=n^p^2,{p^=4061,n^=186.05,\begin{cases} 122=\widehat{n}\widehat{p},\\ 80=\widehat{n}\widehat{p}^2,\\ \end{cases}\quad \Rightarrow \quad \begin{cases} \widehat{p}=\frac{40}{61},\\ \widehat{n}=186.05,\\ \end{cases}

但考虑到 nn 是整数, 我们修正为 n^=186\widehat{n}=186.

(2) 总计找到的错字个数是 120+12480=164120+124-80=164, 还剩 2222 个.

七、(15分) 考虑回归模型: Y=0.5+βX2+εY=0.5+\beta X^2 +\varepsilon.

(1) (3分) 给出 Gauss-Markov 条件.

(2) (12分) 已知数据 (x1,y1),,(xn,yn)(x_1,y_1), \cdots, (x_n,y_n), 请给出 β\beta 的 lse (最小二乘估计), 并证明其是 lse.

Solution: (1) Gauss-Markov 条件: 1. 线性模型: 模型必须是线性的。 2. 随机抽样: 观测值必须是随机抽样得到的。 3. 无完全共线性: 解释变量之间不能存在完全共线性。 4. 零条件期望误差: 误差项的条件期望值为零。 5.同方差性(Homoscedasticity): 所有误差项具有相同的方差。 6. 无自相关: 误差项之间相互独立,不存在自相关。

(2) β^=i=1nxi2yi0.5i=1nxi2i=1nxi4\widehat{\beta}= \frac{\sum_{i=1}^{n} x_i^2 y_i - 0.5 \sum_{i=1}^{n} x_i^2}{\sum_{i=1}^{n} x_i^4} 是 lse, 下证明之:残差平方和(RSS)为:

RSS=i=1n(yi(0.5+βxi2))2,RSS = \sum_{i=1}^{n} (y_i - (0.5 + \beta x_i^2))^2,

β\beta 求偏导并使其等于零:

ddβRSS=2i=1nxi2(yi0.5βxi2)=0,\frac{d}{d\beta} RSS = -2 \sum_{i=1}^{n} x_i^2 (y_i - 0.5 - \beta x_i^2) = 0,

解这个方程,得到 β\beta 的LSE:

β^=i=1nxi2yi0.5i=1nxi2i=1nxi4\widehat{\beta} = \frac{\sum_{i=1}^{n} x_i^2 y_i - 0.5 \sum_{i=1}^{n} x_i^2}{\sum_{i=1}^{n} x_i^4}

二阶导数为:

d2dβ2RSS=2i=1nxi4>0.\frac{d^2}{d\beta^2} RSS = 2 \sum_{i=1}^{n} x_i^4 > 0.

因此,得到的 β^\widehat{\beta} 确实是最小二乘估计.

八、(15 分) 已知样本 Y1,,YnY_1,\cdots,Y_n, 且 E(Y)=μE(Y)=\mu, Var(Y)=σ2Var(Y)=\sigma^2, 定义 Q(μ)=i=1n(Yiμ)2+αμ2Q(\mu) = \sum_{i=1}^n (Y_i - \mu)^2 + \alpha \mu^2.

(1) (5分) 请最小化 Q(μ)Q\left(\mu\right) 得到 μ^\widehat{\mu}.

(2) (10分) 证明: 若 α>0\alpha >0, (1) 中的估计量有偏. 在此条件下, 试找到 α\alpha 使得 mse(μ^)<(\widehat{\mu})<mse(Yˉ)(\bar{Y})?

Solution: (1) 求导得 Q(μ)=i=1n2(Yiμ)+2αμQ'\left(\mu\right) = -\sum_{i=1}^n 2\left(Y_i-\mu\right) + 2\alpha \mu, 令其为 00, 得 μ^=i=1nYin+α\widehat{\mu} =\frac{\sum_{i=1}^n Y_i}{n+\alpha}.

(2) 直接求期望, 得到 E(μ^)=nn+αμ=μαn+αμμE\left(\widehat{\mu}\right) = \frac{n}{n+\alpha}\mu = \mu -\frac{\alpha}{n+\alpha}\mu \neq \mu, 有偏. 我们知道 mse (Yˉ)=σ2n(\bar{Y})=\frac{\sigma^2}{n}, 而

mse(μ^)=nσ2(n+α)2+α2μ2(n+α)2=nσ2+α2μ2(n+α)2,\mathrm{mse}\left(\widehat{\mu}\right) = \frac{n\sigma^2}{\left(n+\alpha\right)^2} + \frac{\alpha^2\mu^2}{\left(n+\alpha\right)^2} = \frac{n\sigma^2+\alpha^2\mu^2}{\left(n+\alpha\right)^2},

令分子 nσ2+α2μ2<(n+α)2σ2/nn\sigma^2+\alpha^2\mu^2 < \left(n+\alpha\right)^2\sigma^2/n, 解得 (nμ2σ2)α2nσ2<0\left(n\mu^2 - \sigma^2\right) \alpha -2n\sigma^2 <0.

现在我们发现, 如果 μ=0\mu =0, 那么不等式成为 σ2α2nσ2<0-\sigma^2 \alpha - 2n \sigma^2<0, 这是恒成立的, 随意取 α\alpha 即可.

此外, 如 μ0\mu \neq 0, 就有 μ2>0\mu^2 >0, 那么当 nn 增大时, 一定有 nμ2σ2>0n\mu^2 - \sigma^2 >0, 则 (nμ2σ2)α2nσ2<0\left(n\mu^2 - \sigma^2\right) \alpha -2n\sigma^2 <0 意味着 0<α<2nσ2nμσ22σ2μ0< \alpha < \frac{2n\sigma^2}{n\mu- \sigma^2} \to \frac{2\sigma^2}{\mu}. 这说明只要我们将 α\alpha 取在 (0,2σ2μ)(0,\frac{2\sigma^2}{\mu}) 之间, 当 nn 足够大时, 一定有 mse (μ^)<(\widehat{\mu})<mse(Yˉ)(\bar{Y}).

在实际操作时, 我们是不知道 μ\muσ2\sigma^2 的真实值的, 但是如果有预先的抽样、经验知识或理论依据提示我们 2σ2μ\frac{2\sigma^2}{\mu} 大概在什么范围, 则我们将 α\alpha 取得比其小即可.

九、(15分)有来自总体 U(0,θ)U(0,\theta) 的随机样本 X1,,XnX_1,\cdots,X_n.

(1) (8分) 证明 θ^1=n+1nX(n)\widehat{\theta}_1=\frac{n+1}{n}X_{(n)}θ^2=(n+1)X(1)\widehat{\theta}_2=(n+1)X_{(1)} 无偏.

(2) (7分) 请比较他们的方差.

Solution: (1) 利用 U(0,1)U(0,1) 次序统计量 Y(k)Be(k,n+k1)Y_{(k)}\sim Be(k,n+k-1) 的结论, 我们有 E(X(n))=nn+1θE(X_{(n)}) = \frac{n}{n+1}\theta, E(X(1))=1n+1θE(X_{(1)})=\frac{1}{n+1}\theta, 因此题设给的两个估计量都是无偏的.

(2) 利用 Beta 分布方差结论, 有

Var(θ^1)=(n+1)2n2n(n+1)2(n+2)θ2=1n(n+2)θ2,Var(θ^2)=(n+1)2n(n+1)2(n+2)θ2=nn+2θ2,\begin{aligned} &Var\left(\widehat{\theta}_1\right) = \frac{(n+1)^2}{n^2} \frac{n}{(n+1)^2(n+2)} \theta^2 = \frac{1}{n(n+2)} \theta^2,\\ &Var\left(\widehat{\theta}_2\right) = (n+1)^2 \frac{n}{(n+1)^2(n+2)} \theta^2 = \frac{n}{n+2} \theta^2, \end{aligned}

因此 θ^1\widehat{\theta}_1 的方差小.

十、(20分) 有来自总体 N(μ,1)N(\mu,1) 的随机样本 X1,,XnX_1,\cdots,X_n. 考虑假设检验

H0:μ=2vsH1:μ=3.H_0: \mu = 2 \quad \mathrm{vs} \quad H_1: \mu =3.

拒绝域是 W={xˉ2.6}W= \{\bar{x}\ge 2.6\}.

(1) (7分) 设 n=20n=20, 求 α,β\alpha,\beta (两类错误).

(2) (7分) 若要求 β0.01\beta \le 0.01, 求 nn 的最小值.

(3) (6分) nn \to \infty 时, 证明两类错误均收敛于 0.

Solution: (1) 计算两类错误, 有 α=P(X2.6μ=2)=1Φ(2.62120)0.0036\alpha = P(\overline{X} \geq 2.6 | \mu = 2) = 1 - \Phi\left(\frac{2.6 - 2}{\frac{1}{\sqrt{20}}}\right) \approx 0.0036, β=P(X<2.6μ=3)=Φ(2.63120)0.0368\beta = P(\overline{X} < 2.6 | \mu = 3) = \Phi\left(\frac{2.6 - 3}{\frac{1}{\sqrt{20}}}\right) \approx 0.0368.

(2) 找到满足 Φ(2.631n)0.01\Phi\left(\frac{2.6 - 3}{\frac{1}{\sqrt{n}}}\right) \leq 0.01 的最小 nn 值.
计算结果显示最小的 nn 大约是34.

(3) 当 nn \to \infty 时, XˉPμ\bar{X} \xrightarrow{P} \mu, 因此

α=P(Xˉ2.6μ=2)P(Xˉ20.6μ=2)0,β=P(Xˉ<2.6μ=3)P(Xˉ3<0.4μ=3)0.\begin{aligned} & \alpha = P\left(\bar{X}\le 2.6 \mid \mu =2 \right) \le P\left(|\bar{X}-2|\le 0.6 \mid \mu =2 \right) \to 0, \\ & \beta = P\left(\bar{X}<2.6 \mid \mu =3 \right) \le P\left(|\bar{X}-3|<0.4 \mid \mu =3 \right) \to 0. \end{aligned}