中国科学技术大学-432统计学-2024年

一、填空题

  1. F1(x)F_1(x)F2(x)F_2(x) 均为分布函数, 则当 a=,b=a=\underline{\qquad}, b =\underline{\qquad} 时, aF1(x)bF2(x)aF_1(x)-bF_2(x) 也为分布函数.

Solution: a=1+b,1b0a = 1+b , -1\leq b \leq 0.

首先由 aF1(+)bF2(+)=1aF_1(+\infty)-bF_2(+\infty)=1, 可以得到 ab=1a-b=1. 同时当 a0a\geq 0 以及
b0-b\geq 0 时, aF1(x)bF2(x)aF_1(x)-bF_2(x) 也满足单调性. 故 a=1+b,1b0a = 1+b , -1\leq b \leq 0.

  1. XN(0,1)X\sim N(0,1), 若 P(X>xα)=αP(X>x_{\alpha})=\alpha, 则当 P(X<x)=αP(|X|<x)=\alpha, x=x=\underline{\qquad}.

Solution: Φ1(Φ(xα)/2)-\Phi^{-1}(\Phi(x_\alpha)/2).

由题意可以得到 Φ(xα)=1α\Phi(x_\alpha)=1-\alpha 以及 2Φ(x)1=α2\Phi(x)-1=\alpha.
从而 Φ(xα)+2Φ(x)=2\Phi(x_\alpha)+2\Phi(x) = 2. 故有 x=Φ1(Φ(xα)/2)x = -\Phi^{-1}(\Phi(x_\alpha)/2).

  1. X1,,Xni.i.d.P(λ)X_1,\cdots,X_n \overset{i.i.d.}{\sim} P(\lambda), 则 Xˉ=1ni=1nXi\bar{X}=\frac{1}{n}\sum_{i=1}^n X_i 的分布为 \underline{\qquad}.

Solution: P(Xˉ=k)=(nλ)nk(nk)!enλ.P(\bar{X} = k)=\frac{(n\lambda)^{nk}}{(nk)!}e^{-n\lambda}.

由泊松分布的可加性可知, i=1nXiP(nλ)\sum_{i=1}^n X_i\sim P(n\lambda). 从而

P(Xˉ=k)=P(i=1nXi=nk)=(nλ)nk(nk)!enλ.P(\bar{X} = k)=P\left(\sum_{i=1}^n X_i = nk\right)=\frac{(n\lambda)^{nk}}{(nk)!}e^{-n\lambda}.

  1. XN(0,1),Yb(n,p)X\sim N(0,1), Y\sim b(n,p), 已知 X,YX,Y 独立, 则 XXX3YX^3Y 的协方差为 \underline{\qquad}.

Solution: 3np3np.

Cov(X,X3Y)=E(X4Y)E(X)E(X3)Y=E(X4)E(Y)=3npCov(X,X^3Y)=E(X^4Y)-E(X)E(X^3)Y=E(X^4)E(Y)=3np.

  1. 现共有一万人投保, 保费总共为200万. 已知一年内有一人去世则需要赔偿1万元, 且每个人的去世概率为1.5%, 求
    (1)亏钱的概率为 \underline{\qquad}. (2)盈利10万到20万的概率为 \underline{\qquad}. (用标准正态分布函数 Φ\Phi 表示)

Solution: 1Φ(100591),Φ(80591)Φ(60591).1- \Phi\left(\frac{100}{\sqrt{591}}\right), \Phi\left( \frac{80}{\sqrt{591}}\right) -\Phi\left( \frac{60}{\sqrt{591}}\right).

XiX_i 表示第 ii 个人是否去世, 则 Xib(1,1.5%)X_i\sim b(1,1.5\%). 由CLT, 亏钱概率为

P(i=110000Xi>200)=P(i=110000Xi150591/2>100591)1Φ(100591)P\left(\sum_{i=1}^{10000} X_i>200\right)=P\left( \frac{\sum_{i=1}^{10000} X_i-150}{\sqrt{591}/2}>\frac{100}{\sqrt{591}}\right)\approx 1- \Phi\left(\frac{100}{\sqrt{591}}\right)

同理, 盈利10万到20万的概率为

P(180i=110000Xi190)=P(60591i=110000Xi150591/280591)Φ(80591)Φ(60591)\begin{aligned} P\left(180 \leq \sum_{i=1}^{10000} X_i\leq 190\right)&=P\left(\frac{60}{\sqrt{591}}\leq \frac{\sum_{i=1}^{10000} X_i-150}{\sqrt{591}/2}\leq \frac{80}{\sqrt{591}}\right)\\ &\approx \Phi\left( \frac{80}{\sqrt{591}}\right) -\Phi\left( \frac{60}{\sqrt{591}}\right) \end{aligned}

  1. X1,X2,X3,X4X_1,X_2,X_3,X_4 独立同服从于 N(0,3)N(0,3), 若 a(X14X2)2+b(2X33X4)2a(X_1-4X_2)^2+b(2X_3-3X_4)^2 服从卡方分布, 则卡方分布的自由度为 \underline{\qquad}, a+b=a+b=\underline{\qquad}.

Solution: 2,10/221.2, 10/221.

首先有 X14X2N(0,51),2X33X4N(0,39)X_1-4X_2\sim N(0,51), 2X_3-3X_4\sim N(0,39)

从而当 a=1/51,b=1/39a=1/51, b =1/39 时, 有 a(X14X2)2χ2(1)a(X_1-4X_2)^2 \sim \chi^2(1) 以及 a(2X33X4)2χ2(1)a(2X_3-3X_4)^2 \sim \chi^2(1). 故自由度为2, a+b=10/221.a+b = 10/221.

  1. X1,,Xni.i.d.P(λ)X_1,\cdots,X_n \overset{i.i.d.}{\sim} P(\lambda), 则 λ2\lambda^2 的一个无偏估计为 \underline{\qquad}.

Solution: (T2T)/n2(T^2-T)/n^2, 其中 T=i=1nXiT=\sum_{i=1}^n X_i.

我们考虑充分统计量 T=i=1nXi=nλP(nλ)T=\sum_{i=1}^n X_i =n\lambda\sim P(n\lambda). 有

E(T)=Var(T)=E(T2)E2(T)=E(T2)n2λ2.E(T)=Var(T)=E(T^2)-E^2(T)=E(T^2)-n^2\lambda^2.

从而有 λ2=[E(T2)E(T)]/n2\lambda^2 = \left[ E(T^2)-E(T)\right]/n^2. 故无偏估计为 (T2T)/n2(T^2-T)/n^2.

  1. 一批零件长度服从正态分布 N(μ,σ2)N(\mu,\sigma^2), μ,σ\mu,\sigma 未知. 现在抽取9个样本,均值和方差分别为40和1. 已知 μ\mu 的90%置信区间为 [40at0.05(n),40+at0.05(n)][40-a\cdot t_{0.05}(n),40+a\cdot t_{0.05}(n)], 其中 t0.05(n)t_{0.05}(n) 表示自由度为 nntt分布的上0.05分位数, 则 a=,n=a=\underline{\qquad}, n =\underline{\qquad}.

Solution: a=1/3,n=8a = 1/3 , n=8.

μ\mu 的90%置信区间为

[40t0.05(8)13,40t0.05(8)13].\left[40-t_{0.05}(8)\frac{1}{3}, 40-t_{0.05}(8)\frac{1}{3}\right].

a=1/3,n=8a = 1/3 , n=8.

  1. X1,,Xni.i.d.Exp(λ)X_1,\cdots,X_n \overset{i.i.d.}{\sim} Exp(\lambda), 对检验问题 H0:λ=λ0 v.s. H1:λ<λ0H_0:\lambda=\lambda_0\ \text{v.s.} \ H_1:\lambda<\lambda_0, 其显著性水平为 α\alpha 的拒绝域为 \underline{\qquad}.

Solution: W={2λ0i=1nXi>χ1α2(2n)}W=\left\{ 2\lambda_0 \sum_{i=1}^n X_i > \chi^2_{1-\alpha}(2n)\right\}.

  1. (暂无题目, 有回忆者可以联系大师兄)

二、计算与分析题

  1. 放开管控前, 检测呈阳性的人中大多有发烧症状,而放开管控后检测呈阳性的人中大多无发烧症状. 已知管控前检测呈阳性且有发烧症状的概率为万分之一, 管控后检测呈阳性且有发烧症状的概率为百分之一. 试解释上述情况.

Solution: 设 A1,A2A_1, A_2 分别表示放开管控前后有发烧, B1,B2B_1,B_2 分别表示放开管控前后检测呈现阳性.

由题意, 显然放开管控后呈现阳性的概率要高于管控前, 有 P(B1)<P(B2)P(B_1)<P(B_2). 且有 P(A1B1)>P(A2B2)P(A_1B_1)>P(A_2B_2).

由条件概率公式我们知道

P(A1B1)=P(A1B1)P(B1)>P(A2B2)P(B2)=P(A2B2).P(A_1|B_1)=\frac{P(A_1B_1)}{P(B_1)}>\frac{P(A_2B_2)}{P(B_2)}=P(A_2|B_2).

这解释了为什么放开管控前检测阳性的人大多有发烧症状.

  1. 已知 P(X=0)=θ/4,P(X=1)=1θ,P(X=2)=3θ/4P(X= 0)=\theta/4, P(X= 1)=1-\theta, P(X=2)=3\theta/4.
    (1) 求 θ\theta 的矩估计 θ^M\hat{\theta}_M 和MLE θ^MLE\hat{\theta}_{MLE}.
    (2) 请问以上估计是无偏估计吗? 如果是的话, 请说明理由; 如果不是的话, 请说明理由并修正.
    (3) 请问修正之后哪个估计更加有效.

Solution: (1) E(X)=1+θ/2E(X) = 1+\theta/2, 从而 θ^M=22Xˉ\hat{\theta}_M=2-2\bar{X}. 而似然函数为

L(θ)=C1θni=1nI(Xi=1)(1θ)i=1nI(Xi=1)l(θ)=logL(θ)=C2+(ni=1nI(Xi=1))logθ+i=1nI(Xi=1)log(1θ)\begin{aligned} L(\theta) &= C_1\theta^{n-\sum_{i=1}^n I(X_i=1)}(1-\theta)^{\sum_{i=1}^n I(X_i=1)}\\ l(\theta) & = \log L(\theta)= C_2+\left( n-\sum_{i=1}^n I(X_i=1)\right) \log\theta + \sum_{i=1}^n I(X_i=1)\log(1-\theta) \end{aligned}

求导并令其为0, 有

l(θ)=ni=1nI(Xi=1)θi=1nI(Xi=1)1θ=0.l^{'}(\theta) = \frac{n-\sum_{i=1}^n I(X_i=1)}{\theta}-\frac{\sum_{i=1}^n I(X_i=1)}{1-\theta}=0.

θ^MLE=11ni=1nI(Xi=1)\hat{\theta}_{MLE}=1-\frac{1}{n}\sum_{i=1}^n I(X_i=1).

(2) E(θ^M)=θ,E(θ^MLE)=1P(Xi=1)=θE(\hat{\theta}_M)=\theta, E(\hat{\theta}_{MLE})=1-P(X_i=1)=\theta, 均为无偏估计.

(3) 直接计算有

Var(θ^M)=4nVar(Xi)=6θnVar(θ^MLE)=θ(1θ)n<6θn=Var(θ^M)\begin{aligned} Var\left(\hat{\theta}_M\right)&=\frac{4}{n}Var(X_i)=\frac{6\theta}{n}\\ Var\left(\hat{\theta}_{MLE}\right)&=\frac{\theta(1-\theta)}{n}< \frac{6\theta}{n}=Var\left(\hat{\theta}_M\right) \end{aligned}

θ^MLE\hat{\theta}_{MLE} 更有效.

  1. 经调查, 健康成年男子脉搏服从正态分布 N(72,112)N\left(72, 11^2\right), 现测得16位成年男子慢性铅中毒患者脉搏平均为 67 , 标准差为 7. 请问在 0.05 置信水平下与正常男子脉搏是否有差异(对均值和方差进行检验). 已知 t0.025(15)=2.131,t0.05(16)=1.753,χ0.9752(15)=6.262,χ0.0252(15)=27.488t_{0.025}(15)=2.131,t_{0.05}(16)=1.753, \chi^2_{0.975}(15)=6.262,\chi^2_{0.025}(15)=27.488.

Solution: 假设成年男子慢性铅中毒患者脉搏服从正态分布 N(μ,σ2)N(\mu,\sigma^2).

首先检验方差

H0:σ=10 v.s. H1:σ10.H_0:\sigma= 10 \ \text{v.s.} \ H_1:\sigma\not = 10.

卡方统计量为

χ2=(n1)s2σ2χ2(15).\chi^2 = \frac{(n-1)s^2}{\sigma^2}\sim \chi^2(15).

从而拒绝域为 W={χ2>χ0.0252(15)=27.488}{χ2<χ0.9752(15)=6.262}W=\{\chi^2 >\chi^2_{0.025}(15)=27.488 \}\cup\{\chi^2 <\chi^2_{0.975}(15)=6.262 \}.

χ2=6.07<6.262\chi^2 = 6.07<6.262, 故拒绝原假设, 我们认为方差有差异.

之后再检验均值, 由于方差有差异, 因此我们采用方差未知的 tt 检验.

检验统计量为

t=n(Xˉμ)st(n1).t = \frac{\sqrt{n}(\bar{X}-\mu)}{s}\sim t(n-1).

从而拒绝域为 W={t>t0.025(15)=2.131}W=\{|t| >t_{0.025}(15)=2.131\}.

t=2.857>2.131|t|=2.857>2.131, 故拒绝原假设, 我们认为均值有差异.

  1. 4行3列的列联表齐一性检验.

Solution: 见韦来生6.5节, 方法同独立性检验, 注意自由度.

  1. {Xi}i=1n\{X_i\}_{i=1}^nμ\mu 的测量值, 测量的方差为 σ2\sigma^2.
    (1) 建立关于 μ\mu 的线性回归模型;
    (2) 求 μ\mu 的估计 μ^\hat{\mu}, μ^\hat{\mu} 有什么样的优良性质;
    (3) 若随机误差服从 N(0,σ2)N(0,\sigma^2), 求 μ\mu 的置信水平 1α1-\alpha 的置信区间.

Solution: (1) Xi=μ+ϵiX_i = \mu +\epsilon_i, 其中 E(ϵiXi)=0,Var(ϵiXi)=σ2E(\epsilon_i|X_i)=0, Var(\epsilon_i|X_i)=\sigma^2.

(2) μ^=1ni=1nXi\hat{\mu}= \frac{1}{n}\sum_{i=1}^n X_i, μ^a.s.μ\hat{\mu}\overset{a.s.}{\to} \mu.

(3)

[Xˉu1α/2σn,Xˉ+u1α/2σn].\left[ \bar{X}-u_{1-\alpha/2}\frac{\sigma}{\sqrt{n}},\bar{X}+u_{1-\alpha/2}\frac{\sigma}{\sqrt{n}} \right].