中国科学技术大学-432统计学-2020年

一、(20分) 有甲乙两个工厂一起生产某产品, 甲生产占40%40 \%, 乙生产占 60%60 \%, 若甲生产次品率为 1%1 \%, 乙生产次品率为 2%2 \%, 现从生产物品中取出一件为次品, 问该物品为甲工厂生产的概率?

Solution: 记事件 A=A= “取甲生产物品”, B=B= “取物品为次品”, 则

P(AB)=P(AB)P(B)=0.4×0.010.4×0.01+0.6×0.02=0.25.P(A \mid B)=\frac{P(A B)}{P(B)}=\frac{0.4 \times 0.01}{0.4 \times 0.01+0.6 \times 0.02}=0.25 .

二、(15分) X1,,XnX_1,\cdots,X_n为独立同分布的正值随机变量, 求 E[XiX1+X2++Xn].E\left[ \frac{X_i}{X_1+X_2+\cdots +X_n} \right] .

Solution:
由于 X1,X2,XnX_{1}, X_{2}, \cdots X_{n} 独立同分布, 故有: XiX1+X2++Xn(i=1,2,,n)\frac{X_{i}}{X_{1}+X_{2}+\cdots+X_{n}}(i=1,2, \cdots, n) 同分 布, 于是 1=E(X1+X2++XnX1+X2++Xn)=i=1nE(XiX1+X2++Xn)1=E\left(\frac{X_{1}+X_{2}+\cdots+X_{n}}{X_{1}+X_{2}+\cdots+X_{n}}\right)=\sum_{i=1}^{n} E\left(\frac{X_{i}}{X_{1}+X_{2}+\cdots+X_{n}}\right), 所以有 E(XiX1+X2++Xn)=1n.E\left(\frac{X_{i}}{X_{1}+X_{2}+\cdots+X_{n}}\right)=\frac{1}{n} .

三、(20分) 有来自总体f(x)=1θexθθI{x>θ}f(x)=\frac{1}{\theta}e^{-\frac{x-\theta}{\theta}}I_{\{x>\theta\}}的随机样本X1,,XnX_1,\cdots,X_n, 请分别用Xˉ\bar{X}X(1)X_{(1)}构造θ\theta1α1-\alpha置信区间, 并比较哪个更优?

Solution:
作总体变换, 令 Yi=XiθExp(1θ)Y_{i}=X_{i}-\theta \sim \operatorname{Exp}\left(\frac{1}{\theta}\right), 则 Y1,,YnY_{1}, \cdots, Y_{n} 是来自均值为 θ\theta 的指数分布的 样本, 故有结论 Y(1)Exp(nθ),nYˉGa(n,1θ)Y_{(1)} \sim \operatorname{Exp}\left(\frac{n}{\theta}\right), n \bar{Y} \sim G a\left(n, \frac{1}{\theta}\right), 可以将其变为卡方分布, 即有

2nθY(1)χ2(2),2nθYˉχ2(2n),\frac{2 n}{\theta} Y_{(1)} \sim \chi^{2}(2), \frac{2 n}{\theta} \bar{Y} \sim \chi^{2}(2 n),

因此 T1=2nθ(X(1)θ)χ2(2)T_{1}=\frac{2 n}{\theta}\left(X_{(1)}-\theta\right) \sim \chi^{2}(2)T2=2nθ(Xˉθ)χ2(2n)T_{2}=\frac{2 n}{\theta}(\bar{X}-\theta) \sim \chi^{2}(2 n) 是枢轴量. 基于这两个枢轴量可以导出等尾置信区间, 即

 区间一: [X(1)1+χ1α22(2)2n,X(1)1+χα22(2)2n] 区间二: [Xˉ1+χ1α22(2n)2n,Xˉ1+χα22(2n)2n]\text { 区间一: }\left[\frac{X_{(1)}}{1+\frac{\chi_{1-\frac{\alpha}{2}}^{2}(2)}{2 n}}, \frac{X_{(1)}}{1+\frac{\chi_{\frac{\alpha}{2}}^{2}(2)}{2 n}}\right] \text { 区间二: }\left[\frac{\bar{X}}{1+\frac{\chi_{1-\frac{\alpha}{2}}^{2}(2 n)}{2 n}}, \frac{\bar{X}}{1+\frac{\chi_{\frac{\alpha}{2}}^{2}(2 n)}{2 n}}\right]

关于优良性, 我们认为区间一更精确, 因为可以比较区间长度, 区间一的长度是 C1=(χ1α/22(2)χα/22(2))/2n(1+χ1α/22(2)2n)(1+χα/22(2)2n)X(1)C_{1}=\frac{\left(\chi_{1-\alpha / 2}^{2}(2)-\chi_{\alpha / 2}^{2}(2)\right) / 2 n}{\left(1+\frac{\chi_{1-\alpha / 2}^{2}(2)}{2 n}\right)\left(1+\frac{\chi_{\alpha / 2}^{2}(2)}{2 n}\right)} X_{(1)}, 由于 χ1α/22(2),χα/22(2)\chi_{1-\alpha / 2}^{2}(2), \chi_{\alpha / 2}^{2}(2) 都是常数, 故其分母趋 于 1 , 而分子趋于 0 , 且与 1n\frac{1}{n} 同阶. 区间二长度是 C2=(χ1α/22(2n)χα/22(2n))/2n(1+χ1α/22(2n)2n)(1+χα/22(2n)2n)XˉC_{2}=\frac{\left(\chi_{1-\alpha / 2}^{2}(2 n)-\chi_{\alpha / 2}^{2}(2 n)\right) / 2 n}{\left(1+\frac{\chi_{1-\alpha / 2}^{2}(2 n)}{2 n}\right)\left(1+\frac{\chi_{\alpha / 2}^{2}(2 n)}{2 n}\right)} \bar{X}, 由于在这里分子分母中的分 位数 χ1α/22(2n),χα/22(2n)\chi_{1-\alpha / 2}^{2}(2 n), \chi_{\alpha / 2}^{2}(2 n)nn 而动, 故需要进一步探讨, 先考虑分母, 根据 χα/22(2n)\chi_{\alpha / 2}^{2}(2 n) 的定义, 有

P(Yχα/22(2n))=α/2 即 P(Y2n2nnχα/22(2n)2n2n)=α/2P\left(Y \leq \chi_{\alpha / 2}^{2}(2 n)\right)=\alpha / 2 , \text { 即 } P\left(\frac{Y-2 n}{2 \sqrt{n}} \leq \sqrt{n} \frac{\chi_{\alpha / 2}^{2}(2 n)-2 n}{2 n}\right)=\alpha / 2 ,

其中 Yχ2(2n)Y \sim \chi^{2}(2 n), 根据中心极限定理, 有 Y2n2ndN(0,1)\frac{Y-2 n}{2 \sqrt{n}} \stackrel{d}{\rightarrow} N(0,1), 故由上式可看出

nχα/22(2n)2n2nzα/2\sqrt{n} \frac{\chi_{\alpha / 2}^{2}(2 n)-2 n}{2 n} \rightarrow z_{\alpha / 2}

故有 χα/22(2n)2n2n0\frac{\chi_{\alpha / 2}^{2}(2 n)-2 n}{2 n} \rightarrow 0, 因此 χα/22(2n)2n1\frac{\chi_{\alpha / 2}^{2}(2 n)}{2 n} \rightarrow 1, 同理 χ1α+β22(2n)2n1\frac{\chi_{1-\alpha+\beta_{2}}^{2}(2 n)}{2 n} \rightarrow 1, 故有 C2C_{2} 的分 母收玫于常数 4. 再考虑分子, 由于

P(χα/22(2n)Yχ1α/22(2n))=1αP\left(\chi_{\alpha / 2}^{2}(2 n) \leq Y \leq \chi_{1-\alpha / 2}^{2}(2 n)\right)=1-\alpha

P(χα/22(2n)2n2nY2n2nχ1α/22(2n)2n2n)=1αP\left(\frac{\chi_{\alpha / 2}^{2}(2 n)-2 n}{\sqrt{2 n}} \leq \frac{Y-2 n}{\sqrt{2 n}} \leq \frac{\chi_{1-\alpha / 2}^{2}(2 n)-2 n}{\sqrt{2 n}}\right)=1-\alpha, 再次根据中心极 限定理, 我们得知 χ1α/22(2n)χα/22(2n)2n\frac{\chi_{1-\alpha / 2}^{2}(2 n)-\chi_{\alpha / 2}^{2}(2 n)}{\sqrt{2 n}} 是收玫于正常数的, 故对 C2C_{2} 而言, 其分子与 1n\frac{1}{\sqrt{n}} 同阶, 比 C1C_{1} 更慢收玫于 0 , 再考虑到 X(1)XˉX_{(1)} \leq \bar{X}, 故当 nn 足够大时, 区间一更短.

注: 科大学硕 812 在 2019 年也考察了此题, 在那里我讨论了最短置信区间, 感兴趣可以查看.

四、(20分) 已知XX有密度函数

f(x)={θxlnθ,x>0,0,x0,f\left( x \right) =\begin{cases} -\theta ^x\ln \theta ,& x>0,\\ 0,& x\le 0,\\ \end{cases}

其中θ(0,1)\theta \in (0,1), X1,,XnX_1,\cdots,X_n是来自XX的随机样本, 试求

(1) θ\theta的最大似然估计;

(2) 1lnθ\frac{1}{\ln \theta}的最大似然估计.

Solution:
作参数变换, 令 λ=lnθ>0\lambda=-\ln \theta>0, 则有 XX 的密度函数是 f(x)=λeλx,x>0f(x)=\lambda e^{-\lambda x}, x>0, 这是参 数为 λ\lambda 的指数分布, 其 MLE 是 λ^=1Xˉ\hat{\lambda}=\frac{1}{\bar{X}}, 由 MLE 的不变性, 立即得

θ^=eλ^=e1Xˉ,1^lnθ=1λ^=Xˉ.\hat{\theta}=e^{-\hat{\lambda}}=e^{-\frac{1}{\bar{X}}}, \frac{\widehat{1}}{\ln \theta}=-\frac{1}{\hat{\lambda}}=-\bar{X} .

五、(15分) 已知X1,,XnX_1,\cdots,X_n是来自于指数分布f(x)=1θexθI{x>0}f(x)=\frac{1}{\theta}e^{-\frac{x}{\theta}}I_{\{x>0\}}的随机样本, 试求

(1) X(1)X_{(1)}X(n)X_{(n)}的密度函数;

(2) T=2(X(1)+(n1)X(2))θT=\frac{2\left( X_{\left( 1 \right)}+\left( n-1 \right) X_{\left( 2 \right)} \right)}{\theta}的密度函数.

Solution: (1) 由次序统计量分布结论, 有

fX(j)(x)=nθexp{nxθ},x>0fX(j)(x)=nθexp{xθ}{1exp(xθ)}n1,x>0.\begin{gathered} f_{X_{(j)}}(x)=\frac{n}{\theta} \exp \left\{-\frac{n x}{\theta}\right\}, \quad x>0 \\ f_{X_{(j)}}(x)=\frac{n}{\theta} \exp \left\{-\frac{x}{\theta}\right\}\left\{1-\exp \left(-\frac{x}{\theta}\right)\right\}^{n-1}, \quad x>0 . \end{gathered}

(2) 作总体变换, 令 Yi=XiθExp i.i.d. (1)Y_{i}=\frac{X_{i}}{\theta} \stackrel{\text { i.i.d. }}{\operatorname{} E x p}(1), 由次序统计量分布结论, 有 (Y(1),Y(2))\left(Y_{(1)}, Y_{(2)}\right) 的联合 密度是

fY(0),Y(2)(y(1),y(2))=n(n1)exp{(n1)y(2)y(1)},y(1)<y(2),f_{Y_{(0)}, Y_{(2)}}\left(y_{(1)}, y_{(2)}\right)=n(n-1) \exp \left\{-(n-1) y_{(2)}-y_{(1)}\right\}, \quad y_{(1)}<y_{(2)},

作变量变换,

{T=2Y(1)+2(n1)Y(2),U=2Y(1)2(n1)Y(2),{Y(1)=(U+T)/4Y(2)=(TU)/(4n4),\left\{\begin{array} { l } { T = 2 Y _ { ( 1 ) } + 2 ( n - 1 ) Y _ { ( 2 ) } , } \\ { U = 2 Y _ { ( 1 ) } - 2 ( n - 1 ) Y _ { ( 2 ) } , } \end{array} \Longrightarrow \left\{\begin{array}{l} Y_{(1)}=(U+T) / 4 \\ Y_{(2)}=(T-U) /(4 n-4), \end{array}\right.\right.

对应的雅可比行列式为

J=141414(n1)14(n1)=18(n1)J=\left|\begin{array}{cc} \frac{1}{4} & \frac{1}{4} \\ \frac{1}{4(n-1)}-\frac{1}{4(n-1)} \end{array}\right|=-\frac{1}{8(n-1)}

故有

fT,U(t,u)=18(n1)fYC0,Y(2)(tu4n4,t+u4)=n8et2f_{T, U}(t, u)=\frac{1}{8(n-1)} f_{Y_{C_{0}, Y_{(2)}}}\left(\frac{t-u}{4 n-4}, \frac{t+u}{4}\right)=\frac{n}{8} e^{-\frac{t}{2}}

其中 t>0,t<u<2nntt>0,-t<u<\frac{2-n}{n} t, 积掉 uu, 有

fT(t)=t2nnt18nexp{t2}du=14tet2,t>0.f_{T}(t)=\int_{-t}^{\frac{2-n}{n} t} \frac{1}{8} n \exp \left\{-\frac{t}{2}\right\} d u=\frac{1}{4} t e^{-\frac{t}{2}}, \quad t>0 .

六、(20分) 设X1,,XnX_1,\cdots,X_n是来自N(μ1,σ12)N(\mu_1,\sigma_1^2)的随机样本, Y1,,YnY_1,\cdots,Y_n是来自N(μ2,σ22)N(\mu_2,\sigma^2_2)的随机样本.

(1) 对于假设检验问题H0:σ12=σ22H_0:\sigma_1^2=\sigma_2^2, 试给出检验全过程(备择假设是其对立);

(2) 如果σ12=σ22\sigma_1^2=\sigma_2^2, 对于假设检验问题H0:μ1<μ2H_0:\mu_1 < \mu_2, 试给出检验全过程(备择假设是其对立).

Solution: (1) 由于样本方差 S12,S22S_{1}^{2}, S_{2}^{2} 满足

(n1)S12σ12χ2(n1),(n1)S22σ22χ2(n1),\frac{(n-1) S_{1}^{2}}{\sigma_{1}^{2}} \sim \chi^{2}(n-1), \quad \frac{(n-1) S_{2}^{2}}{\sigma_{2}^{2}} \sim \chi^{2}(n-1),

且它们相互独立, 故在原假设成立的情况下有 F=S12S22F(n1,n1)F=\frac{S_{1}{ }^{2}}{S_{2}{ }^{2}} \sim F(n-1, n-1), 显然如果统 计量 FF 过大或过小我们都会拒绝原假设, 为满足其水平为 α\alpha, 因此拒绝域为

W={F<Fα2(n1,n1)}{F>F1α2(n1,n1)}W=\left\{F<F_{\frac{\alpha}{2}}(n-1, n-1)\right\} \cup\left\{F>F_{1-\frac{\alpha}{2}}(n-1, n-1)\right\} \text {. }

(2) 当原假设成真时, 有 T=XˉYˉSw2nt(2n2)T=\frac{\bar{X}-\bar{Y}}{S_{w} \sqrt{\frac{2}{n}}} \sim t(2 n-2), 显然当统计量 TT 过大我们会拒绝原假 设, 为满足其水平为 α\alpha, 因此拒绝域为 W={T>t1α(2n2)}W=\left\{T>t_{1-\alpha}(2 n-2)\right\}. 注意其中 S22=(n1)S12+(n1)S222n2S_{2}^{2}=\frac{(n-1) S_{1}^{2}+(n-1) S_{2}^{2}}{2 n-2}.

七、(20分) 叙述 2×2 的列联表独立性检验原理.

Solution:
假设有两个离散分布总体 X,YX, Y, 分别有 m,nm, n 种取值, 根据样本得到的信息: 事件 (X=xi,Y=yj)\left(X=x_{i}, Y=y_{j}\right) 被观测到的次数是 NijN_{i j} 次, i=1,2,,m,j=1,2,,ni=1,2, \ldots, m, j=1,2, \ldots, n. 根据样本 信息来判断 X,YX, Y 是否独立.其被称为列联表的原因就是该问题可以被写成一个类 似二元离散分布的列联表.

我们知道, 如果 X,YX, Y 独立, 那么应该可以在样本种观察到 NijN=NiNN.jN\frac{N_{i j}}{N}=\frac{N_{i}}{N} \cdot \frac{N_{. j}}{N} 对所有 i,ji, j 都近似成立, 也就是在直观上讲如果 i=1mj=1n(NijNiN.j/N)2\sum_{i=1}^{m} \sum_{j=1}^{n}\left(N_{i j}-N_{i} \cdot N_{. j}/N\right)^{2} 越小, 我们就认为越 有可能是独立的. 但实际上, 每个事件的偏离程度是不一样的, 也就是 NiNjN_{i\cdot} N_{\cdot j} 的量级越大,则它本身发生偏差的可能性就越大, 故我们要标准化每个事件的偏离程度, 即用 1NiNj\frac{1}{N_{i} \cdot N_{\cdot j}} 作为每个事件的权重, 如果 i=1mj=1n(NijNiNj/N)2NiNj\sum_{i=1}^{m} \sum_{j=1}^{n} \frac{\left(N_{i j}-N_{i} \cdot N_{\cdot j}/N \right)^{2}}{N_{i} \cdot N_{\cdot j}} 越小, 我们就认为越有可 能是独立的.
恰好, 统计量 i=1mj=1n(NijNiNj/N)2NiNj\sum_{i=1}^{m} \sum_{j=1}^{n} \frac{\left(N_{i j}-N_{i} \cdot N_{\cdot j}/N\right)^{2}}{N_{i} \cdot N_{\cdot j}} 近似服从 χ2((m1)(n1))\chi^{2}((m-1)(n-1)) (可以自己思考一下自由度的问题, 课程和书本都有), 这就给了我们一个很好的用来检验独立性的统计量. 这就是 m×nm \times n 的列联表独立性检验的方法.

八、(20分) 已知连续型随机变量X1,,Xm,Y1,,YnX_1,\cdots,X_m,Y_1,\cdots,Y_n独立同分布, 令φ(t)=I(t>0)\varphi(t)=I_{(t>0)}, 记T=i=1mj=1nφ(xiyj)T=\sum_{i=1}^m{\sum_{j=1}^n{\varphi \left( x_i-y_j \right)}}, 试求

(1) ETET;

(2) Var(T)Var(T).

Solution:
(1) 记 Tij=φ(XiYj)B(1,12)T_{i j}=\varphi\left(X_{i}-Y_{j}\right) \sim B\left(1, \frac{1}{2}\right), 其中参数 12\frac{1}{2} 由对称性得来. 故有

E(T)=E(i=1mj=1nTij)=i=1mj=1nE(Tij)=mn2.E(T)=E\left(\sum_{i=1}^{m} \sum_{j=1}^{n} T_{i j}\right)=\sum_{i=1}^{m} \sum_{j=1}^{n} E\left(T_{i j}\right)=\frac{m n}{2} .

(2) 记 Si=j=1nTijS_{i}=\sum_{j=1}^{n} T_{i j}, 考虑

Var(T)=Var(i=1mSi)=mVar(S1)+m(m1)Cov(S1,S2)\operatorname{Var}(T)=\operatorname{Var}\left(\sum_{i=1}^{m} S_{i}\right)=m \operatorname{Var}\left(S_{1}\right)+m(m-1) \operatorname{Cov}\left(S_{1}, S_{2}\right) \text {, }

其中 Var(S1)=Var(j=1nT1j)=nVar(T11)+n(n1)Cov(T11,T12)\operatorname{Var}\left(S_{1}\right)=\operatorname{Var}\left(\sum_{j=1}^{n} T_{1 j}\right)=n \operatorname{Var}\left(T_{11}\right)+n(n-1) \operatorname{Cov}\left(T_{11}, T_{12}\right), 而由对称性, X1X_{1} 在组合 (X1,Y1,Y2)\left(X_{1}, Y_{1}, Y_{2}\right) 中居最大的概率是 13\frac{1}{3}, 故有

Cov(T11,T12)=E(T11T12)14=P(X1>Y1,X1>Y2)14=112,\operatorname{Cov}\left(T_{11}, T_{12}\right)=E\left(T_{11} T_{12}\right)-\frac{1}{4}=P\left(X_{1}>Y_{1}, X_{1}>Y_{2}\right)-\frac{1}{4}=\frac{1}{12},

因此 Var(S1)=n4+n(n1)12\operatorname{Var}\left(S_{1}\right)=\frac{n}{4}+\frac{n(n-1)}{12}. 再考虑 Cov(S1,S2)\operatorname{Cov}\left(S_{1}, S_{2}\right), 有

Cov(S1,S2)=Cov(j=1nT1j,j=1nT2j)=j=1nCov(T1j,T2j)=nCov(T11,T21)=n12,\begin{gathered} \operatorname{Cov}\left(S_{1}, S_{2}\right)=\operatorname{Cov}\left(\sum_{j=1}^{n} T_{1 j}, \sum_{j=1}^{n} T_{2 j}\right)=\sum_{j=1}^{n} \operatorname{Cov}\left(T_{1 j}, T_{2 j}\right) \\ =\operatorname{nCov}\left(T_{11}, T_{21}\right)=\frac{n}{12}, \end{gathered}

Var(T)=mn4+mn(n1)12+mn(m1)12=mn(m+n+1)12\operatorname{Var}(T)=\frac{m n}{4}+\frac{m n(n-1)}{12}+\frac{m n(m-1)}{12}=\frac{m n(m+n+1)}{12}