中国科学技术大学-812概率论与数理统计-2023年

一、(16分) 袋中有 aa 个白球和 bb 个黑球. 第一次如果摸出白球则放回, 同时再放进一个白球, 如果第一次摸出黑球同理. 以此类推, 第 kk, 如果摸出白球则放回, 同时再放进 kk 个白球, 黑球同理. 问第 nn 次摸到白球的概率.

Solution: 设第 n1n-1 次取球后, 第 nn 次取球前, 袋中白球数为 XnX_n, 此时袋中总球数应为

(a+b)+k=1n1k=(a+b)+(n1)n2,(a+b)+\sum_{k=1}^{n-1} k = (a+b) + \frac{(n-1)n}{2},

故所求概率是 pn=E(Xn)(a+b)+(n1)n2p_n = \frac{E(X_n)}{(a+b) + \frac{(n-1)n}{2}}. 现用条件期望法求 E(Xn)E(X_n), 当 Xn1=xX_{n-1}=x 给定时, 有

E(XnXn1=x)=(x+n1)x(a+b)+(n2)(n1)2+x(1x(a+b)+(n2)(n1)2)=(a+b)+(n1)n2(a+b)+(n2)(n1)2x,\begin{aligned} E\left( X_n\mid X_{n-1}=x \right) &=\left( x+n-1 \right) \cdot \frac{x}{\left( a+b \right) +\frac{\left( n-2 \right) \left( n-1 \right)}{2}}+x\cdot \left( 1-\frac{x}{\left( a+b \right) +\frac{\left( n-2 \right) \left( n-1 \right)}{2}} \right)\\ &=\frac{\left( a+b \right) +\frac{\left( n-1 \right) n}{2}}{\left( a+b \right) +\frac{\left( n-2 \right) \left( n-1 \right)}{2}}x,\\ \end{aligned}

这说明了

E(XnXn1)=(a+b)+(n1)n2(a+b)+(n2)(n1)2Xn1,E\left( X_n\mid X_{n-1} \right) =\frac{\left( a+b \right) +\frac{\left( n-1 \right) n}{2}}{\left( a+b \right) +\frac{\left( n-2 \right) \left( n-1 \right)}{2}}X_{n-1},

重期望公式揭示了

E(Xn)=(a+b)+(n1)n2(a+b)+(n2)(n1)2E(Xn1),E(Xn)(a+b)+(n1)n2=E(Xn1)(a+b)+(n2)(n1)2,E\left( X_n \right) =\frac{\left( a+b \right) +\frac{\left( n-1 \right) n}{2}}{\left( a+b \right) +\frac{\left( n-2 \right) \left( n-1 \right)}{2}}E\left( X_{n-1} \right) ,\quad \Rightarrow \quad \frac{E\left( X_n \right)}{\left( a+b \right) +\frac{\left( n-1 \right) n}{2}}=\frac{E\left( X_{n-1} \right)}{\left( a+b \right) +\frac{\left( n-2 \right) \left( n-1 \right)}{2}},

这也说明

pn=pn1==p1=aa+b.p_n=p_{n-1}=\cdots=p_1 = \frac{a}{a+b}.


二、(20分) 设总体的分布是 f(x)=3x2,0<x<1f(x)=3x^2,0<x<1, 从中抽取 i.i.d. 样本 x1,,xnx_1,\cdots,x_n.

(1) 求 (x(1),,x(n))(x_{(1)},\cdots,x_{(n)}) 即次序统计量的密度函数;
(2) 证明: X(i)X(j)\frac{X_{(i)}}{X_{(j)}}, X(j)X_{(j)} 独立, 其中 1i<jn1\le i < j\le n.

Solution: (1) 联合密度是

f(X)=3ni=1nxi2,0<xi<1,f(X)=3^n\prod_{i=1}^n x_i^2,\quad 0<x_i<1,

由次序统计量密度公式有

p(x(1),,x(n))=n!3ni=1nx(i)2,0<x(1)<<x(n)<1.p(x_{(1)},\cdots,x_{(n)})= n!3^n \prod_{i=1}^n x_{(i)}^2, \quad 0<x_{(1)}<\cdots<x_{(n)}<1.

(2) 根据次序统计量密度公式, (X(i),X(j))(X_{(i)},X_{(j)}) 的密度是

pi,j(u,v)=n!(i1)!(ji1)!(nj)!u3(i1)3u2(v3u3)ji13v2(1v3)nj=Cu3i1v2(v3u3)ji1(1v3)nj,0<u<v<1,\begin{aligned} p_{i,j}\left( u,v \right) &=\frac{n!}{\left( i-1 \right) !\left( j-i-1 \right) !\left( n-j \right) !}u^{3\left( i-1 \right)}\cdot 3u^2\cdot \left( v^3-u^3 \right) ^{j-i-1}\cdot 3v^2\cdot \left( 1-v^3 \right) ^{n-j}\\ &=C\cdot u^{3i-1}v^2\left( v^3-u^3 \right) ^{j-i-1}\left( 1-v^3 \right) ^{n-j},\quad 0<u<v<1,\\ \end{aligned}

作变量变换:

{Z=X(i)X(j),W=X(j),{z=uv,w=v,{u=zw,v=w,\begin{cases} Z=\frac{X_{\left( i \right)}}{X_{\left( j \right)}},\\ W=X_{\left( j \right)},\\ \end{cases}\quad \Rightarrow \quad \begin{cases} z=\frac{u}{v},\\ w=v,\\ \end{cases}\quad \Rightarrow \quad \begin{cases} u=zw,\\ v=w,\\ \end{cases}

对应的雅可比行列式是 J=wz01=wJ=\left| \begin{matrix} w& z\\ 0& 1\\ \end{matrix} \right|=w, 因此有

pZ,W(z,w)=wpi,j(zw,w)=wC(zw)3i1w2(w3(zw)3)ji1(1w3)nj=Cz3i1(1z3)ji1w3j1(1w3)nj,0<z<1,0<w<1.\begin{aligned} p_{Z,W}\left( z,w \right) &=wp_{i,j}\left( zw,w \right) =wC\left( zw \right) ^{3i-1}w^2\left( w^3-\left( zw \right) ^3 \right) ^{j-i-1}\left( 1-w^3 \right) ^{n-j}\\ &=Cz^{3i-1}\left( 1-z^3 \right) ^{j-i-1}w^{3j-1}\left( 1-w^3 \right) ^{n-j},\quad 0<z<1,0<w<1.\\ \end{aligned}

可因式分解, Z,WZ,W 独立.


三、(16分) 设 (X,Y)(X,Y) 的密度函数是

f(x,y)={14(112xy),(x,y)D1,0,其他,f\left( x,y \right) =\begin{cases} \frac{1}{4}\left( 1-\frac{1}{2}\left| x-y \right| \right) ,& \left( x,y \right) \in D_1,\\ 0,& \text{其他},\\ \end{cases}

其中 D1={(x,y):x+y<2,xy<2}D_1=\left\{ \left( x,y \right) :\left| x+y \right|<2,\left| x-y \right|<2 \right\}.

(1) 求 X+YX+Y 的分布函数;
(2) 给定 X=YX=Y, 求 X+YX+Y 的条件分布.

Solution: (1) 作变量变换: U=X+Y,V=XYU=X+Y,V=X-Y, 有 u<2,v<2|u|<2,|v|<2, 得到 (U,V)(U,V) 的 p.d.f. 是

fU,V(u,v)=Jf(u+v2,uv2)=18(1v),2<u<2,2<v<2,f_{U,V}\left( u,v \right) =|J|f\left( \frac{u+v}{2},\frac{u-v}{2} \right) =\frac{1}{8}(1-|v|),\quad -2<u<2,-2<v<2,

它们独立, 且 UU(2,2)(-2,2)上均匀分布. 故有 UU 的 c.d.f. 是

P(Uu)=u+24,u(2,2).P\left( U\le u \right) =\frac{u+2}{4},\quad u\in \left( -2,2 \right) .

(2) X=YX=Y 对应 V=0V=0, 然而 (U,V)(U,V) 独立, 故此时 UU 的条件分布还是 U(2,2)U(-2,2).


四、(16分) 已知标准柯西分布密度函数

f(x)=1π(1+x2),xR,f(x)=\frac{1}{\pi(1+x^2)},\quad x\in R,

且有 X1,,XnX_1,\cdots,X_n 是 i.i.d. 的该分布. 记

Tn=max{X1,,Xn},T_n = \max \{X_1,\cdots,X_n\},

证明: πnTn\frac{\pi}{n}T_n 按分布收敛于某分布 TT.

Solution: 根据最大值定义, 首先对 t<0t<0, 有

P(πnTnt)=Pn(X1ntπ)=(1πarctan(ntπ)+12)n(12)n0.P\left( \frac{\pi}{n}T_n\le t \right) =P^n\left( X_1\le \frac{nt}{\pi} \right) =\left( \frac{1}{\pi}\mathrm{arc}\tan \left( \frac{nt}{\pi} \right) +\frac{1}{2} \right) ^n\le \left( \frac{1}{2} \right) ^n\rightarrow 0.

t>0t>0, 则是一个 11^{\infty} 型未定式, 我们利用 arctanx+arctan1x=π2\mathrm{arc}\tan x + \mathrm{arc}\tan \frac{1}{x} = \frac{\pi}{2}, 得到

12+1πarctan(ntπ)=12+1π(π2arctan(πnt))=11πarctan(πnt),\frac{1}{2}+\frac{1}{\pi}\mathrm{arc}\tan \left( \frac{nt}{\pi} \right) =\frac{1}{2}+\frac{1}{\pi}\left( \frac{\pi}{2}-\mathrm{arc}\tan \left( \frac{\pi}{nt} \right) \right) =1-\frac{1}{\pi}\mathrm{arc}\tan \left( \frac{\pi}{nt} \right) ,

因此有

P(πnTnt)=(11πarctan(πnt))nen1πarctan(πnt)e1t.P\left( \frac{\pi}{n}T_n\le t \right) =\left( 1-\frac{1}{\pi}\mathrm{arc}\tan \left( \frac{\pi}{nt} \right) \right) ^n\sim e^{-n\cdot \frac{1}{\pi}\mathrm{arc}\tan \left( \frac{\pi}{nt} \right)} \to e^{-\frac{1}{t}}.

这已经说明了结论.


五、(42分) 已知总体密度函数是

f(x;σ)=xσ2ex22σ2,x>0,f\left( x;\sigma \right) =\frac{x}{\sigma ^2}e^{-\frac{x^2}{2\sigma ^2}},\quad x>0,

且有随机样本 x1,,xnx_1,\cdots,x_n.

(1) 求 X2X^2 的分布;
(2) 求 σ2\sigma^2 的MLE;
(3) 证明MLE的无偏性;
(4) 求 σ\sigma 的矩估计, 已知 Γ(1/2)=π\Gamma(1/2)=\sqrt{\pi};
(5) 给出 H0:σ2=1vsH1:σ2>1H_0:\sigma^2 =1 \quad \mathrm{vs} \quad H_1:\sigma^2>1 的水平为 α\alpha 的拒绝域;
(6) 在大样本下, 利用中心极限定理给出上一问假设检验问题的近似水平为 α\alpha 的拒绝域.

Solution: (1) 利用分布函数法, 有

P(X2y)=P(Xy),fX2(y)=f(y)12y=12σ2ey2σ2.P\left( X^2\le y \right) =P\left( X\le \sqrt{y} \right) ,\quad f_{X^2}\left( y \right) =f\left( \sqrt{y} \right) \frac{1}{2\sqrt{y}}=\frac{1}{2\sigma ^2}e^{-\frac{y}{2\sigma ^2}}.

实际上是均值为 2σ22\sigma^2 的指数分布.

(2) 不妨考虑 Y=X2Y=X^2 的样本, 根据指数分布性质, 2σ^L2=yˉ=1ni=1nxi22\hat{\sigma}^2_L = \bar{y}= \frac{1}{n}\sum_{i=1}^n x_i^2, 因此有

σ^L2=12ni=1nxi2.\hat{\sigma}^2_L = \frac{1}{2n}\sum_{i=1}^n x_i^2.

(3) 由于 E(Y)=2σ2E(Y)= 2\sigma^2, 因此 E(yˉ)=2σ2E(\bar{y})=2\sigma^2, 故 E(σ^L2)=σ2E(\hat{\sigma}^2_L)=\sigma^2, 无偏.

(4) 先求 E(X)E(X), 有

E(X)=0+x2σ2ex22σ2dx=12+x2σ2ex22σ2dx=2π2σ+x22πσex22σ2dx=π2σ.E\left( X \right) =\int_0^{+\infty}{\frac{x^2}{\sigma ^2}e^{-\frac{x^2}{2\sigma ^2}}dx}=\frac{1}{2}\int_{-\infty}^{+\infty}{\frac{x^2}{\sigma ^2}e^{-\frac{x^2}{2\sigma ^2}}dx}=\frac{\sqrt{2\pi}}{2\sigma}\int_{-\infty}^{+\infty}{\frac{x^2}{\sqrt{2\pi}\sigma}e^{-\frac{x^2}{2\sigma ^2}}dx}=\sqrt{\frac{\pi}{2}}\sigma .

因此有 σ^M=2πxˉ\hat{\sigma}_M = \sqrt{\frac{2}{\pi}} \bar{x}.

(5) 不妨考虑 YY 的样本, 这是指数分布, 其 UMPT 由 W={k=1nyk>C}W=\{\sum_{k=1}^n y_k>C\} 给出, 利用原假设成立时, YExp(12)=χ2(2)Y\sim Exp(\frac{1}{2})=\chi^2(2), 有 k=1nykχ2(2n)\sum_{k=1}^n y_k\sim \chi^2(2n), 故 C=χ1α2(2n)C= \chi^2_{1-\alpha}(2n), 因此该问题的水平为 α\alpha 的 UMPT 是

W1={k=1nxk2>χ1α2(2n)}.W_1=\left\{ \sum_{k=1}^n{x_{k}^{2}}>\chi _{1-\alpha}^{2}\left( 2n \right) \right\} .

(6) 同理, 利用 CLT, 原假设成立时有近似分布

k=1nyk2n2nAN(0,1),\frac{\sum_{k=1}^n{y_k}-2n}{2\sqrt{n}}\sim AN\left( 0,1 \right) ,

故有 C=2n+2nu1αC= 2n + 2\sqrt{n} u_{1-\alpha}, 汇总得

W2={k=1nxk2>2n+2nu1α}.W_2=\left\{ \sum_{k=1}^n{x_{k}^{2}}>2n+2\sqrt{n}u_{1-\alpha} \right\} .


六、(20分) 设 XB(1,p)X\sim B(1,p), 有 i.i.d. 样本 x1,,xnx_1,\cdots,x_n.
(1) 给出充分完备统计量;
(2) 求 g(p)=p(1p)g(p)=p(1-p) 的一致最小方差无偏估计.

Solution: (1) 写出联合密度函数, 是

f(X;p)=pi=1nxi(1p)ni=1nxi=(1p)n(p1p)i=1nxi,f\left( X;p \right) =p^{\sum_{i=1}^n{x_i}}\left( 1-p \right) ^{n-\sum_{i=1}^n{x_i}}=\left( 1-p \right) ^n\cdot \left( \frac{p}{1-p} \right) ^{\sum_{i=1}^n{x_i}},

根据指数族性质, T=i=1nXiT=\sum_{i=1}^nX_i 是其充分完备统计量.

(2) 令 g^=T(nT)n(n1)\hat{g} = \frac{T(n-T)}{n(n-1)}, 利用 TB(n,p)T\sim B(n,p), 有

E[T(nT)]=k=0nk(nk)n!k!(nk)!pk(1p)nk=k=1n1k(nk)n!k!(nk)!pk(1p)nk=k=1n1n!(k1)!(nk1)!pk(1p)nk=n(n1)p(1p)k=1n1(n2)!(k1)!(nk1)!pk1(1p)nk1=n(n1)p(1p)i=0n2(n2)!i!(n2i)!pi(1p)n2i=n(n1)p(1p).\begin{aligned} E\left[ T\cdot \left( n-T \right) \right] &=\sum_{k=0}^n{k\left( n-k \right) \frac{n!}{k!\left( n-k \right) !}}p^k\left( 1-p \right) ^{n-k}\\ &=\sum_{k=1}^{n-1}{k\left( n-k \right) \frac{n!}{k!\left( n-k \right) !}}p^k\left( 1-p \right) ^{n-k}\\ &=\sum_{k=1}^{n-1}{\frac{n!}{\left( k-1 \right) !\left( n-k-1 \right) !}}p^k\left( 1-p \right) ^{n-k}\\ &=n\left( n-1 \right) p\left( 1-p \right) \sum_{k=1}^{n-1}{\frac{\left( n-2 \right) !}{\left( k-1 \right) !\left( n-k-1 \right) !}}p^{k-1}\left( 1-p \right) ^{n-k-1}\\ &=n\left( n-1 \right) p\left( 1-p \right) \sum_{i=0}^{n-2}{\frac{\left( n-2 \right) !}{i!\left( n-2-i \right) !}}p^i\left( 1-p \right) ^{n-2-i}\\ &=n\left( n-1 \right) p\left( 1-p \right) .\\ \end{aligned}

由 L-S 定理, g^=T(nT)n(n1)\hat{g} = \frac{T(n-T)}{n(n-1)}g(p)=p(1p)g(p)=p(1-p) 的 UMVUE.


七、(20分) 设有回归模型

yi=β0+β1xi+εi,i=1,2,,n,y_i = \beta_0 +\beta_1 x_i + \varepsilon_i,\quad i=1,2,\cdots,n,

其中残差 εN(0,σ2)\varepsilon \sim N(0,\sigma^2). 设 (β^0,β^1)(\hat{\beta}_0,\hat{\beta}_1) 是参数的最小二乘估计.

(1) 给出 β^0\hat{\beta}_0β^1\hat{\beta}_1 的分布;
(2) 求 Cov(β^0,β^1)Cov(\hat{\beta}_0,\hat{\beta}_1);
(3) 利用残差平方和给出 σ2\sigma^2 的无偏估计.

Solution: 本题是经典最小二乘模型, 具体过程可参见茆书定理8.4.1, 这里把答案打出.
(1) (β^0,β^1)(\hat{\beta}_0,\hat{\beta}_1) 的分布是

(β^0β^1)N((β0β1),(1n+xˉ2lxxxˉlxxxˉlxx1lxx)σ2).\left( \begin{array}{c} \hat{\beta}_0\\ \hat{\beta}_1\\ \end{array} \right) \sim N\left( \left( \begin{array}{c} \beta _0\\ \beta _1\\ \end{array} \right) ,\left( \begin{matrix} \frac{1}{n}+\frac{\bar{x}^2}{l_{xx}}& -\frac{\bar{x}}{l_{xx}}\\ -\frac{\bar{x}}{l_{xx}}& \frac{1}{l_{xx}}\\ \end{matrix} \right) \sigma ^2 \right) .

(2) Cov(β^0,β^1)=xˉlxxσ2Cov(\hat{\beta}_0,\hat{\beta}_1)=-\frac{\bar{x}}{l_{xx}}\sigma^2.

(3) 利用 SSEσ2χ2(n2)\frac{SSE}{\sigma^2 }\sim \chi^2(n-2), 则 σ^2=SSEn2\hat{\sigma}^2 = \frac{SSE}{n-2}.