复旦大学-432统计学-2017年

一、(30分) 名词解释

(1)(5分) 样本均值、样本方差;

(2)(5分) 统计量;

(3)(5分) 次序统计量;

(4)(5分) 中位数、样本中位数;

(5)(5分) 经验分布函数;

(6)(5分) 无偏估计.

Solution: (1) 样本均值是在某个特定总体中抽取 nn 个独立随机样木, 计算得到的平均值, 记作Xˉ=1ni=1nXi\bar{X}=\frac{1}{n} \sum_{i=1}^{n} X_{i}, 如果总体的期望存在, 则Xˉ\bar{X}是总体期望的强相合估计. 样本方差则是利用该nn个独立随机样本计算的修正平均离差平方, 修正的意思是取平均时除以的是其自由度n1n-1而并非数据个数nn, 样本方差一般记作 S2=1n1i=1n(XiXˉ)2S^{2}=\frac{1}{n-1} \sum_{i=1}^{n}\left(X_{i}-\bar{X}\right)^{2}, 如果总体的方差存在, 则S2S^{2}也是总体方差的强相合估计.

(2) 统计量是指其表达式中只含样本而不含末知参数的函数, 本质上是随机变量(向量),当然在随机样本的取值给定时, 统计量也可以被看作一个已知的常数(常向量), 这时统计量就是“统计量的观测值”的简称.

(3) 次序统计量是指将随机样本 X1,X2,,XnX_{1}, X_{2}, \ldots, X_{n} 重新由小到大排列成的统计量, 一般由小到大记作X(1),X(2),,X(n)X_{(1)}, X_{(2)}, \ldots, X_{(n)}.

(4) 如果 x0.5x_{0.5} 满足 P{Xx0.5}=0.5P\left\{X \leq x_{0.5}\right\}=0.5 则称 x0.5x_{0.5}为中位数. 而样本中位数m0.5m_{0.5}则是指取到的随机样本中位于中间的数, 若用次序统计量表示就是

m0.5={x(n+12),n= 奇数, x(n2)+x(n2+1)2,n= 偶数.  m_{0.5}= \begin{cases}x_{\left(\frac{n+1}{2}\right)}, & n=\text { 奇数, } \\ \frac{x_{\left(\frac{n}{2}\right)}+x_{\left(\frac{n}{2}+1\right)}}{2}, & n=\text { 偶数. }\end{cases}

(5) 经验分布函数是根据样本信息来对总体分布函数作出的估计, 记作

Fn(x)=1ni=1nI[Xix], F_{n}(x)=\frac{1}{n} \sum_{i=1}^{n} I\left[X_{i} \leq x\right],

根据 Glivenko-Cantelli 定理, 经验分布函数是总体分布函数的一致强相合估计, 即

supxFn(x)F(x)a.s.0. \sup _{x}\left|F_{n}(x)-F(x)\right| \stackrel{a . s .}{\longrightarrow} 0 .

(6) 如果 g^(X1,,Xn)\hat{g}\left(X_{1}, \ldots, X_{n}\right) 满足 Eg^(X1,,Xn)=g(θ)E \hat{g}\left(X_{1}, \ldots, X_{n}\right)=g(\theta), 则称 g^\hat{g}gg 的无偏估计, 无偏性是一 个很重要的优良标准, 但并不是必须的, 如当EXE X存在, 随机样本X1X_{1}总是总体期望的无偏估计, 但你很难说它是一个很好的估计.

二、(20分) X1,X2,X_{1}, X_{2}, i.i.d Exp(1),\sim \operatorname{Exp}(1),

(1)(10分) X1X1+X2\frac{X_{1}}{X_{1}+X_{2}}的密度函数;

(2)(10分) X(2)X(1)X_{(2)}-X_{(1)} 的密度函数.

Solution: (1) 根据题意, 2X1χ2(2),2X2χ2(2)2 X_{1} \sim \chi^{2}(2), 2 X_{2} \sim \chi^{2}(2) 且相互独立, 故 X1X1+X2=2X12X1+2X2Beta(1,1)\frac{X_{1}}{X_{1}+X_{2}}=\frac{2 X_{1}}{2 X_{1}+2 X_{2}} \sim \operatorname{Beta}(1,1), 密度函数为 f(x)=1,0<x<1f(x)=1,0<x<1, 即 U(0,1)U(0,1).

(2) 很容易发现 X(2)X(1)=X1X2X_{(2)}-X_{(1)}=\left|X_{1}-X_{2}\right|, 根据卷积公式有Y=X1X2Y=X_{1}-X_{2} 的密度函数是

f(y)={12ey,y012ey,y<0 f(y)= \begin{cases}\frac{1}{2} e^{-y}, & y \geq 0 \\ \frac{1}{2} e^{y}, & y<0\end{cases}

Y|Y| 的密度函数是f(x)=ey,y0f(x)=e^{-y}, y \geq 0.

[注] 若 Xχ2(m),Yχ2(n)X \sim \chi^{2}(m), Y \sim \chi^{2}(n), 且相互独立, 则

XX+YBeta(m2,n2).\frac{X}{X+Y} \sim \operatorname{Beta}\left(\frac{m}{2}, \frac{n}{2}\right).

分析如下: 记 U=XX+Y,V=X+YU=\frac{X}{X+Y}, V=X+Y, 反解后有 x=uv,y=vuvx=u v, y=v-u v,

J=(x,y)(u,v)=vuv1u=v, |J|=\left|\frac{\partial(x, y)}{\partial(u, v)}\right|=\left|\begin{array}{cc} v & u \\ -v & 1-u \end{array}\right|=v,

因此 fU,V(u,v)=vfX,Y(uv,(1u)v)=um21(1u)n21Γ(m2)Γ(n2)(12)m+n2vm+n21ev2f_{U, V}(u, v)=v f_{X, Y}(u v,(1-u) v)=\frac{u^{\frac{m}{2}-1}(1-u)^{\frac{n}{2}-1}}{\Gamma\left(\frac{m}{2}\right) \Gamma\left(\frac{n}{2}\right)} \cdot\left(\frac{1}{2}\right)^{\frac{m+n}{2}} v^{\frac{m+n}{2}-1} e^{-\frac{v}{2}}, 故

fU(u)=0+fU,V(u,v)dv=Γ(m+n2)Γ(m2)Γ(n2)um21(1u)n21Beta(m2,n2).f_{U}(u)=\int_{0}^{+\infty} f_{U, V}(u, v) d v=\frac{\Gamma\left(\frac{m+n}{2}\right)}{\Gamma\left(\frac{m}{2}\right) \Gamma\left(\frac{n}{2}\right)} u^{\frac{m}{2}-1}(1-u)^{\frac{n}{2}-1} \sim \operatorname{Beta}\left(\frac{m}{2}, \frac{n}{2}\right).

三、(20分) X1,X2X_{1}, X_{2} i.i.d N(0,1),\sim N(0,1),X1X2\frac{X_{1}}{X_{2}}的概率分布.

Solution: 记

{U=X12+X22,V=X1X2,{u=x12+x22,v=x1x2,\begin{cases} U=X_{1}^{2}+X_{2}^{2},\\ V=\frac{X_1}{X_2},\\ \end{cases}\quad \Longrightarrow \quad \begin{cases} u=x_{1}^{2}+x_{2}^{2},\\ v=\frac{x_1}{x_2},\\ \end{cases}

该题转化为茆书第三章原题. 解这个变量变换的反函数, 有 2 支, 它们是

{x1=vu1+v2,x2=u1+v2,{x1=vu1+v2,x2=u1+v2,\begin{cases} x_1=v\sqrt{\frac{u}{1+v^2}},\\ x_2=\sqrt{\frac{u}{1+v^2}},\\ \end{cases}\quad \text{或}\quad \begin{cases} x_1=-v\sqrt{\frac{u}{1+v^2}},\\ x_2=-\sqrt{\frac{u}{1+v^2}},\\ \end{cases}

对应的雅可比矩阵是 (x1,x2)(x_1,x_2)(u,v)(u,v) 的偏导矩阵, 这不好求, 我们考虑

J1=(u,v)(x1,x2)=(2x12x21x2x1x22),det(J1)=2(v2+1),J^{-1}=\frac{\partial \left( u,v \right)}{\partial \left( x_1,x_2 \right)}=\left( \begin{matrix} 2x_1& 2x_2\\ \frac{1}{x_2}& -\frac{x_1}{x_{2}^{2}}\\ \end{matrix} \right) ,\quad \Rightarrow \quad \left| \det \left( J^{-1} \right) \right|=2\left( v^2+1 \right) ,

因此有

fU,V(u,v)=JfX,Y(vu1+v2,u1+v2)+JfX,Y(vu1+v2,u1+v2)=1π(1+v2)12eu2,f_{U,V}\left( u,v \right) =\left| J \right|f_{X,Y}\left( v\sqrt{\frac{u}{1+v^2}},\sqrt{\frac{u}{1+v^2}} \right) +\left| J \right|f_{X,Y}\left( -v\sqrt{\frac{u}{1+v^2}},-\sqrt{\frac{u}{1+v^2}} \right) =\frac{1}{\pi \left( 1+v^2 \right)}\cdot \frac{1}{2}e^{-\frac{u}{2}},

其中 u>0,vRu>0,v\in R, 可以看出: U,VU,V 独立, 且 Uχ2(2)U\sim \chi^2(2), 而 VCau(0,1)V\sim Cau(0,1) 标准柯西分布, 密度函数是 p(v)=1π11+v2p(v) = \frac{1}{\pi} \frac{1}{1+v^2}.

[注]: 需要特别说明的是, 这里 X1X2\frac{X_1}{X_2} 显然是一个关于 00 对称的分布, 而且它的分子、分母都是关于 00 对称的, 因此 X1X2\frac{X_1}{X_2}X1X2\frac{X_1}{|X_2|} 是同分布的, 而很明显

X1X2=N(0,1)χ2(1)1\frac{X_1}{|X_2|}=\frac{N(0,1)}{\sqrt{\frac{\chi^{2}(1)}{1}}}

是一个自由度为 1 的 tt 分布, 所以X1X2\frac{X_{1}}{\left|X_{2}\right|}也是自由度为 1 的 tt 分布, 它的概率密度是

f(x)=Γ(1)πΓ(12)(x2+1)1=1π11+x2,<x<+,f(x)=\frac{\Gamma(1)}{\sqrt{\pi} \Gamma\left(\frac{1}{2}\right)}\left(x^{2}+1\right)^{-1}=\frac{1}{\pi} \cdot \frac{1}{1+x^{2}},-\infty<x<+\infty,

即标准柯西分布.

四、(20分) X1,X2,,XnX_{1}, X_{2}, \ldots, X_{n} i.i.d F(x),\sim F(x),Yn(x)=i=1nI[Xix],Y_{n}(x)=\sum_{i=1}^{n} I\left[X_{i} \leq x\right],limnYn(x)n\lim _{n \rightarrow \infty} \frac{Y_{n}(x)}{n}.

Solution: 根据强大数律, limnYn(x)n=EI[X1x]=P(X1x)=F(x)\lim _{n \rightarrow \infty} \frac{Y_{n}(x)}{n}=E I\left[X_{1} \leq x\right]=P\left(X_{1} \leq x\right)=F(x), a.s.

五、(20分) X0,X1,,X2n,X_{0}, X_{1}, \cdots, X_{2 n}, i.i.d U(0,1),X(0),X(1),,X(2n)\sim U(0,1), \quad X_{(0)}, X_{(1)}, \cdots, X_{(2 n)}为对应的次序统计量, 试证明X(n)P12X_{(n)} \stackrel{P}{\rightarrow} \frac{1}{2}.

Solution: 我们来计算 Y=X(n)Y=X_{(n)} 的密度函数, 思想是: 从 X0,X1,,X2nX_{0}, X_{1}, \cdots, X_{2 n} 中选出一个当作 YY, 剩下 的样本中要有 nn 个比 YY 小, nn 个比 YY 大, 当然符合的选法有(2n+1)!n!1!n!\frac{(2 n+1) !}{n ! \cdot 1 ! \cdot n !} 种, 因此

f(y)=(2n+1)!n!n!P{X0y,X1y,,Xn1y}fXn(y)P{Xn+1>y,,X2n>y}P{X0y,X1y,,Xn1y}=Pn{X0y}=yn,P{Xn+1>y,,X2n>y}=Pn{X2n>y}=(1y)n, \begin{gathered} f(y)=\frac{(2 n+1) !}{n ! n !} P\left\{X_{0} \leq y, X_{1} \leq y, \ldots, X_{n-1} \leq y\right\} f_{X_{n}}(y) P\left\{X_{n+1}>y, \ldots, X_{2 n}>y\right\}\\ P\left\{X_{0} \leq y, X_{1} \leq y, \ldots, X_{n-1} \leq y\right\}=P^{n}\left\{X_{0} \leq y\right\}=y^{n}, \\ P\left\{X_{n+1}>y, \ldots, X_{2 n}>y\right\}=P^{n}\left\{X_{2 n}>y\right\}=(1-y)^{n}, \end{gathered}

f(y)=Γ(2n+2)Γ(n+1)Γ(n+1)yn(1y)n,0<y<1f(y)=\frac{\Gamma(2 n+2)}{\Gamma(n+1) \Gamma(n+1)} y^{n}(1-y)^{n}, 0<y<1, 这是 Beta(n+1,n+1)\operatorname{Beta}(n+1, n+1) 的分布函数. 根据Beta分布的性质,

EY=n+12n+2=12,Var(Y)=(n+1)2(2n+2)2(2n+3)0,E Y=\frac{n+1}{2 n+2}=\frac{1}{2},\quad \operatorname{Var}(Y)=\frac{(n+1)^{2}}{(2 n+2)^{2}(2 n+3)} \rightarrow 0,

利用切比雪夫不等式, P{Y12>ε}Var(Y)ε20P\left\{\left|Y-\frac{1}{2}\right|>\varepsilon\right\} \leq \frac{\operatorname{Var}(Y)}{\varepsilon^{2}} \rightarrow 0, 因此X(n)P12X_{(n)} \stackrel{P}{\rightarrow} \frac{1}{2}.

六、(20分) 已知连续型随机变量XX的期望EXE X存在, f(t)=EXtf(t)=E|X-t|t=mt=m时取极小值, 证明 P(Xm)=12P(X \leq m)=\frac{1}{2}.

Solution: 设 XX 的分布函数是 F(x)F(x), 宓度函数是 p(x)p(x), 则

f(t)=t(tx)dF(x)+t+(xt)dF(x)=tF(t)txdF(x)+t+xdF(x)t(1F(t)),f(t)=\int_{-\infty}^{t}(t-x) d F(x)+\int_{t}^{+\infty}(x-t) d F(x)=t F(t)-\int_{-\infty}^{t} x d F(x)+\int_{t}^{+\infty} x d F(x)-t(1-F(t)),

tt 求导, 得

f(t)=F(t)+tp(t)tp(t)tp(t)1+F(t)+tp(t)=2F(t)1,f^{\prime}(t)=F(t)+t p(t)-t p(t)-t p(t)-1+F(t)+t p(t)=2 F(t)-1,

f(t)=0f^{\prime}(t)=0, 解得 t=x0.5(xat=x_{0.5} \left(x_{a}\right. 表示其满足 F(xa)=a)\left.F\left(x_{a}\right)=a\right). 二阶导 f(t)=2p(t)0f^{\prime \prime}(t)=2 p(t) \geq 0, 因此驻点就是极小值点. 根据题意 m=x0.5m=x_{0.5}, 故

P(Xm)=12.P(X \leq m)=\frac{1}{2} .

七、(20分) X1,X2,X3,X_{1}, X_{2}, X_{3}, i.i.d N(0,1),\sim N(0,1),

(1)(10分) P(X1>X2>X3)P\left(X_{1}>X_{2}>X_{3}\right);

(2)(10分) P(X1>X2,X1>X3)P\left(X_{1}>X_{2}, X_{1}>X_{3}\right).

Solution: (1) 根据轮换对称性,

P(X1>X2>X3)=P(X1>X3>X2)=P(X2>X1>X3)=P(X2>X3>X1)=P(X3>X1>X2)=P(X3>X2>X1)> \begin{aligned} & P\left(X_{1}>X_{2}>X_{3}\right)=P\left(X_{1}>X_{3}>X_{2}\right)=P\left(X_{2}>X_{1}>X_{3}\right) \\ =& P\left(X_{2}>X_{3}>X_{1}\right)=P\left(X_{3}>X_{1}>X_{2}\right)=P\left(X_{3}>X_{2}>X_{1}\right) \end{aligned} >

这些事件互不相交, 并且这些事件的并是概率为 1 的事件, 故

6P(X1>X2>X3)=1P(X1>X2>X3)=16. 6 P\left(X_{1}>X_{2}>X_{3}\right)=1 \Rightarrow P\left(X_{1}>X_{2}>X_{3}\right)=\frac{1}{6} .

(2) 我们发现:

P(X1>X2,X1>X3)=P(X1=max{X1,X2,X3}),P\left(X_{1}>X_{2}, X_{1}>X_{3}\right)=P\left(X_{1}=\max \left\{X_{1}, X_{2}, X_{3}\right\}\right),

根据轮换对称性,

P(X1=max{X1,X2,X3})=P(X2=max{X1,X2,X3})=P(X3=max{X1,X2,X3}),P\left(X_{1}=\max \left\{X_{1}, X_{2}, X_{3}\right\}\right)=P\left(X_{2}=\max \left\{X_{1}, X_{2}, X_{3}\right\}\right)=P\left(X_{3}=\max \left\{X_{1}, X_{2}, X_{3}\right\}\right),

P(X1>X2,X1>X3)=13P\left(X_{1}>X_{2}, X_{1}>X_{3}\right)=\frac{1}{3}.