复旦大学-432统计学-2020年

一、(20分) 一家有两个孩子, 求下列事件的概率:
(1)(10分) 已知第一个是女孩, 求第二个是女孩的概率;
(2)(10分) 已知有一个是女孩, 求另一个是女孩的概率.

Solution:
(1) 首先需要假设:没有任何信息的情况下一个孩子是女孩的概率是 0.50.5.
用事件 AiA_{i} 表示第 ii 个是女孩 (i=1,2)(i=1,2), 则 P(A2A1)=P(A1A2)P(A1)=0.250.5=0.5P\left(A_{2} \mid A_{1}\right)=\frac{P\left(A_{1} A_{2}\right)}{P\left(A_{1}\right)}=\frac{0.25}{0.5}=0.5.
(2) P(A1A2A1A2)=P(A1A2)P(A1A2)=0.250.75=13P\left(A_{1} A_{2} \mid A_{1} \cup A_{2}\right)=\frac{P\left(A_{1} A_{2}\right)}{P\left(A_{1} \cup A_{2}\right)}=\frac{0.25}{0.75}=\frac{1}{3}.

二、(15分) 甲有21个硬币, 乙有20个硬币, 两人同时抛出所有硬币, 求甲朝上的硬币数多于乙的概率.

Solution:
根据对称性可以知道, P{P\{ 甲朝上的硬币数多于乙 }=P{\}=P\{ 甲朝下的硬币数多于乙 }\}. 用 随机变量 XX 表示甲朝上的硬币数, 随机变量 YY 表示乙朝上的硬币数.则:

P{X>Y}=P{21X>20Y}=P{1X>Y}=P{X<Y+1}=P{XY}\begin{aligned} P\{X>Y\} &=P\{21-X>20-Y\}=P\{1-X>-Y\} \\ &=P\{X<Y+1\}=P\{X \leqslant Y\} \end{aligned}

P{X>Y}+P{XY}=1P\{X>Y\}+P\{X \leqslant Y\}=1, 因此 P{X>Y}=P{XY}=0.5P\{X>Y\}=P\{X \leqslant Y\}=0.5.

三、(15分) 平面上有无数平行直线, 每两条平行直线间隔2米, 用边长1米的正三角形向平面投掷, 求三角形压到直线的概率.

Solution:
ABC\triangle A B C 的三条边分别为 a,b,ca, b, c. 则三角形与平行线相交有以下几种情况:
(1) 三角形的一个顶点在平行线上;
(2)三角形的一条边与直线重合;
(3)三角形的两条 边与平行线相交.
根据概率的几何概型 P(1)=P(2)=0P(1)=P(2)=0, 因此仅需要考虑情况(3). 而 P(3)=Pab+Pac+PbcP(3)=P_{a b}+P_{a c}+P_{b c}, 其中 PabP_{a b} 表示边 aba 、 b 与平行线相交. 为此,记 PaP_{a} 表示边 aa 与平行线相交, 则 Pa=Pac+PabP_{a}=P_{a c}+P_{a b}. 故 $$P(3)=\frac{1}{2}\left(P_{a}+P_{b}+P_{c}\right),$$ 现仅需要求出 PaPbPcP_{a} 、 P_{b} 、 P_{c}. 这是一个 Buffon 投针模型, 其概率是 Pa=2adπP_{a}=\frac{2 a}{d \pi}, 其中 aa 是边 aa 的长度, dd 是平行 线之间的间距,代入数据可算得 Pa=22π=1πP_{a}=\frac{2}{2 \pi}=\frac{1}{\pi}. 同理 Pb=Pc=1πP_{b}=P_{c}=\frac{1}{\pi}. 故

P{ 三角形压到直线 }=P(3)=12(Pa+Pb+Pc)=32π.P\{\text { 三角形压到直线 }\}=P(3)=\frac{1}{2}\left(P_{a}+P_{b}+P_{c}\right)=\frac{3}{2 \pi}.

四、(15分) 8个男生、7个女生坐成一排, 设Xi=1X_{i}=1表示第ii个位置与第i+1i+1个位置坐的是异性, Xi=0X_{i}=0表示第 ii个位置与第i+1i+1个位置坐的是同性, ξ=i=114Xi,\xi=\sum_{i=1}^{14} X_{i},Eξ.E \xi .

Solution:
Eξ=E(i=114Xi)=i=114EXiE \xi=E\left(\sum_{i=1}^{14} X_{i}\right)=\sum_{i=1}^{14} E X_{i}, 考虑到诸 XiX_{i} 是同分布的, 现求 EX1E X_{1}.

EX1=P(X1=1)=C81C71C152=8×715×142×1=815E X_{1}=P\left(X_{1}=1\right)=\frac{C_{8}^{1} C_{7}^{1}}{C_{15}^{2}}=\frac{8 \times 7}{\frac{15 \times 14}{2 \times 1}}=\frac{8}{15}

所以 Eξ=i=114EXi=14EX1=11215E \xi=\sum_{i=1}^{14} E X_{i}=14 E X_{1}=\frac{112}{15}.

五、(15分) 举出一个期望趋于正无穷, 却依概率收敛到0的随机变量序列 {Xn}\left\{X_{n}\right\}.

Solution:
给出这样一个随机变量序列: P(Xn=0)=11n,P(Xn=n2)=1nP\left(X_{n}=0\right)=1-\frac{1}{n}, P\left(X_{n}=n^{2}\right)=\frac{1}{n}. EXn=n+E X_{n}=n \rightarrow+\infty. 而 P(Xn0)=1nP\left(X_{n} \neq 0\right)=\frac{1}{n}, 则 XnP0X_{n} \stackrel{P}{\rightarrow} 0.

六、(20分) 有来自总体Xf(x)=θxθ1I{0<x<1}X \sim f(x)=\theta x^{\theta-1} I\{0<x<1\}nn个随机样本, 求
(1)(5分) θ\thetaMLE,\mathrm{MLE}, 并验证无偏性;
(2)(5分) 验证MLE的一致性;
(3)(5分) θ\theta的矩估计;
(4)(5分) 利用样本中位数对θ\theta进行估计.

Solution:
(1) 似然函数 L(X;θ)=θn(i=1nxi)θ1L(\mathbf{X} ; \theta)=\theta^{n}\left(\prod_{i=1}^{n} x_{i}\right)^{\theta-1}, 对数似然函数 lnL=nlnθ+(θ1)i=1nlnxi\ln L=n \ln \theta+(\theta-1) \sum_{i=1}^{n} \ln x_{i}. 令 lnLθ=nθ+i=1nlnxi=0\frac{\partial \ln L}{\partial \theta}=\frac{n}{\theta}+\sum_{i=1}^{n} \ln x_{i}=0, 解得 θ^L=ni=1n(lnxi)\hat{\theta}_{L}=\frac{n}{\sum_{i=1}^{n}\left(-\ln x_{i}\right)}. 又因为总体服从贝塔分布, 属于 指数族分布, 其对数似然函数的驻点必定为极大似然估计. 所以 θ^L=ni=1n(lnxi)\hat{\theta}_{L}=\frac{n}{\sum_{i=1}^{n}\left(-\ln x_{i}\right)}θ\theta 的极大似然估计. 若令 Yi=lnXiExp(θ)Y_{i}=-\ln X_{i} \sim \operatorname{Exp}(\theta), 且由伽马分布的可加性可知 T=i=1nyiGa(n,θ)T=\sum_{i=1}^{n} y_{i} \sim G a(n, \theta), 则极 大似然估计可以写为 θ^L=nT\hat{\theta}_{L}=\frac{n}{T}.

Eθ^L=EnT=0+ntθnΓ(n)tn1eθtdt=nθΓ(n)0+(θt)n2eθtd(θt)=nθΓ(n)Γ(n1)=nn1θE \hat{\theta}_{L}=E \frac{n}{T}=\int_{0}^{+\infty} \frac{n}{t} \frac{\theta^{n}}{\Gamma(n)} t^{n-1} e^{-\theta t} d t=\frac{n \theta}{\Gamma(n)} \int_{0}^{+\infty}(\theta t)^{n-2} e^{-\theta t} d(\theta t)=\frac{n \theta}{\Gamma(n)} \Gamma(n-1)=\frac{n}{n-1} \theta

所以 θ^L\hat{\theta}_{L} 不是 θ\theta 的无偏估计, 但它是渐进无偏的.
(2)上一小题中我们已经算得 Eθ^L=nn1θθE \hat{\theta}_{L}=\frac{n}{n-1} \theta \rightarrow \theta, 现来考虑它的一致性.

Eθ^L2=En2T2=n2θ2Γ(n)0+(θt)n3eθtd(θt)=n2θ2Γ(n)Γ(n2)=n2(n1)(n2)θ2,E \hat{\theta}_{L}^{2}=E \frac{n^{2}}{T^{2}}=\frac{n^{2} \theta^{2}}{\Gamma(n)} \int_{0}^{+\infty}(\theta t)^{n-3} e^{-\theta t} d(\theta t)=\frac{n^{2} \theta^{2}}{\Gamma(n)} \Gamma(n-2)=\frac{n^{2}}{(n-1)(n-2)} \theta^{2},

Var(θ^L)=Eθ^L2(Eθ^L)2=n2θ2(n1)(n2)n2θ2(n1)2=n2(n1)2(n2)θ2\operatorname{Var}\left(\hat{\theta}_{L}\right)=E \hat{\theta}_{L}^{2}-\left(E \hat{\theta}_{L}\right)^{2}=\frac{n^{2} \theta^{2}}{(n-1)(n-2)}-\frac{n^{2} \theta^{2}}{(n-1)^{2}}=\frac{n^{2}}{(n-1)^{2}(n-2)} \theta^{2}.

P(θ^Lθε)=P(θ^Lnn1θ+nn1θθε)P\left(\left|\hat{\theta}_{L}-\theta\right| \geq \varepsilon\right)=P\left(\left|\hat{\theta}_{L}-\frac{n}{n-1} \theta+\frac{n}{n-1} \theta-\theta\right| \geq \varepsilon\right)

P(θ^Lnn1θε2)+P(nn1θθε2)>\leq P\left(\left|\hat{\theta}_{L}-\frac{n}{n-1} \theta\right| \geq \frac{\varepsilon}{2}\right)+P\left(\left|\frac{n}{n-1} \theta-\theta\right| \geq \frac{\varepsilon}{2}\right) >

其中根据切比雪夫不等式 P(θ^Lnn1θε2)4Var(θ^L)ε2=4ε2n2(n1)2(n2)θ20P\left(\left|\hat{\theta}_{L}-\frac{n}{n-1} \theta\right| \geq \frac{\varepsilon}{2}\right) \leq \frac{4 \operatorname{Var}\left(\hat{\theta}_{L}\right)}{\varepsilon^{2}}=\frac{4}{\varepsilon^{2}} \frac{n^{2}}{(n-1)^{2}(n-2)} \theta^{2} \rightarrow 0 而对于较大的 n,P(nn1θθε2)=0n, P\left(\left|\frac{n}{n-1} \theta-\theta\right| \geq \frac{\varepsilon}{2}\right)=0. 因此 P(θ^Lθε)0P\left(\left|\hat{\theta}_{L}-\theta\right| \geq \varepsilon\right) \rightarrow 0, 也就是说 θ^L\hat{\theta}_{L}θ\theta 的一致估计.
(3) 总体服从 Beta(θ,1)\operatorname{Beta}(\theta, 1), 由贝塔分布的数字特征, 我们知道 EX=θθ+1E X=\frac{\theta}{\theta+1}. 据此反解得出 θ\theta 的矩估计 θ^M=xˉ1xˉ\hat{\theta}_{M}=\frac{\bar{x}}{1-\bar{x}}.
(4) 总体的分布函数是 F(x)={0,x<0xθ,0x<11,x1F(x)=\left\{\begin{array}{cc}0, & x<0 \\ x^{\theta}, & 0 \leq x<1 \\ 1, & x \geq 1\end{array}\right.F(x)=12F(x)=\frac{1}{2}, 解得 x0.5=(12)1θx_{0.5}=\left(\frac{1}{2}\right)^{\frac{1}{\theta}}, 用样本中位数 m0.5m_{0.5} 代替总体中位数 x0.5x_{0.5}, 并反解 出 θ^=1log12m0.5=log1212log12m0.5=logm0.512\hat{\theta}=\frac{1}{\log _{\frac{1}{2}} m_{0.5}}=\frac{\log _{\frac{1}{2}} \frac{1}{2}}{\log _{\frac{1}{2}} m_{0.5}}=\log _{m_{0.5}} \frac{1}{2} 是基于样本中位数对 θ\theta 的估计.

七、(20分) X1,,Xn,X_{1}, \ldots, X_{n}, i.i.d N(μ,σ2),\sim N\left(\mu, \sigma^{2}\right), 证明[X(1),X(n)]\left[X_{(1)}, X_{(n)}\right]μ\mu的置信水平为121n1-2^{1-n}的置信区间.

Solution:
先考虑求 U=x(1)U=x_{(1)} 的分布, 由最小值分布的计算公式可知

FU(u)=1[1Φ(uμσ)]nF_{U}(u)=1-\left[1-\Phi\left(\frac{u-\mu}{\sigma}\right)\right]^{n}

P(μ<x(1))=1FU(μ)=[1Φ(0)]n=(12)n=2nP\left(\mu<x_{(1)}\right)=1-F_{U}(\mu)=[1-\Phi(0)]^{n}=\left(\frac{1}{2}\right)^{n}=2^{-n}.
根据对称性可知 P(μ>x(n))=2nP\left(\mu>x_{(n)}\right)=2^{-n}. 所以 P(x(1)μx(n))=122n=121nP\left(x_{(1)} \leqslant \mu \leqslant x_{(n)}\right)=1-2 \cdot 2^{-n}=1-2^{1-n}

八、(20分) 有来自总体Xf(x)=12exθX \sim f(x)=\frac{1}{2} e^{-|x-\theta|}的7个随机样本, 求θ\theta的MLE.

Solution: 重复考察, 略去.

九、(10分) (X1,X2)N(0,0;1,1;0),(X_1, X_2) \sim N(0,0 ; 1,1 ; 0),X1X2\frac{X_1}{X_2}的概率分布.

Solution:
由于分母 X2X_{2} 的分布关于 0 对称, 因此 X1X2\frac{X_{1}}{\left|X_{2}\right|}X1X2\frac{X_{1}}{X_{2}} 同分布, 而很明显 N(0,1)χ2(1)1\frac{N(0,1)}{\sqrt{\frac{\chi^{2}(1)}{1}}} 是一个 自由度为 1 的 tt 分布, 所以 X1X2\frac{X_{1}}{\left|X_{2}\right|} 也是自由度为 1 的 tt 分布, 它的概率密度是

f(x)=Γ(1)πΓ(12)(x2+1)1=1π11+x2,<x<+,f(x)=\frac{\Gamma(1)}{\sqrt{\pi} \Gamma\left(\frac{1}{2}\right)}\left(x^{2}+1\right)^{-1}=\frac{1}{\pi} \cdot \frac{1}{1+x^{2}},-\infty<x<+\infty,

即标准柯西分布.