上海交通大学-432统计学-2017年

一.选择题 (10小题,每小题 6 分,共60分)

  1. 分布中位数小于平均数, 则一般来说, 该分布( ).
    A. 左偏
    B. 右偏
    C. 正偏
    D. 无偏

Solution: B.

  1. 当一组数据呈对称分布时,在平均数加减 2 个标准差的范围之内大约有 ( ) 的数据.
    A. 68%68 \%
    B. 95%95 \%
    C. 99.7%99.7 \%
    D. 89%89 \%

Solution: B

利用标准正态分布来估计, Φ(2)Φ(2)=2Φ(2)1=20.97221=0.9444\Phi \left( 2 \right) -\Phi \left( -2 \right) =2\Phi \left( 2 \right) -1=2\cdot 0.9722-1=0.9444.

  1. 抽样推断的精确度与抽样误差的关系是( ).
    A. 前者提高说明后者变小
    B. 前者提高说明后者变大
    C. 前者提高说明后者不变
    D. 没有关系

Solution: A. 要求的精确度越高, 说明置信区间越短, 抽样误差越小.

  1. 假设独立随机变量 X,YX, Y 服从同一名称的概率分布(二者的分布参数末必相同)。且 X+YX+Y 也服从 同一名称的概率分布。则 X,YX, Y 不可能服从()
    (A) 二项分布
    (B) 泊松分布
    (C) 正态分布
    (D) 指数分布

Solution: D
两个独立的随机变量服从二项分布、泊松分布或者正态分布时,他们的和也 服从于该随机变量的概率分布, 而若 XY\mathrm{X} 、 \mathrm{Y} 服从指数分布时,他们的和不一定服从 指数分布. 例如: XY\mathrm{X} 、 \mathrm{Y} 服从参数为 λ\lambda 的指数分布服从 Ga(1,λ),X+YG a(1, \lambda), \mathrm{X}+\mathrm{Y} 服从Ga(2,λ)G a(2, \lambda) 不服从指数分布. 选项 D 错误

  1. Xχ2(1),Yχ2(n)X \sim \chi^{2}(1), Y \sim \chi^{2}(n), 则 F=nX/YF=n X / Y 的分布是 ()
    (A) t(n)t(n)
    (B) F(1,n)F(1, n)
    (C) F(n,1)F(n, 1)
    (D)不能确定

Solution: D
X,YX, Y 的独立性未知, 无法判断 nXY\frac{n X}{Y} 的分布, 因此本题选 D.

  1. X1,X2,Xn1X_1, X_2, \ldots X_{n_1} 是来自正态总体 N(μ1,σ12)N\left(\mu_1, \sigma_1^2\right) 的一个样本,设 Y1,Y2,,Yn2Y_1, Y_2, \ldots, Y_{n_2} 是来自正态总体 N(μ2,σ22)N\left(\mu_2, \sigma_2^2\right) 的一个样 本,且 Xi(i=1,2,3,,n1)X_i\left(i=1,2,3, \ldots, n_1\right)Yi(i=1,2,3,..,n2)Y_i\left(i=1,2,3, . ., n_2\right) 相互独立,已知 n1n2S12S22n_1 、 n_2 、 S_1^2 、 S_2^2 ,通过查表可知 Fα/2(n1,n2)Fα/2(n2,n1)Fα/2(n11,n21)Fα/2(n21,n11)F_{\alpha / 2}\left(n_1, n_2\right) 、 F_{\alpha / 2}\left(n_2, n_1\right) 、 F_{\alpha / 2}\left(n_1-1, n_2-1\right) 、 F_{\alpha / 2}\left(n_2-1, n_1-1\right) . 则方差之比 σ12/σ22\sigma_1^2 / \sigma_2^2 的置信区间为( ).
    A. S12/S22Fα/2(n1,n2)σ12σ22S12S22Fα/2(n2,n1)\frac{S_1^2 / S_2^2}{F_{\alpha / 2}\left(n_1, n_2\right)} \leq \frac{\sigma_1^2}{\sigma_2^2} \leq \frac{S_1^2}{S_2^2} F_{\alpha / 2}\left(n_2, n_1\right)
    B. S12/S22Fα/2(n11,n21)σ12σ22S12S22Fα/2(n21,n11)\frac{S_1^2 / S_2^2}{F_{\alpha / 2}\left(n_1-1, n_2-1\right)} \leq \frac{\sigma_1^2}{\sigma_2^2} \leq \frac{S_1^2}{S_2^2} F_{\alpha / 2}\left(n_2-1, n_1-1\right)
    C. S12/S22Fα/2(n1,n2)σ12σ22S12/S22Fα/2(n2,n1)\frac{S_1^2 / S_2^2}{F_{\alpha / 2}\left(n_1, n_2\right)} \leq \frac{\sigma_1^2}{\sigma_2^2} \leq \frac{S_1^2 / S_2^2}{F_{\alpha / 2}\left(n_2, n_1\right)}
    D. S12/S22Fα/2(n11,n21)σ12σ22S12/S22Fα/2(n21,n11)\frac{S_1^2 / S_2^2}{F_{\alpha / 2}\left(n_1-1, n_2-1\right)} \leq \frac{\sigma_1^2}{\sigma_2^2} \leq \frac{S_1^2 / S_2^2}{F_{\alpha / 2}\left(n_2-1, n_1-1\right)}

Solution: B

注意这里用的应是上分位数, 根据F分布的对称性, 置信区间应为

[s12/s22Fα2(n11,n21),s12/s22F1α2(n11,n21)]=[s12/s22Fα2(n11,n21),s12s22Fα2(n21,n11)]\begin{aligned} \left[ \frac{s_{1}^{2}/s_{2}^{2}}{F_{\frac{\alpha}{2}}\left( n_1-1,n_2-1 \right)},\frac{s_{1}^{2}/s_{2}^{2}}{F_{1-\frac{\alpha}{2}}\left( n_1-1,n_2-1 \right)} \right] &=\left[ \frac{s_{1}^{2}/s_{2}^{2}}{F_{\frac{\alpha}{2}}\left( n_1-1,n_2-1 \right)},\frac{s_{1}^{2}}{s_{2}^{2}}F_{\frac{\alpha}{2}}\left( n_2-1,n_1-1 \right) \right]\\ \end{aligned}

  1. 设总体分布为参数为 2 的指数分布 Exp(2)\operatorname{Exp}(2) (密度函数概率密度函数: f(x)={2e2xx>00 其他 f(x)=\left\{\begin{array}{ll}2 e^{-2 x} & x>0 \\ 0 & \text { 其他 }\end{array}\right.)。现分别有来自总体的容量 分别为 200 和 400 的两独立样本, 则此两样本均值之差的绝对值大于 3/20\sqrt{3} / 20 的概率大约是 ()
    (A) 2Φ(1.5)12 \Phi(1.5)-1
    (B) 2Φ(1.5)2 \Phi(1.5)
    (C) 2Φ(2)2 \Phi(2)
    (D) 22Φ(2)2-2 \Phi(2)

Solution: D
参数为 2 的指数分布的概率密度函数: f(x)={2e2xx>00 其他 f(x)=\left\{\begin{array}{ll}2 e^{-2 x} & x>0 \\ 0 & \text { 其他 }\end{array}\right., 其期望与方差为: E(x)=12,D(x)=14E(x)=\frac{1}{2}, D(x)=\frac{1}{4}
XˉYˉ\bar{X} 、 \bar{Y} 分别表示样本容量为 200400200 、 400 的样本均值有:

E(Xˉ)=12,D(Xˉ)=1800,E(Yˉ)=12,D(Yˉ)=11600,E(\bar{X})=\frac{1}{2}, D(\bar{X})=\frac{1}{800}, \quad E(\bar{Y})=\frac{1}{2}, D(\bar{Y})=\frac{1}{1600},

由中心极限定理: (XˉYˉ)(μ1μ2)σ12n1+σ22n2=XˉYˉ31600N(0,1)\frac{(\bar{X}-\bar{Y})-\left(\mu_{1}-\mu_{2}\right)}{\sqrt{\frac{\sigma_{1}^{2}}{n_{1}}+\frac{\sigma_{2}^{2}}{n_{2}}}}=\frac{\bar{X}-\bar{Y}}{\sqrt{\frac{3}{1600}}} \sim N(0,1)
所以有:

P(XˉYˉ>320)=1P(320<XˉYˉ<320)=1P(3/203/40<XˉYˉ3/40<3/203/40)=1[Φ(2)Φ(2)]=1[2Φ(2)1]=22Φ(2)\begin{aligned} P\left(|\bar{X}-\bar{Y}|>\frac{\sqrt{3}}{20}\right) &=1-P\left(-\frac{\sqrt{3}}{20}<\bar{X}-\bar{Y}<\frac{\sqrt{3}}{20}\right) \\ &=1-P\left(\frac{-\sqrt{3} / 20}{\sqrt{3} / 40}<\frac{\bar{X}-\bar{Y}}{\sqrt{3} / 40}<\frac{\sqrt{3} / 20}{\sqrt{3} / 40}\right) \\ &=1-[\Phi(2)-\Phi(-2)] \\ &=1-[2 \Phi(2)-1] \\ &=2-2 \Phi(2) \end{aligned}

选项 D 正确

  1. 下面哪个选项不是随机事件 A,B(0<P(A),P(B)<1)A, B(0<P(A), P(B)<1) 相互独立的充要条件 ( )
    (A) P(AB)=P(ABˉ)P(A \mid B)=P(A \mid \bar{B})
    (B) P(AB)+P(AˉBˉ)=1P(A \mid B)+P(\bar{A} \mid \bar{B})=1
    (C) P(ABˉ)=P(A)P(Bˉ)P(A \cap \bar{B})=P(A) P(\bar{B})
    (D) P(AB)+P(ABˉ)=1P(A \mid B)+P(A \mid \bar{B})=1

Solution: D
A\mathrm{A}B\mathrm{B} 相互独立有 P(AB)=P(A)P(B)P(A B)=P(A) P(B)
选项 A:

P(AB)P(B)=P(ABˉ)P(Bˉ)P(AB)P(Bˉ)=P(ABˉ)P(B)P(AB)[1P(B)]=[P(A)P(AB)]P(B)P(AB)P(AB)P(B)=P(A)P(B)P(AB)P(B)P(AB)=P(A)P(B)\begin{aligned} \frac{P(A B)}{P(B)} &=\frac{P(A \bar{B})}{P(\bar{B})} \\ \Leftrightarrow P(A B) P(\bar{B}) &=P(A \bar{B}) \cdot P(B) \\ \Leftrightarrow P(A B) \cdot[1-P(B)] &=[P(A)-P(A B)] \cdot P(B) \\ \Leftrightarrow P(A B)-P(A B) P(B) &=P(A) P(B)-P(A B) P(B) \\ \Leftrightarrow P(A B) &=P(A) P(B) \end{aligned}

选项 B\mathrm{B} :

P(AB)+P(AˉBˉ)=P(AB)+1P(ABˉ)=1P(AB)=P(ABˉ)\begin{aligned} P(A \mid B)+P(\bar{A} \mid \bar{B}) &=P(A \mid B)+1-P(A \mid \bar{B})=1 \\ P(A \mid B) &=P(A \mid \bar{B}) \end{aligned}

由选项 A 可知它是相互独立的充分必要条件
选项 C:由独立的定义显然成立
选项 D\mathrm{D} :

P(AB)+P(ABˉ)=P(AB)+1P(AˉBˉ)=1P(AB)=P(AˉBˉ)P(AˉBˉ)P(B)=P(AB)P(Bˉ)\begin{aligned} P(A \mid B)+P(A \mid \bar{B}) &=P(A \mid B)+1-P(\bar{A} \mid \bar{B})=1 \\ P(A \mid B) &=P(\bar{A} \mid \bar{B}) \\ P(\bar{A} \bar{B}) P(B) &=P(A B) \cdot P(\bar{B}) \end{aligned}

AB\mathrm{AB} 独立, 上式化简得到: P(A)=P(Aˉ)P(A)=P(\bar{A}), 不恒成立. 故选项 D\mathrm{D} 错误

  1. X1,,XnX_{1}, \cdots, X_{n} 为来自正态分布 N(μ,1)N(\mu, 1) 的简单随机样本。记 ZαZ_{\alpha} 为标准正态分布的 100α%100 \alpha \% 分位数, 则由 此样本所构造的置信水平分别为 95%95 \%90%90 \% 的双侧置信区间长度之比为()
    (A) 2×z0.975Z0.952 \times \frac{z_{0.975}}{Z_{0.95}}
    (B) z0.975z0.95\frac{z_{0.975}}{z_{0.95}}
    (C) 2×z0.95z0.902 \times \frac{z_{0.95}}{z_{0.90}}
    (D) z0.95z0.90\frac{z_{0.95}}{z_{0.90}}

Solution: B
依题意得 n(xˉμ)N(0,1)\sqrt{n}(\bar{x}-\mu) \sim N(0,1), 所以令 P(n(xˉμ)d)=1αP(|\sqrt{n}(\bar{x}-\mu)| \leqslant d)=1-\alpha 可得置信区间的长度为: 2d=2z1α2n2 d=\frac{2 z_{1-\frac{\alpha}{2}}}{\sqrt{n}}
因此 95%95 \%90%90 \% 双侧置信区间长度之比为 z0.975z0.95\frac{z_{0.975}}{z_{0.95}}. 选项 B 正确

  1. X1,,XnX_{1}, \cdots, X_{n} 为来自均值为 0 , 方差为 σ2\sigma^{2} 的总体的简单随机样本, 令 Y=i=1nXi2,Q=Y=\sum_{i=1}^{n} X_{i}^{2}, Q= i=1n(XiXˉ)2\sum_{i=1}^{n}\left(X_{i}-\bar{X}\right)^{2}, 则下列说法正确的是 ()
    (A) Q/nQ / nσ2\sigma^{2} 的最大似然估计
    (B) Y/nY / nσ2\sigma^{2} 的最大似然估计
    (C) Q/nQ / nσ2\sigma^{2} 的无偏估计
    (D) Y/nY / nσ2\sigma^{2} 的无偏估计

Solution: D
题目没有给出总体的概率密度函数, 无法求出 σ2\sigma^{2} 的最大似然估计, 选项 A\mathrm{A} 、 B 错误.
E(Qn)=n1nσ2E\left(\frac{Q}{n}\right)=\frac{n-1}{n} \sigma^{2}, 选项 C\mathrm{C} 错误.
E(Yn)=1nE(i=1nXi2)=1n[i=1nDXi+i=1n(EXi)2]=1n(nσ2)=σ2E\left(\frac{Y}{n}\right)=\frac{1}{n} E\left(\sum_{i=1}^{n} X_{i}^{2}\right)=\frac{1}{n}\left[\sum_{i=1}^{n} D X_{i}+\sum_{i=1}^{n}\left(E X_{i}\right)^{2}\right]=\frac{1}{n}\left(n \sigma^{2}\right)=\sigma^{2}, 故选项 D 正确.

二、简答题

  1. 总体 XN(μ1,σ02)X \sim N\left(\mu_1, \sigma_0^2\right), σ02\sigma_0^2 已知, 样本量为 n1n_1. 总体 YN(μ2,σ12)Y \sim N\left(\mu_2, \sigma_1^2\right), 样本量为 n2n_2. 两组样本独立.
    (1) 写出 μ1\mu_11α1-\alpha 置信区间;
    (2) 写出 μ2\mu_21α1-\alpha 置信区间;
    (3) 若 σ02=σ12\sigma_0^2=\sigma_1^2, 写出 (μ1μ2)\left(\mu_1-\mu_2\right)1α1-\alpha 置信区间.

Solution: (1) 方差已知, 用枢轴量

u=Xˉμ1σ0/n1N(0,1),u=\frac{\bar{X}-\mu _1}{\sigma _0/\sqrt{n_1}}\sim N\left( 0,1 \right) ,

置信区间是

μ1[Xˉσ0n1uα2,Xˉ+σ0n1uα2].\mu _1\in \left[ \bar{X}-\frac{\sigma _0}{\sqrt{n_1}}u_{\frac{\alpha}{2}},\bar{X}+\frac{\sigma _0}{\sqrt{n_1}}u_{\frac{\alpha}{2}} \right] .

(2) 方差未知, 用枢轴量

t=Yˉμ1SY/nt(n21),t=\frac{\bar{Y}-\mu _1}{S_Y/\sqrt{n}}\sim t\left( n_2-1 \right) ,

置信区间是

μ2[YˉSYn2tα2(n21),Yˉ+SYn2tα2(n21)].\mu _2\in \left[ \bar{Y}-\frac{S_Y}{\sqrt{n_2}}t_{\frac{\alpha}{2}}\left( n_2-1 \right) ,\bar{Y}+\frac{S_Y}{\sqrt{n_2}}t_{\frac{\alpha}{2}}\left( n_2-1 \right) \right] .

(3) 由于 σ0=σ1\sigma_0 = \sigma_1 已知, 故有

XˉYˉN(μ1μ2,(1n1+1n2)σ02),\bar{X}-\bar{Y}\sim N\left( \mu _1-\mu _2,\left( \frac{1}{n_1}+\frac{1}{n_2} \right) \sigma _{0}^{2} \right) ,

枢轴量为

(XˉYˉ)(μ1μ2)σ0(1n1+1n2)N(0,1),\frac{\left( \bar{X}-\bar{Y} \right) -\left( \mu _1-\mu _2 \right)}{\sigma _0\sqrt{\left( \frac{1}{n_1}+\frac{1}{n_2} \right)}}\sim N\left( 0,1 \right) ,

因此置信区间为

μ1μ2[XˉYˉuα2σ0(1n1+1n2),XˉYˉ+uα2σ0(1n1+1n2)].\mu _1-\mu _2\in \left[ \bar{X}-\bar{Y}-u_{\frac{\alpha}{2}}\sigma _0\sqrt{\left( \frac{1}{n_1}+\frac{1}{n_2} \right)},\bar{X}-\bar{Y}+u_{\frac{\alpha}{2}}\sigma _0\sqrt{\left( \frac{1}{n_1}+\frac{1}{n_2} \right)} \right] .

  1. 建立多元回归模型时,为什么需要进行变量选择? 并阐述向前选择法的步骤.

Solution:

因变量可能会由多个自变量决定。但是具体由多少个自变量决定是不清楚的, 所以我们需要通过变量选择,判断这个具体的自变量个数. 另外有的时候若自变量之间存在相关性(多重共线性问题), 将会导致估计量不有效或不唯一, 这时候也需要进行变量选择. 以及为了防止过多的加入无用变量导致过拟合, 我们也需要进行变量选择.

向前选择的步骤:

1.对k个自变量分别拟合对因变量y的一元线性回归模型,即得到k个一元线性回归模型,然后找出F统计量值最高的模型及对应的变量 xix_i,并将该自变量首先引入模型中。在此过程中,需要注意的是:如果所有模型的F统计量均未通过检验,说明所搜集的自变量与因变量之间均为不显著,说明模型构建不适合,应当考虑换其他模型,本方法的运算过程也就终止了.

2.在已经引入的模型上,分别引入剩余的k-1个自变量,分别得到k-1个二元线性回归模型,即变量组合为k-1个二元线性回归模型,继而得到k-1个新的F统计量,并从中找出F统计量的值为最高的模型,此时,该模型中含有两个自变量,新增加的自变量即为经过筛选出来的应当引入模型的自变量。同样地,如果在此过程中,没有F统计量通过检验,则运算终止。

3.按照第二步的筛选方法,不断引入新的自变量,直到引入的新的自变量也不能使得残差平方和(SSE)显著减少为止(F统计量均为通过检验)。向前选择法就是这样一个不断引入新变量,进行F统计量检验的过程。

  1. 随机变量 Xi(i=1,2,3,,n)X_i(i=1,2,3, \ldots, n) 独立同分布,且 E(Xi)=1,E(Xi2)=2,E(Xi4)=8E\left(X_i\right)=1, E\left(X_i^2\right)=2, E\left(X_i^4\right)=8 ,则当 nn \rightarrow \infty 时, i1nXi2n\frac{\sum_{i-1}^n X_i^2}{n} 服从什么分布,并说明概率密度函数的形态变化.

Solution:

由于 X12,,Xn2X_1^2, \cdots, X_n^2 是独立同分布的, 且其数学期望存在 EX12=2EX_1^2 = 2, 那么根据大数定律, 有 i=1nXi2nP2\frac{\sum_{i=1}^n{X_{i}^{2}}}{n}\xrightarrow{P}2.

另外, Var(X12)=84=4Var(X_1^2) = 8 - 4 = 4, 那么根据中心极限定理, 有 n(i=1nXi2n2)dN(0,4)\sqrt{n}\left( \frac{\sum_{i=1}^n{X_{i}^{2}}}{n}-2 \right) \xrightarrow{d}N\left( 0,4 \right).

nn 增大时, i1nXi2n\frac{\sum_{i-1}^n X_i^2}{n} 的密度函数将会越来越聚集于一点.

  1. 考虑一元线性回归 yi=β0+β1xi+ϵiy_i=\beta_0+\beta_1 x_i+\epsilon_i, 给出数据 (xi,yi)\left(x_i, y_i\right), 问什么 情况下可以使用极大似然估计求末知参数, 并且解释极大似然估计和最小二乘法的区别和联系。

Solution:
当如果随机误差项的分布已经知时, 可以写出似然函数, 这时候可以使用极大似然估计法.

最小二乘法在任何时候都可以使用, 它仅需求出使得残差平方和最小的参数值作为估计. 而如果随机误差项是独立同方差, 均值为 0 的正态分布时, 极大似然估计的结果与最小二乘估计的结果等价. 

三. 计算题

  1. 作身高(xx)与臂展(yy)的一元线性回归: 总计有 n=1024n=1024 个样本, 回归结果如下表
Coefficient Estimate Std. Error t-stat Pr(>|t|)
(Intercept) 0.23835 1.91840 0.124 0.901
X 0.99882 0.01096 91.142 0.000

(1) 写出参数估计表达式, 根据分析结果写出经验回归方程.
(2) 写出误差方差估计的表达式.
(3) 说明最后一列 Pr(>|t|) 的含义, 分别写出对应 H0H_0, H1H_1, 并给出假设检验结果.

Solution: (1) 线性回归 y=a+bxy=a+bx 的参数估计表达式是

b^=lxylxx=i=1n(xixˉ)(yiyˉ)i=1n(xixˉ)2,a^=yˉb^xˉ.\hat{b} = \frac{l_{xy}}{l_{xx}} = \frac{ \sum_{i=1}^n (x_i-\bar{x})(y_i-\bar{y}) }{ \sum_{i=1}^n (x_i-\bar{x})^2},\quad \hat{a} = \bar{y}-\hat{b}\bar{x}.

在回归表中, 结果是

y=0.23835+0.99882x.y = 0.23835 + 0.99882 x.

(2) 误差方差的估计是 σ^2=Sen2\hat{\sigma}^2 = \frac{S_e}{n-2}, 其中 SeS_e 是残差平方和, 即 Se=i=1n(yiy^i)2S_e = \sum_{i=1}^n (y_i-\hat{y}_i)^2.

(3) Pr(>|t|)是指系数是否为 0 的显著性检验的 pp 值, 即假设检验问题

H0:a=0H1:a0H_0:a=0\quad H_1:a\neq 0

H0:b=0H1:b0H_0:b=0\quad H_1:b\neq 0

对应的 pp 值. 这里 aa 对应的 pp 值为0.901, 不能拒绝原假设, aa 不显著. 这里 bb 对应的 pp 值为0.000, 拒绝原假设, bb 显著, 身高显著影响臂展.

  1. 一个不透明的箱子里有 aa 个白球和 bb 个红球, kk 个人不放回地抽球, 且 k<a+bk<a+b, 求第 ii 个人抽到红球的概率.

【提示】: 类似茆书原题1.5.26, 1.5.27, 用数学归纳法. 这里我们用另外一种条件期望法做.

Solution: 设 XiX_{i} 表示第 ii 个人抽球时盒中红球数量, 很显然

X1=b,P(i个人抽到红球)=E(Xia+b(i1))=1a+b(i1)E(Xi),X_1 = b,\quad P(\text{第} i \text{个人抽到红球}) = E\left(\frac{X_i}{a+b-(i-1)}\right) = \frac{1}{a+b-(i-1)}\cdot E(X_i),

如果 Xi1=xX_{i-1}=x 已知, 则有

P(Xi=Xi11Xi1)=Xi1a+b(i2),P(Xi=Xi1Xi1)=1Xi1a+b(i2),P(X_i=X_{i-1}-1|X_{i-1})=\frac{X_{i-1}}{a+b-\left( i-2 \right)},P(X_i=X_{i-1}|X_{i-1})=1-\frac{X_{i-1}}{a+b-\left( i-2 \right)},

求得条件期望为

E(XiXi1)=Xi1(11a+b(i2)),E\left( X_i\mid X_{i-1} \right) =X_{i-1}\left( 1-\frac{1}{a+b-\left( i-2 \right)} \right) ,

用重期望公式得

E(Xi)=E(Xi1)(a+b(i1)a+b(i2)),E\left( X_i \right) =E\left( X_{i-1} \right) \left( \frac{a+b-\left( i-1 \right)}{a+b-\left( i-2 \right)} \right) ,

用递推式得到

E(Xi)=E(X1)a+b1a+ba+b2a+b1a+b(i1)a+b(i2)=a+b(i1)a+bb,E\left( X_i \right) =E\left( X_1 \right) \cdot \frac{a+b-1}{a+b}\cdot \frac{a+b-2}{a+b-1}\cdots \frac{a+b-\left( i-1 \right)}{a+b-\left( i-2 \right)}=\frac{a+b-\left( i-1 \right)}{a+b}b,

代入得

P(i个人抽到红球)=E(Xia+b(i1))=1a+b(i1)E(Xi)=ba+b.P(\text{第} i \text{个人抽到红球}) = E\left(\frac{X_i}{a+b-(i-1)}\right) = \frac{1}{a+b-(i-1)}\cdot E(X_i) = \frac{b}{a+b}.

四. 证明题

  1. 证明:
    (1) P(X+Yx)P(Xx2)+P(Yx2)\mathbb{P}(X+Y \geq x) \leq \mathbb{P}\left(X \geq \frac{x}{2}\right)+\mathbb{P}\left(Y \geq \frac{x}{2}\right);
    (2) P(X+Yx)P(Xx2)+P(Yx2)\mathbb{P}(|X+Y| \geq x) \leq \mathbb{P}\left(|X| \geq \frac{x}{2}\right)+\mathbb{P}\left(|Y| \geq \frac{x}{2}\right).

Solution:

(1) 记事件 A={X+Yx}A=\left\{ X+Y\ge x \right\}, B1={Xx2},B2={Yx2}B_1=\left\{ X\ge \frac{x}{2} \right\} ,B_2=\left\{ Y\ge \frac{x}{2} \right\}. 则

Bˉ1Bˉ2={X<x2,Y<x2}{X+Y<x}=Aˉ,\bar{B}_1\cap \bar{B}_2=\left\{ X<\frac{x}{2},Y<\frac{x}{2} \right\} \subseteq \left\{ X+Y<x \right\} =\bar{A},

因此根据概率的单调性有 P(Bˉ1Bˉ2)P(Aˉ)P\left( \bar{B}_1\cap \bar{B}_2 \right) \le P\left( \bar{A} \right), 再利用德摩根公式, 有

P(A)P(Bˉ1Bˉ2)=P(B1B2)P(B1)+P(B2).P\left( A \right) \le P\left( \overline{\bar{B}_1\cap \bar{B}_2} \right) =P\left( B_1\cup B_2 \right) \le P\left( B_1 \right) +P\left( B_2 \right).

(2) 根据绝对值不等式, 有 X+YX+Y\left| X+Y \right|\le \left| X \right|+\left| Y \right|, 因此 {X+Yx}{X+Yx}\left\{ \left| X+Y \right|\ge x \right\} \subseteq \left\{ \left| X \right|+\left| Y \right|\ge x \right\}, 则

P(X+Yx)P(X+Yx)P(Xx2)+P(Yx2).P\left( \left| X+Y \right|\ge x \right) \le P\left( \left| X \right|+\left| Y \right|\ge x \right) \le P\left( \left| X \right|\ge \frac{x}{2} \right) +P\left( \left| Y \right|\ge \frac{x}{2} \right).

其中后面一个不等式用到了(1)的结论.