中国科学技术大学-432统计学-2016年

一、(每小题8分, 共56分)

  1. P(Xi=1)=P(Xi=1)=1/4,P(Xi=0)=1/2,i=1,2P\left(X_{i}=-1\right)=P\left(X_{i}=1\right)=1 / 4, P\left(X_{i}=0\right)=1 / 2, i=1,2, 且 P(X1X2=0)=1P\left(X_{1} X_{2}=0\right)=1, 求 P(X1=X2)0P\left(X_{1}=X_{2}\right)_{0}.

Solution:
写出 (X1,X2)\left(X_{1}, X_{2}\right) 的联合分布列,

X1X2101101/4001/401/4101/40\begin{array}{cc|ccc} \hline {X}_{1} & {X2} & -1 & 0 & 1 \\ \hline-1 & & 0 & 1 / 4 & 0 \\ 0 & & 1 / 4 & 0 & 1 / 4 \\ 1 & & 0 & 1 / 4 & 0 \\ \hline \end{array}

于是可得:

P(X1=X2)=P(X1=i,X2=i)=0(i=1,0,1)P\left(X_{1}=X_{2}\right)=\sum P\left(X_{1}=i, X_{2}=i\right)=0(i=-1,0,1)

  1. A\mathrm{A}B\mathrm{B} 为两个随机事件, 满足 P(A)=1/4,P(BA)=1/3P(A)=1 / 4, P(B \mid A)=1 / 3P(AB)=1/2P(A \mid B)=1 / 2. 定义

X={1, 若A发生 0, 若A不发生 X=\left\{\begin{array}{ll} 1, &\text { 若A发生 } \\ 0, &\text { 若A不发生 } \end{array}\right.

Y={1, 若B发生 0, 若B不发生 Y=\left\{\begin{array}{ll} 1, &\text { 若B发生 } \\ 0, &\text { 若B不发生 } \end{array}\right.

(X,Y)(X, Y) 的分布律.

Solution: 利用题目条件,

P(BA)=P(AB)P(A)=13P(AB)=112P(AB)=P(AB)P(B)=12P(B)=16\begin{aligned} &P(B \mid A)=\frac{P(A B)}{P(A)}=\frac{1}{3} \Longrightarrow P(A B)=\frac{1}{12} \\ &P(A \mid B)=\frac{P(A B)}{P(B)}=\frac{1}{2} \Longrightarrow P(B)=\frac{1}{6} \end{aligned}

以及

P(ABˉ)=P(A)P(AB)=16P(AˉB)=P(B)P(AB)=112P(AˉBˉ)=P(Aˉ)P(AˉB)=23\begin{aligned} &P(A \bar{B})=P(A)-P(A B)=\frac{1}{6} \\ &P(\bar{A} B)=P(B)-P(A B)=\frac{1}{12} \\ &P(\bar{A} \bar{B})=P(\bar{A})-P(\bar{A} B)=\frac{2}{3} \end{aligned}

据此写出 (X,Y)(X, Y) 的联合分布列,

YX0102/31/65/611/121/121/63/41/41\begin{array}{cr|cc|c} \hline Y & X & 0 & 1 & \\ \hline 0 & & 2 / 3 & 1 / 6 & 5 / 6 \\ 1 & & 1/12 & 1 / 12 & 1 / 6 \\ \hline & & 3 / 4 & 1 / 4 & 1 \\ \hline \end{array}

  1. 设三维随机向量 (X1,X2,X3)\left(X_{1}, X_{2}, X_{3}\right) 的协方差矩阵为

(91212032312)\left(\begin{array}{ccc} 9 & 1 & -2 \\ 1 & 20 & 3 \\ -2 & 3 & 12 \end{array}\right)

定义 Y1=2X1+3X2+X3,Y2=X12X2+5X3,Y3=X2X3Y_{1}=2 X_{1}+3 X_{2}+X_{3}, Y_{2}=X_{1}-2 X_{2}+5 X_{3},Y_{3}=X_{2}-X_{3}, 求 (Y1,Y2,Y3)\left(Y_{1}, Y_{2}, Y_{3}\right) 的协方差矩阵.

Solution: 记随机向量 X=(X1,X2,X3)T,Y=AX\boldsymbol{X}=\left(X_{1}, X_{2}, X_{3}\right)^{T}, \boldsymbol{Y}=A \boldsymbol{X}, 其中

A=(231125011)A=\left(\begin{array}{ccc} 2 & 3 & 1 \\ 1 & -2 & 5 \\ 0 & 1 & -1 \end{array}\right)

则由协方差矩阵的定义, 有

Cov(Y)=E(YEY)(YEY)T=E(A(XEX))(A(XEX))T=ACov(X)AT\begin{aligned} \operatorname{Cov}(\boldsymbol{Y}) &=E(\boldsymbol{Y}-E \boldsymbol{Y})(\boldsymbol{Y}-E \boldsymbol{Y})^{T} \\ &=E(A(\boldsymbol{X}-E \boldsymbol{X}))(A(\boldsymbol{X}-E \boldsymbol{X}))^{T}=\operatorname{ACov}(\boldsymbol{X}) A^{T} \end{aligned}

所以随机向量 Y\boldsymbol{Y}, 即 (Y1,Y2,Y3)\left(Y_{1}, Y_{2}, Y_{3}\right) 的协方差矩阵是

Cov(Y)=(231125011)(91212032312)(210321151)=(25026482630576487626)\begin{aligned} \operatorname{Cov}(\boldsymbol{Y})&=\left(\begin{array}{ccc} 2 & 3 & 1 \\ 1 & -2 & 5 \\ 0 & 1 & -1 \end{array}\right)\left(\begin{array}{ccc} 9 & 1 & -2 \\ 1 & 20 & 3 \\ -2 & 3 & 12 \end{array}\right)\left(\begin{array}{ccc} 2 & 1 & 0 \\ 3 & -2 & 1 \\ 1 & 5 & -1 \end{array}\right) \\ &=\left(\begin{array}{ccc} 250 & -26 & 48 \\ -26 & 305 & -76 \\ 48 & -76 & 26 \end{array}\right) \end{aligned}

  1. X1,X2,,XnX_{1}, X_{2}, \cdots, X_{n}Y1,Y2,,YnY_{1}, Y_{2}, \cdots, Y_{n} 分别是来自于正态总体 N(μ1,25)\mathrm{N}\left(\mu_{1}, 25\right)N(μ2,25)\mathrm{N}\left(\mu_{2}, 25\right) 的两个独立简单样本, 为使 μ1μ2\mu_{1}-\mu_{2} 的置信水平 90%90 \% 的置信区间长度不超过 2 , 问样本容量 nn 应取多大?

Solution: XˉYˉN(μ1μ2,50n)\bar{X}-\bar{Y} \sim N\left(\mu_{1}-\mu_{2}, \frac{50}{n}\right), 于是取枢量: XˉYˉ(μ1μ2)50/nN(0,1)\frac{\bar{X}-\bar{Y}-\left(\mu_{1}-\mu_{2}\right)}{\sqrt{50 / n}} \sim N(0,1), 可 得出 μ1μ2\mu_{1}-\mu_{2}1α1-\alpha 置信区间为:

[XˉYˉ50nμ1α2,XˉYˉ+50nμ1α2]\left[\bar{X}-\bar{Y}-\sqrt{\frac{50}{n}} \mu_{1-\frac{\alpha}{2}}, \bar{X}-\bar{Y}+\sqrt{\frac{50}{n}} \mu_{1-\frac{\alpha}{2}}\right]

则置信区间长度为 250nu1α2=250nu0.952 \sqrt{\frac{50}{n}} u_{1-\frac{\alpha}{2}}=2 \sqrt{\frac{50}{n}} u_{0.95}, 令 250nμ0.9522 \sqrt{\frac{50}{n}} \mu_{0.95} \leqslant 2, 其中查表可得 μ0.95=1.645\mu_{0.95}=1.645, 解得 n135.3n \geqslant 135.3, 因此 nn 至少为 136 .

  1. X1,X2,,XnX_{1}, X_{2}, \cdots, X_{n} 是来自于正态总体 N(μ,σ2)N\left(\mu, \sigma^{2}\right) 的简单随机样本, 其中 μ,σ2\mu, \sigma^{2} 皆未知. 确定常数 cc 使得ci=1n1(XnXi)2c \sum_{i=1}^{n-1}\left(X_{n}-X_{i}\right)^{2}σ2\sigma^{2} 的无偏估计.

Solution:
由题意有 XnXiN(0,2σ2)X_{n}-X_{i} \sim N\left(0,2 \sigma^{2}\right), 因此 E(XnXi)2=2σ2E\left(X_{n}-X_{i}\right)^{2}=2 \sigma^{2}, 所以

Ei=1n1(XnXi)2=2(n1)σ2E \sum_{i=1}^{n-1}\left(X_{n}-X_{i}\right)^{2}=2(n-1) \sigma^{2}

于是应取 c=12(n1)c=\frac{1}{2(n-1)}.

  1. 设总体 XX 的概率密度函数为

f(x;θ)={θxθ1,0<x<10, 其他 f(x ; \theta)=\left\{\begin{array}{ll} \theta x^{\theta-1}, &0<x<1 \\ 0, &\text { 其他 } \end{array}\right.

又设 X1,X2X_{1}, X_{2} 是取自该总体的简单样本, 需要考虑的假设检验问顶为 H0:θ=1H1:θ=2\mathrm{H}_{0}: \theta=1 \leftrightarrow \mathrm{H}_{1}: \theta=2, 其否定域为 {(X1,X2):3X14X2}\left\{\left(X_{1}, X_{2}\right): 3 X_{1} \leqslant 4 X_{2}\right\}, 求此检验的功效函数以及犯两种类型错误的概率.

Solution:
样本的联合密度函数是 fX1,X2(x,y)=θ2xθ1yθ1,0<x,y<1f_{X_{1}, X_{2}}(x, y)=\theta^{2} x^{\theta-1} y^{\theta-1}, 0<x, y<1. 先求检验的功效 函数

ρ(θ)=Pθ(3X14X2)=01dx34x1θ2xθ1yθ1dy=112(34)θ\rho(\theta)=P_{\theta}\left(3 X_{1} \leqslant 4 X_{2}\right)=\int_{0}^{1} d x \int_{\frac{3}{4} x}^{1} \theta^{2} x^{\theta-1} y^{\theta-1} d y=1-\frac{1}{2}\left(\frac{3}{4}\right)^{\theta}

于是犯两类错误的概率是:

α=ρ(1)=58β=1ρ(2)=932\begin{aligned} &\alpha=\rho(1)=\frac{5}{8} \\ &\beta=1-\rho(2)=\frac{9}{32} \end{aligned}

  1. Φ(x)\Phi(x) 为标准正态分布的分布函数, 随机变量 XX 的分布函数为

F(x)=0.4Φ(x24)+0.6Φ(x),xRF(x)=0.4 \Phi\left(\frac{x-2}{4}\right)+0.6 \Phi(x), \forall x \in R

EXE X.

Solution: 容易求 XX 的密度函数 f(x)=0.1φ(x24)+0.6φ(x)f(x)=0.1 \varphi\left(\frac{x-2}{4}\right)+0.6 \varphi(x), 其中 φ()\varphi(\cdot) 是标准正态分 布的密度函数, 则

EX=+110xφ(x24)dx++35xφ(x)dx=0.8+0=0.8\begin{aligned} E X &=\int_{-\infty}^{+\infty} \frac{1}{10} x \varphi\left(\frac{x-2}{4}\right) d x+\int_{-\infty}^{+\infty} \frac{3}{5} x \varphi(x) d x \\ &=0.8+0=0.8 \end{aligned}

二、(20分) 设在 (0,1)(0,1) 区间上任意选取一点, 该点坐标记为 XX; 然后在区间 (0,X)(0, X) 上随机地选取一个
点,其坐标记为 YY.

(1) 求 YY 的概率密度函数;

(2) 求 X+YX+YYY 的数学期望;

(3) 求 XXYY 之间的相关系数.

Solution:
(1)
由题意有 XU(0,1)X \sim U(0,1), 而 YX=xU(0,x)Y \mid X=x \sim U(0, x), 利用连续场合的全概率公式, 可知 YY 的边际密度函数是

fY(y)=011xI{y<x}dx=y11xdx=lny,0<y<1\begin{aligned} f_{Y}(y) &=\int_{0}^{1} \frac{1}{x} I_{\{y<x\}} d x \\ &=\int_{y}^{1} \frac{1}{x} d x=-\ln y, 0<y<1 \end{aligned}

(2)
显然有 EX=12E X=\frac{1}{2}, 再由重期望公式, EY=E(E(YX))=E(X2)=14E Y=E(E(Y \mid X))=E\left(\frac{X}{2}\right)=\frac{1}{4}, 因此有 E(X+Y)=34.E(X+Y)=\frac{3}{4} .

(3)
再次利用重期望公式, 有

EXY=E(E(XYX))=E(X22)=12(112+14)=16E X Y=E(E(X Y \mid X))=E\left(\frac{X^{2}}{2}\right)=\frac{1}{2}\left(\frac{1}{12}+\frac{1}{4}\right)=\frac{1}{6}

所以 Cov(X,Y)=EXYEXEY=124\operatorname{Cov}(X, Y)=E X Y-E X E Y=\frac{1}{24}. 再计算 XXYY 的方差, 对于标准均匀分
XX, 有 Var(X)=112\operatorname{Var}(X)=\frac{1}{12}, 对于 YY 的方差, 利用方差恒等式

Var(Y)=E[Var(YX)]+Var[E(YX)]=E[X212]+Var[X2]=112(112+14)+14112=7144\begin{aligned} \operatorname{Var}(Y) &=E[\operatorname{Var}(Y \mid X)]+\operatorname{Var}[E(Y \mid X)] \\ &=E\left[\frac{X^{2}}{12}\right]+\operatorname{Var}\left[\frac{X}{2}\right] \\ &=\frac{1}{12} \cdot\left(\frac{1}{12}+\frac{1}{4}\right)+\frac{1}{4} \cdot \frac{1}{12} \\ &=\frac{7}{144} \end{aligned}

综上所述, Corr(X,Y)=1241127144=37\operatorname{Corr}(X, Y)= \frac{\frac{1}{24}}{\sqrt{\frac{1}{12}} \sqrt{\frac{7}{144}}}=\sqrt{\frac{3}{7}}.

三、(13分) 设随机变量 XN(0,1),YX \sim N(0,1), Y 为另外一个随机变量, 等可能取值 1,2,,n1,2, \cdots, n_{\circ}Z=X/YZ=X / YYYXX 相互独立, 问 ZZ 是否具有概率密度函数? 若存在概率密度函数, 请求出该概率密度函数.

Solution: 由分布函数定义可以得到,

FZ(z)=P(Zz)=P(XYz)=i=1nP(XzYY=i)P(Y=i)=1ni=1nziφ(x)dx\begin{aligned} F_{Z}(z) &=P(Z \leqslant z)=P\left(\frac{X}{Y} \leqslant z\right)=\sum_{i=1}^{n} P(X \leqslant z Y \mid Y=i) P(Y=i) \\ &=\frac{1}{n} \sum_{i=1}^{n} \int_{-\infty}^{z i} \varphi(x) d x \end{aligned}

该函数显然是可导的, 其导函数便是 ZZ 的密度函数,

fZ(z)=dF(z)dz=1ni=1ni2πexp{z2i22},<z<+f_{Z}(z)=\frac{d F(z)}{d z}=\frac{1}{n} \sum_{i=1}^{n} \frac{i}{\sqrt{2 \pi}} \exp \left\{-\frac{z^{2} i^{2}}{2}\right\},-\infty<z<+\infty

四、(12分) 设 X1,,X9X_{1}, \cdots, X_{9}Y1,,Y5Y_{1}, \cdots, Y_{5} 和分别是从正态总体 N(0,4)N(0,4)N(8,9)N(8,9) 取出的一组简单样本(即独立同分布样本), 彼此相互独立, 记 Yˉ=j=15Yj/5\bar{Y}=\sum_{j=1}^{5} Y_{j} / 5, 问 i=19Xij=15(YjYˉ)2\frac{\sum_{i=1}^{9} X_{i}}{\sqrt{\sum_{j=1}^{5}\left(Y_{j}-\bar{Y}\right)^{2}}} 服从什么分布?

Solution: 一方面 i=19Xi6N(0,1)\frac{\sum_{i=1}^{9} X_{i}}{6} \sim N(0,1), 另一方面 j=15(YjYˉ)29χ2(4)\frac{\sum_{j=1}^{5}\left(Y_{j}-\bar{Y}\right)^{2}}{9} \sim \chi^{2}(4), 且两者独立, 所以

t=i=19Xi/6j=15(YjYˉ)29/4=i=19Xij=15(YjYˉ)2t(4)t=\frac{\sum_{i=1}^{9} X_{i} / 6}{\sqrt{\frac{\sum_{j=1}^{5}\left(Y_{j}-\bar{Y}\right)^{2}}{9} / 4}}=\frac{\sum_{i=1}^{9} X_{i}}{\sqrt{\sum_{j=1}^{5}\left(Y_{j}-\bar{Y}\right)^{2}}} \sim t(4)

五、(14分) 设总体 XX 分布函数为

F(x,θ)={1xθ,x>10,x1F(x, \theta)=\left\{\begin{array}{ll} 1-x^{-\theta}, & x>1 \\ 0, & x \leq 1 \end{array}\right.

其中 θ>1\theta>1 为未知参数, 设 X1,X2,,XnX_{1}, X_{2}, \cdots, X_{n} 为来自总体 XX 的简单随机样本. 求 θ\theta 的矩估计量和极大似然估计量.

Solution: 先求出总体的密度函数, f(x,θ)=θxθ1,x>1f(x, \theta)=\theta x^{-\theta-1}, x>1, 于是

EX=1+θxθdx=θθ1,E X=\int_{1}^{+\infty} \theta x^{-\theta} d x=\frac{\theta}{\theta-1},

所以 θ\theta 的矩估计为 θ^M=XˉXˉ1\hat{\theta}_{M}=\frac{\bar{X}}{\bar{X}-1}. 再求极大似然估计, 似然函数是

L(θ)=θn(i=1nxi)(θ+1),θ>1,L(\theta)=\theta^{n}\left(\prod_{i=1}^{n} x_{i}\right)^{-(\theta+1)}, \quad \theta>1,

对数似然函数为 lnL(θ)=nlnθ(θ+1)i=1nlnxi\ln L(\theta)=n \ln \theta-(\theta+1) \sum_{i=1}^{n} \ln x_{i}, 关于参数求偏导, 有

lnL(θ)θ=nθi=1nlnxi,θ>1,\frac{\partial \ln L(\theta)}{\partial \theta}=\frac{n}{\theta}-\sum_{i=1}^{n} \ln x_{i},\quad \theta>1,

可以发现, 如果 θ<ni=1nlnXi\theta<\frac{n}{\sum_{i=1}^{n} \ln X_{i}}, 则 lnL(θ)\ln L(\theta) 递增, 如果 θ>ni=1nlnXi\theta> \frac{n}{\sum_{i=1}^{n} \ln X_{i}}, 则 lnL(θ)\ln L(\theta) 递减, 结合 θ>1\theta>1, 我们得到 θ\theta 的极大似然估计是

θ^MLE=max{1,ni=1nlnXi}.\hat{\theta}_{M L E}=\max \left\{ 1,\frac{n}{\sum_{i=1}^{n} \ln X_{i}} \right\}.

六、(20分) 现调查 50 个人, 每人回答其性别和喜欢的颜色, 调查结果如下:

红色 蓝色 绿色
5 14 6
15 6 4

现欲检验一个人的性别与其喜欢的颜色是否相互独立. 由具体的数据,检验结果如何? (取显著性水平 α=\alpha= 0.0250.025α=0.01\alpha=0.01 )

Solution: 独立情况下的理论样本数

红色 蓝色 绿色
10 10 5
10 10 5

考虑如下假设检验问题
H0H_{0} : 性别与其喜欢的颜色无关(独立) vs H1H_{1} : 性别与其喜欢的颜色不独立 此时检验统计量为: χ2=i=12j=13(nijnp^ij)2np^ijχ2((21)(31))=χ2(2)\chi^{2}=\sum_{i=1}^{2} \sum_{j=1}^{3} \frac{\left(n_{i j}-n \hat{p}_{i j}\right)^2}{n \hat{p}_{i j}} \sim \chi^{2}((2-1)(3-1))=\chi^{2}(2)
经计算, χ2=8.6\chi^{2}=8.6, 查分位数表得知 α=0.025\alpha=0.025 时, χ2>χ1α2=7.378\chi^{2}>\chi_{1-\alpha}^{2}=7.378, 此时应拒绝原假设, 即我们没有充分的理由能认为性别与喜欢颜色无关(独立).
α=0.01\alpha=0.01 时, χ2<χ1α2=9.21\chi^{2}<\chi_{1-\alpha}^{2}=9.21, 此时不应拒绝原假设, 即我们可以认为性别与喜欢颜色无关(独立).

七、(15分) 考虑一元线性回归模型 Yi=βxi+εi,i=1,,nY_{i}=\beta x_{i}+\varepsilon_{i}, i=1, \cdots, n. 其中 Eεi=0,Var(εi)=σ2,Cov(εi,εj)E \varepsilon_{i}=0, \operatorname{Var}\left(\varepsilon_{i}\right)=\sigma^{2}, \operatorname{Cov}\left(\varepsilon_{i}, \varepsilon_{j}\right) =0(ij)=0(\forall i \neq j). 试求 β\beta 的最小二乘估计 β^\hat{\beta}, 并证明 β^\hat{\beta}β\beta 的无偏估计.

Solution:

Q(β)=i=1n(Yiβxi)2Q(\beta)=\sum_{i=1}^{n}\left(Y_{i}-\beta x_{i}\right)^{2}, 最小二乘估计即求解优化问题

β^=argminβQ(β)\hat{\beta}=\underset{\beta}{\operatorname{argmin}} Q(\beta)

Qβ=2i=1n(Yiβxi)xi=0\frac{\partial Q}{\partial \beta}=-2 \sum_{i=1}^{n}\left(Y_{i}-\beta x_{i}\right) x_{i}=0, 解得 β^=i=1nxiYii=1nxi2\hat{\beta}=\frac{\sum_{i=1}^{n} x_{i} Y_{i}}{\sum_{i=1}^{n} x_{i}{ }^{2}} 是唯一驻点.

而目标函数显然为严格凸函数, 因此该唯一驻点是最小值点, 即 β\beta 的最小二估计是

β^=i=1nxiYii=1nxi2, 又 Eβ^=Ei=1nxiYii=1nxi2=1i=1nxi2i=1nxiEYi=1i=1nxi2i=1nxiβxi=β\begin{aligned} &\hat{\beta}=\frac{\sum_{i=1}^{n} x_{i} Y_{i}}{\sum_{i=1}^{n} x_{i}^{2}} \text {, 又 } \\ &E \hat{\beta}=E \frac{\sum_{i=1}^{n} x_{i} Y_{i}}{\sum_{i=1}^{n} x_{i}^{2}}=\frac{1}{\sum_{i=1}^{n} x_{i}^{2}} \sum_{i=1}^{n} x_{i} E Y_{i}=\frac{1}{\sum_{i=1}^{n} x_{i}^{2}} \sum_{i=1}^{n} x_{i} \beta x_{i}=\beta \end{aligned}

因此 β^\hat{\beta}β\beta 的无偏估计.