北京大学数院-431金融学综合-2016年

一、(14分) 回答下述问题:

(1)(4分) 52 张扑克牌分给 4 家,求每一家都是同花色的概率;

(2)(5分) 甲、乙、丙三人破译密码,成功的概率分别为 0.5,0.4,0.30.5, 0.4 , 0.3 且相互独立, 求密码被成功破译的概率 ;

(3)(5分) 一个母虫产的卵的数量服从参数为 λ\lambda 的泊松分布,每只卵能孵化幼虫的概率为 p,p, 求母虫有 nn 只后代的概率.

Solution:
(1) P(A)=#A#ΩP(A)=\frac{\# A}{\# \Omega}, 而 #A=4!,#Ω=52!(13!)4,P(A)=4!(13!)452!\# A=4 !, \# \Omega=\frac{52 !}{(13 !)^{4}}, \therefore P(A)=\frac{4 !(13 !)^{4}}{52 !}.

(2) P(ABC)=1P(AˉBˉCˉ)=10.5×0.6×0.7=0.79P(A \cup B \cup C)=1-P(\bar{A} \cap \bar{B} \cap \bar{C})=1-0.5 \times 0.6 \times 0.7=0.79.

(3) 根据全概率公式:
P(P( 母虫有 nn 只后代 )=k=n+P()=\sum_{k=n}^{+\infty} P( 母虫有 nn 只后代|母虫产 kk 个卵) P(P( 母虫产 kk 个卵 )),
PP (母虫产 kk 个卵 )=λkk!eλ)=\frac{\lambda^{k}}{k !} e^{-\lambda},
P(P( 母虫有 nn 只后代|母虫产 kk 个卵 )=Cknpnqkn=k!n!(kn)!pnqkn)=C_{k}^{n} p^{n} q^{k-n}=\frac{k !}{n !(k-n) !} p^{n} q^{k-n},
P(\therefore P( 母虫有 nn 只后代 )=k=n+k!n!(kn)!pnqknλkk!eλ=λnpnn!eλk=n+(qλ)kn(kn)!=λnpnn!eλi=0+(qλ)ii!=λnpnn!eλeqλ=(λp)nn!eλp.)=\sum_{k=n}^{+\infty} \frac{k !}{n !(k-n) !} p^{n} q^{k-n} \cdot \frac{\lambda^{k}}{k !} e^{-\lambda} =\frac{\lambda^{n} p^{n}}{n !} e^{-\lambda} \sum_{k=n}^{+\infty} \frac{(q \lambda)^{k-n}}{(k-n) !}=\frac{\lambda^{n} p^{n}}{n !} e^{-\lambda} \sum_{i=0}^{+\infty} \frac{(q \lambda)^{i}}{i !}=\frac{\lambda^{n} p^{n}}{n !} e^{-\lambda} e^{q \lambda}=\frac{(\lambda p)^{n}}{n !} e^{-\lambda p} .
它恰好是参数为 λp\lambda p 的泊松分布.

二、(11分) X1,X2X_{1}, X_{2} i.i.d U(0,1),Y=min{X1,X2},\sim U(0,1), Y=\min \left\{X_{1}, X_{2}\right\},

(1)(6分) YY 的概率分布;

(2)(5分) EYE YDYD Y .

Solution:
(1) 利用微分法:

P{Y=y}=P{X1=y,X2y}+P{X2=y,X1y}=2P{X1=y}P{X2y},P\{Y=y\}=P\left\{X_{1}=y, X_{2} \geq y\right\}+P\left\{X_{2}=y, X_{1} \geq y\right\}=2 P\left\{X_{1}=y\right\} P\left\{X_{2} \geq y\right\},

y(0,1),P{X1=y}=1dy,P{X2y}=1yy \in(0,1), \quad P\left\{X_{1}=y\right\}=1 d y, \quad P\left\{X_{2} \geq y\right\}=1-y,
因此 P{Y=y}=2(1y)dyP\{Y=y\}=2(1-y) d y, 所以 fY(y)=2(1y),y(0,1)f_{Y}(y)=2(1-y), y \in(0,1).

(2) 如果可以看出 YBeta(1,2)Y \sim \operatorname{Beta}(1,2), 就直接套入期望方差公式, 不过直接求也是可以 的.

EY=201y(1y)dy=2Beta(2,2)=13,EY2=201y2(1y)dy=2Beta(3,2)=16,DY=1619=118.\begin{aligned} &E Y=2 \int_{0}^{1} y(1-y) d y=2 \operatorname{Beta}(2,2)=\frac{1}{3}, \\ &E Y^{2}=2 \int_{0}^{1} y^{2}(1-y) d y=2 \operatorname{Beta}(3,2)=\frac{1}{6}, \\ &\therefore D Y=\frac{1}{6}-\frac{1}{9}=\frac{1}{18} . \end{aligned}

三、(11分) X,Y,ZX, Y, Z 的密度为 f(x,y,z)=e(x+y+z),x,y,zf(x, y, z)=e^{-(x+y+z)}, x, y, z 大于 0,0,X,Y,ZX, Y, Z 是否相互独立.

Solution:
先求边缘密度:

fX(x)=++e(x+y+z)dydz=ex,fY(y)=++e(x+y+z)dxdy=eyfZ(z)=++e(x+y+z)dxdy=ez\begin{gathered} f_{X}(x)=\int_{-\infty}^{+\infty} \int_{-\infty}^{+\infty} e^{-(x+y+z)} d y d z=e^{-x}, f_{Y}(y)=\int_{-\infty}^{+\infty} \int_{-\infty}^{+\infty} e^{-(x+y+z)} d x d y=e^{-y} \\ f_{Z}(z)=\int_{-\infty}^{+\infty} \int_{-\infty}^{+\infty} e^{-(x+y+z)} d x d y=e^{-z} \end{gathered}

又因为 fX(x)fY(y)fZ(z)=f(x,y,z)f_{X}(x) f_{Y}(y) f_{Z}(z)=f(x, y, z), fX,Y=fXfY,fY,Z=fYfZ,fX,Z=fXfZf_{X,Y}=f_Xf_Y,f_{Y,Z}=f_Yf_Z,f_{X,Z}=f_Xf_Z. 因此 X,Y,ZX, Y, Z 相互独立.

四、(14分) 叙述并证明中心极限定理.

Solution:
中心极限定理说明的是: 在大样本的情况下, 各独立样本 (通常同分布) 的和将近似服
从正态分布,也就是 i=1nXi\sum_{i=1}^{n} X_{i} 近似服从 N(i=1nEXi,i=1nDXi)N\left(\sum_{i=1}^{n} E X_{i}, \sum_{i=1}^{n} D X_{i}\right) ,中心极限定理经常被用于作近似 的区间估计以及拒绝域.
数学语言描述中心极限定理:
【中心极限定理】若 X1,,Xn,i.i.d,EX1=μ,DX1=σ2X_{1}, \ldots, X_{n}, i . i . d, E X_{1}=\mu, D X_{1}=\sigma^{2}, 则

Sn=i=1n(Xiμ)nσdN(0,1).S_{n}=\frac{\sum_{i=1}^{n}\left(X_{i}-\mu\right)}{\sqrt{n} \sigma} \stackrel{d}{\longrightarrow} N(0,1) .

【证明】利用特征函数进行证明, 设 XiμX_{i}-\mu 的特征函数为 φi(t)\varphi_{i}(t), 由于

φi(0)=iE(Xiμ)=0,φi(0)=DXi=σ2,\varphi_{i}^{\prime}(0)=i E\left(X_{i}-\mu\right)=0, \varphi_{i}^{\prime \prime}(0)=-D X_{i}=-\sigma^{2},

φi(t)\varphi_{i}(t) 在 0 点展开到 2 阶, 即

φi(t)=1σ22t2+o(t2),\varphi_{i}(t)=1-\frac{\sigma^{2}}{2} t^{2}+o\left(t^{2}\right),

利用卷积公式, i=1n(Xiμ)\sum_{i=1}^{n}\left(X_{i}-\mu\right) 的特征函数

φ(t)=i=1nφi(t)=[1σ22t2+o(t2)]n,\varphi(t)=\prod_{i=1}^{n} \varphi_{i}(t)=\left[1-\frac{\sigma^{2}}{2} t^{2}+o\left(t^{2}\right)\right]^{n},

EeitSn=Eeitnσi=1n(Xiμ)=φ(tnσ)=[1t22n+o(t2n)]nE e^{i t S_{n}}=E e^{i \frac{t}{\sqrt{n} \sigma} \sum_{i=1}^{n}\left(X_{i}-\mu\right)}=\varphi\left(\frac{t}{\sqrt{n} \sigma}\right)=\left[1-\frac{t^{2}}{2 n}+o\left(\frac{t^{2}}{n}\right)\right]^{n},
所以 limnEeiSn=limn[1t22n+o(t2n)]n=et22\lim _{n \rightarrow \infty} E e^{i S_{n}}=\lim _{n \rightarrow \infty}\left[1-\frac{t^{2}}{2 n}+o\left(\frac{t^{2}}{n}\right)\right]^{n}=e^{-\frac{t^{2}}{2}}, 而等式右侧恰好是标准正态分布的特征函数, 由此见得 Sn=i=1n(Xiμ)nσdN(0,1)S_{n}=\frac{\sum_{i=1}^{n}\left(X_{i}-\mu\right)}{\sqrt{n} \sigma} \stackrel{d}{\longrightarrow} N(0,1).

五、(11分) 有来自总体B(1,p)B(1, p)nn个随机样本, 求 pp 的充分统计量以及 p(1p)p(1-p) 的UMVUE.

Solution:
先写出似然函数:
L(x1,,xn;p)=pi=1nI[xi=1](1p)ni=1nI[xi=1]=(1p)n(p1p)nXˉL\left(x_{1}, \ldots, x_{n} ; p\right)=p^{\sum_{i=1}^{n} I\left[x_{i}=1\right]}(1-p)^{n-\sum_{i=1}^{n} I\left[x_{i}=1\right]}=(1-p)^{n}\left(\frac{p}{1-p}\right)^{n \bar{X}}, 根据指数族性质,
T=nXˉT = n\bar{X} 是充分完备统计量. 根据L-S定理, 只需找出基于TT的无偏估计. 由于 TB(n,p)T\sim B(n,p), 则 ET=npET=np, ET2=(np)2+np(1p)=(n2n)p2+npET^2=\left( np \right) ^2+np\left( 1-p \right) =\left( n^2-n \right) p^2+np, 令

αET+βET2=p(1p),\alpha ET+\beta ET^2=p\left( 1-p \right),

β(n2n)p2+(α+β)np=p2+p,\beta \left( n^2-n \right) p^2+\left( \alpha +\beta \right) np=-p^2+p,

比较系数得 α=nn2n\alpha =\frac{n}{n^2-n}, β=1n2n\beta =\frac{-1}{n^2-n}. 故 E[TnT2n2n]=p(1p)E\left[ \frac{T-nT^2}{n^2-n} \right] =p\left( 1-p \right). nTT2n2n\frac{nT-T^2}{n^2-n} 是所求的UMVUE.

六、(11分) 有来自总体U(0,θ)U(0, \theta)nn个随机样本, 求在 α\alpha 的显著性水平下 θ\theta 的置信区间.

Solution:
用枢轴量法来构造置信区间:
假设来自总体为 U(0,θ)U(0, \theta)nn 个随机样本为 X1,,XnX_{1}, \ldots, X_{n}, 那么

T=X(n)θf(t)=ntn1,0<t<1,T=\frac{X_{(n)}}{\theta} \sim f(t)=n t^{n-1}, 0<t<1,

我们想找到 0c<d10 \leq c<d \leq 1, 使得

1α=P{cTd}1-\alpha=P\{c \leq T \leq d\}

我们可以取 c=α1n,d=1c=\alpha^{\frac{1}{n}}, d=1 将满足

1α=P{α1nX(n)θ1}, 即 1α=P{X(n)θX(n)α1n}1-\alpha=P\left\{\alpha^{\frac{1}{n}} \leq \frac{X_{(n)}}{\theta} \leq 1\right\} \text {, 即 } 1-\alpha=P\left\{X_{(n)} \leq \theta \leq \frac{X_{(n)}}{\alpha^{\frac{1}{n}}}\right\} \text {, }

θ\theta1α1-\alpha 置信区间为 [X(n),X(n)α1n]\left[X_{(n)}, \frac{X_{(n)}}{\alpha^{\frac{1}{n}}}\right].

七、(14分) 叙述并证明Neyman-Pearson基本引理.

Solution:
【奈曼-皮尔逊基本引理】总体 XX 有密度函数 f(x;θ)f(x ; \theta), 似然函数为 LL, 对于假设检
验问题:

H0:θ=θ0 Vs H1:θ=θ1H_{0}: \theta=\theta_{0} \quad \text { Vs } \quad H_{1}: \theta=\theta_{1}

λ(x1,,xn)=L(x1,,xn;θ1)L(x1,,xn;θ0),W0={x:λC}\lambda\left(x_{1}, \ldots, x_{n}\right)=\frac{L\left(x_{1}, \ldots, x_{n} ; \theta_{1}\right)}{L\left(x_{1}, \ldots, x_{n} ; \theta_{0}\right)}, \quad W_{0}=\{x: \lambda \geq C\}, 其中 CC 满足 P(XW0θ=θ0)=αP\left( X\in W_0\mid \theta =\theta _0 \right) =\alpha, 那么 W0={x:λC}W_{0}=\{x: \lambda \geq C\} 就是该问题的水平为 α\alphaUMP\mathrm{UMP} 拒绝域.

【证明】对于任意一个水平小于等于 α\alpha 的拒绝域 WW, 我们试图证明它犯第二类错 误的概率比 W0W_{0} 大:

Pθ1(XWˉ)Pθ1(XWˉ0)=WˉL(X;θ1)dx1dxnWˉ0L(X;θ1)dx1dxn=W0L(X;θ1)dx1dxnWL(X;θ1)dx1dxn=W0WL(X;θ1)dx1dxnWW0L(X;θ1)dx1dxnC[W0WL(X;θ0)dx1dxnWW0L(X;θ0)dx1dxn]=C[W0L(X;θ0)dx1dxnWL(X;θ0)dx1dxn]C[αα]=0\begin{aligned} P_{\theta _1}\left( X\in \bar{W} \right) -P_{\theta _1}\left( X\in \bar{W}_0 \right) &=\int_{\bar{W}}{L\left( X;\theta _1 \right) dx_1\cdots dx_n}-\int_{\bar{W}_0}{L\left( X;\theta _1 \right) dx_1\cdots dx_n} \\ &=\int_{W_0}{L\left( X;\theta _1 \right) dx_1\cdots dx_n}-\int_W{L\left( X;\theta _1 \right) dx_1\cdots dx_n} \\ &=\int_{W_0-W}{L\left( X;\theta _1 \right) dx_1\cdots dx_n}-\int_{W-W_0}{L\left( X;\theta _1 \right) dx_1\cdots dx_n} \\ &\ge C\left[ \int_{W_0-W}{L\left( X;\theta _0 \right) dx_1\cdots dx_n}-\int_{W-W_0}{L\left( X;\theta _0 \right) dx_1\cdots dx_n} \right] \\ &=C\left[ \int_{W_0}{L\left( X;\theta _0 \right) dx_1\cdots dx_n}-\int_W{L\left( X;\theta _0 \right) dx_1\cdots dx_n} \right] \\ &\ge C\left[ \alpha -\alpha \right] =0 \end{aligned}

八、(14分) 设线性回归模型

Yi=β0+β1Xi+εi,εiN(0,σ2),Y_i = \beta_0 + \beta_1 X_i + \varepsilon_i,\quad \varepsilon_i \sim N(0,\sigma^2),

其中XiX_i是常数, 各XiX_i均不相同.

(1) 求 β0,β1,σ2\beta_0, \beta_1, \sigma^2 的最大似然估计 β^0,β^1,σ^2\widehat{\beta}_0, \widehat{\beta}_1, \widehat{\sigma}^2.

(2) 上述 σ^2\hat{\sigma}^2 是否为 σ2\sigma^2 的无偏估计? 若是,请说明理由; 若不是,试构造 σ2\sigma^2 的无偏估计.

(3) 给出H0:β1=0vsH1:β10H_0:\beta_1=0 \quad \mathrm{vs}\quad H_1:\beta_1\neq 0的显著性水平为α\alpha的拒绝域.

Solution: (1) 由题意可知, YiN(β0+β1xi,σ2)Y_i \sim N\left(\beta_0+\beta_1 x_i, \sigma^2\right), 似然函数

L(Y;β0,β1,σ2)=(2πσ2)n2exp{12i=1n(yiβ0β1xi)2σ2}L\left(\mathbf{Y} ; \beta_0, \beta_1, \sigma^2\right)=\left(2 \pi \sigma^2\right)^{-\frac{n}{2}} \exp \left\{-\frac{1}{2} \frac{\sum_{i=1}^n\left(y_i-\beta_0-\beta_1 x_i\right)^2}{\sigma^2}\right\}

对数似然函数 lnL=n2ln(2πσ2)i=1n(yiβ0β1xi)22σ2\ln L=-\frac{n}{2} \ln \left(2 \pi \sigma^2\right)-\frac{\sum_{i=1}^n\left(y_i-\beta_0-\beta_1 x_i\right)^2}{2 \sigma^2}.

{lnLβ0=2i=1n(yiβ0β1xi)2σ2=0lnLβ1=2i=1nxi(yiβ0β1xi)2σ2=0lnLσ2=n2σ2+i=1n(yiβ0β1xi)2=02σ4\left\{\begin{array}{l}\frac{\partial \ln L}{\partial \beta_0}=\frac{2 \sum_{i=1}^n\left(y_i-\beta_0-\beta_1 x_i\right)}{2 \sigma^2}=0 \\ \frac{\partial \ln L}{\partial \beta_1}=\frac{2 \sum_{i=1}^n x_i\left(y_i-\beta_0-\beta_1 x_i\right)}{2 \sigma^2}=0 \\ \frac{\partial \ln L}{\partial \sigma^2}=-\frac{n}{2 \sigma^2}+\frac{\sum_{i=1}^n\left(y_i-\beta_0-\beta_1 x_i\right)^2=0}{2 \sigma^4}\end{array} \quad\right.

解得

{β^0=yˉxˉlxylxxβ^1=lxylxxσ^2=i=1n[yiβ^0β^1xi]2n\left\{ \begin{array}{c} \hat{\beta}_0=\bar{y}-\bar{x}\frac{l_{xy}}{l_{xx}}\\ \hat{\beta}_1=\frac{l_{xy}}{l_{xx}}\\ \hat{\sigma}^2=\frac{\sum_{i=1}^n{\left[ y_i-\hat{\beta}_0-\hat{\beta}_1x_i \right] ^2}}{n}\\ \end{array} \right.

其中 {lxx=i=1n(xixˉ)2=i=1nxi2nxˉ2lyy=i=1n(yiyˉ)2=i=1nyi2nyˉ2lxy=i=1n(xixˉ)(yiyˉ)=i=1nxiyinxˉyˉ\left\{\begin{array}{l}l_{x x}=\sum_{i=1}^n\left(x_i-\bar{x}\right)^2=\sum_{i=1}^n x_i^2-n \bar{x}^2 \\ l_{y y}=\sum_{i=1}^n\left(y_i-\bar{y}\right)^2=\sum_{i=1}^n y_i^2-n \bar{y}^2 \\ l_{x y}=\sum_{i=1}^n\left(x_i-\bar{x}\right)\left(y_i-\bar{y}\right)=\sum_{i=1}^n x_i y_i-n \bar{x} \bar{y}\end{array}\right.

(2) 由于SEσ2χ2(n2)\frac{S_E}{\sigma^2}\sim \chi^2(n-2), 因此有

E(σ^2)=σ2nE(SEσ2)=n2nσ2,E\left( \hat{\sigma}^2 \right) =\frac{\sigma ^2}{n}E\left( \frac{S_E}{\sigma ^2} \right) =\frac{n-2}{n}\sigma ^2,

故它不是无偏的, 修正的无偏估计为

σ~2=nn2σ^2=SEn2.\tilde{\sigma}^2=\frac{n}{n-2}\hat{\sigma}^2=\frac{S_E}{n-2}.

(3) 这是一个系数的 tt 检验, 由于 β^1N(β1,σ2/lxx)\hat{\beta}_1 \sim N\left(\beta_1, \sigma^2/l_{x x}\right), 因此有

β^1β1σ2lxxN(0,1),\frac{\hat{\beta}_1-\beta_1}{\sqrt{\frac{\sigma^2}{l_{x x}}}} \sim N(0,1),

但是方差项 σ2\sigma^2 是末知的,我们只能用无偏估计量

σ~2=1n2i=1n(yiβ^0β^1xi)2\tilde{\sigma}^2=\frac{1}{n-2} \sum_{i=1}^n\left(y_i-\hat{\beta}_0-\hat{\beta}_1 x_i\right)^2

去替代.而 (n2)σ~2σ2χ2(n2)\frac{(n-2) \tilde{\sigma}^2}{\sigma^2} \sim \chi^2(n-2) 且与分子独立,因此有检验

W={Tt1α2(n2)}.W=\left\{|T| \geq t_{1-\frac{\alpha}{2}}(n-2)\right\}.