北京大学光华-431金融学统计-2021年

一、(20分) 设 (X,Y)(X,Y) 的密度函数是

f(x,y)=2(x+y),0xy1.f(x,y) = 2(x+y),\quad 0\le x\le y\le1.

(1)(10分) 求 X,YX,Y的边际分布;
(2)(10分) 求 X+YX+Y 的分布.

Solution: (1) 先求 YY 的边际, 积分有

fY(y)=0y2(x+y)dx=y2+2y2=3y2,0y1.f_Y\left( y \right) =\int_0^y{2\left( x+y \right) dx}=y^2+2y^2=3y^2,\quad 0\le y\le 1.

再求 XX 的边际, 积分有

fX(x)=x12(x+y)dy=2x(1x)+(1x2)=1+2x3x2,0x1.f_X\left( x \right) =\int_x^1{2\left( x+y \right) dy}=2x\left( 1-x \right) +\left( 1-x^2 \right) =1+2x-3x^2,\quad 0\le x\le 1.

(2) 作变量变换:

{U=X+Y,V=Y,{u=x+y,v=y,{x=uv,y=v,J=1,\begin{cases} U=X+Y,\\ V=Y,\\ \end{cases}\quad \Rightarrow \quad \begin{cases} u=x+y,\\ v=y,\\ \end{cases}\quad \Rightarrow \quad \begin{cases} x=u-v,\\ y=v,\\ \end{cases}\quad \Rightarrow \quad \left| J \right|=1,

因此有

fU,V(u,v)=f(uv,v)=2,0v1,vu2v,f_{U,V}\left( u,v \right) =f\left( u-v,v \right) =2,\quad 0\le v\le 1,v\le u\le 2v,

u(0,1]u\in (0,1]u2vu\frac{u}{2}\le v \le u, 当 u(1,2)u \in(1,2), 有 u2v1\frac{u}{2}\le v\le 1, 因此积分得

fU(u)=u2min{u,1}2dv={u,0<u1,2u,1<u<2.f_U\left( u \right) =\int_{\frac{u}{2}}^{\min \left\{ u,1 \right\}}{2dv}=\begin{cases} u,& 0<u\le 1,\\ 2-u,& 1<u<2.\\ \end{cases}

二、(15分) 为检验声波是否对心率有影响, 对 9 位测试者进行测试, 收集数据如下:

1 2 3 4 5 6 7 8 9
无声波 69 73 76 68 79 71 75 73 74
有声波 75 80 75 81 74 84 81 75 78

(1)(3分) 求有声波和无声波时的平均心率差值.
(2)(8分) 求心率差的 0.950.95 置信区间.
(3)(2分) 解释(2)问的意义.
(4)(2分) 根据(2)的结果判断, 声波对心率是否有显著影响.

[注]: 可能用到的分位数是 t0.95(9)=1.833t_{0.95}(9)=1.833, t0.975(9)=2.262t_{0.975}(9)=2.262, t0.95(8)=1.860t_{0.95}(8) = 1.860, t0.975(8)=2.306t_{0.975}(8)=2.306.

Solution: (1) 作差计算得

1 2 3 4 5 6 7 8 9
差值 6 7 -1 13 -5 13 6 2 4

计算得平均值为 xˉ=5\bar{x}= 5. 此外计算出样本标准差是 s=5.916s=5.916.

(2) 假设心率差 XN(μ,σ2)X\sim N(\mu,\sigma^2), 有枢轴量

T=nxˉμst(n1),T=\sqrt{n}\frac{\bar{x}-\mu}{s}\sim t\left( n-1 \right) ,

有置信区间为 xˉ±t0.975(n1)sn\bar{x}\pm t_{0.975}\left( n-1 \right) \frac{s}{\sqrt{n}}, 代入得

[52.30635.916,5+2.30635.916]=[0.453,9.547].\left[ 5-\frac{2.306}{3}\cdot 5.916,5+\frac{2.306}{3}\cdot 5.916 \right] =\left[ 0.453,9.547 \right] .

(3) 我们有 95%95\% 的把握, 认为 μ\mu 的真实值处于区间[0.453,9.547]\left[ 0.453,9.547 \right] 中.

(4) 置信区间和假设检验的对偶关系: 双侧置信区间不包含 μ0\mu_0 当且仅当双侧假设检验问题

H0:μ=μ0vsH1:μμ0H_0:\mu = \mu_0 \quad \mathrm{vs} \quad H_1:\mu \neq \mu_0

的原假设被拒绝.

在本题中, 考虑 H0:μ=0vsH1:μ0H_0:\mu =0 \quad \mathrm{vs} \quad H_1:\mu \neq 0. 由于 95%95\% 置信区间中不含 00, 因此该问题的原假设被拒绝, 我们认为声波对心率会产生显著影响.

三、(20分) 某电视台在考虑缩短广告时间节约成本, 但担心缩短广告时间会导致广告效果产生负面影响, 收集数据如下:

20s广告 25s广告 30s广告 合计
有印象 16 32 12 60
无印象 44 38 58 140
合计 60 70 70 200

(1)(2分) 写出 H0H_0H1H_1;
(2)(5分) 求各单元格期望计数;
(3)(8分) 求检验结果;
(4)(5分) 针对检验结果, 给出你的建议.

Solution: (1) 原假设应为广告时长不影响广告效果, 即

H0:广告效果与广告时长独立vsH1:不独立H_0: \text{广告效果与广告时长独立} \quad \mathrm{vs} \quad H_1: \text{不独立}

(2) 期望计数即为独立情形下预计出现的数量, 由于

p^1=60200=0.3,p^2=70200=0.35,p^3=0.35,\hat{p}_{1\cdot}=\frac{60}{200}=0.3,\quad \hat{p}_{2\cdot}=\frac{70}{200}=0.35,\quad \hat{p}_{3\cdot}=0.35,

p^1=0.3,p^2=0.7.\hat{p}_{\cdot 1}=0.3,\quad \hat{p}_{\cdot 2} = 0.7.

E[nij]=np^ipjE[n_{ij}]=n\cdot \hat{p}_{i\cdot}p_{\cdot j}, 因此有

20s广告 25s广告 30s广告 合计
有印象期望 18 21 21 60
无印象期望 42 49 49 140
合计 60 70 70 200

(3) 可计算出对应的差值 (实测-期望) 是

20s广告 25s广告 30s广告
有印象差值 -2 11 -9
无印象差值 2 -11 9

得到列联表检验统计量

χ2=i,j(nijE(nij))2E(nij)=14.059,\chi ^2=\sum_{i,j}{\frac{\left( n_{ij}-E\left( n_{ij} \right) \right) ^2}{E\left( n_{ij} \right)}}=14.059,

原假设成立时有 χ2χ2((31)(21))=χ2(2)\chi^2\sim \chi^2((3-1)(2-1))=\chi^2(2), 拒绝域是

W={χ2χ0.952(2)},W=\{\chi^2 \ge \chi^2_{0.95}(2)\},

回忆起 Yχ2(2)=Exp(1)Y\sim \chi^2(2)=Exp(1), 令 P(Y>c)=ec=0.05P\left( Y>c \right) =e^{-c}=0.05, 解得

χ0.952(2)=c=ln(0.05)=2.99573,\chi _{0.95}^{2}\left( 2 \right) =c=-\ln \left( 0.05 \right) =2.99573,

显然此时 14.059>2.9957314.059>2.99573, 落入拒绝域, 故认为广告时长与广告效果不独立.

(3) 可以发现: 2525s 时长的广告效果是最好的. 因此可以将 3030s 的广告缩减时间到 2525s, 既可以节省成本, 又增强了广告效果.

四、(20分) 设有线性模型 Y=a+bX+csinX+eY=a+bX+c\sin X+e, 其中 eN(0,d)e\sim N(0,d). 假设收集到独立数据 (x1,y1),(x2,y2),,(xn,yn)(x_1,y_1),(x_2,y_2),\cdots,(x_n,y_n).

(1)(10分) 求 a,b,c,da,b,c,d 的极大似然估计 a^,b^,c^,d^\hat{a},\hat{b},\hat{c},\hat{d}.
(2)(5分) 求 a^,b^,c^\hat{a},\hat{b},\hat{c} 的分布.
(3)(5分) 根据该模型, 如何判断 YYXX 是否存在明显的线性关系?

Solution: (1) 似然函数是

L(a,b,c,d)=(2πd)n2exp{12di=1n(yiabxicsinxi)2},L\left( a,b,c,d \right) =\left( 2\pi d \right) ^{-\frac{n}{2}}\exp \left\{ -\frac{1}{2d}\sum_{i=1}^n{\left( y_i-a-bx_i-c\sin x_i \right) ^2} \right\} ,

对数似然函数是

(a,b,c,d)=Cn2lnd12di=1n(yiabxicsinxi)2,\ell \left( a,b,c,d \right) =C-\frac{n}{2}\ln d-\frac{1}{2d}\sum_{i=1}^n{\left( y_i-a-bx_i-c\sin x_i \right) ^2},

求导有

{a=1di=1n(yiabxicsinxi),(1)b=1di=1nxi(yiabxicsinxi),(2)c=1di=1nsinxi(yiabxicsinxi),(3)d=n2d+12d2i=1n(yiabxicsinxi)2,(4)\begin{cases} \frac{\partial \ell}{\partial a}=\frac{1}{d}\sum_{i=1}^n{\left( y_i-a-bx_i-c\sin x_i \right) ,}& \left( 1 \right)\\ \frac{\partial \ell}{\partial b}=\frac{1}{d}\sum_{i=1}^n{x_i\left( y_i-a-bx_i-c\sin x_i \right) ,}& \left( 2 \right)\\ \frac{\partial \ell}{\partial c}=\frac{1}{d}\sum_{i=1}^n{\sin x_i\left( y_i-a-bx_i-c\sin x_i \right) ,}& \left( 3 \right)\\ \frac{\partial \ell}{\partial d}=-\frac{n}{2d}+\frac{1}{2d^2}\sum_{i=1}^n{\left( y_i-a-bx_i-c\sin x_i \right) ^2},& \left( 4 \right)\\ \end{cases}

令它们为 00, 且记zi=sinxiz_i=\sin x_i, 由 (4)(4) 直接得

d^=1ni=1n(yia^b^xic^sinxi)2,\hat{d}=\frac{1}{n}\sum_{i=1}^n{\left( y_i-\hat{a}-\hat{b}x_i-\hat{c}\sin x_i \right) ^2},

再由 (1)(1) 直接得 a^=yˉb^xˉc^zˉ\hat{a} = \bar{y}-\hat{b} \bar{x} -\hat{c}\bar{z}. 整理 (2)(2)

i=1nxi(yiabxiczi)=i=1n(xixˉ)(yia^b^xic^zi)=i=1n(xixˉ)((yiyˉ)b^(xixˉ)c^(zizˉ))=lxyb^lxxc^lxz,\begin{aligned} \sum_{i=1}^n{x_i\left( y_i-a-bx_i-cz_i \right)}&=\sum_{i=1}^n{\left( x_i-\bar{x} \right) \left( y_i-\hat{a}-\hat{b}x_i-\hat{c}z_i \right)}\\ &=\sum_{i=1}^n{\left( x_i-\bar{x} \right) \left( \left( y_i-\bar{y} \right) -\hat{b}\left( x_i-\bar{x} \right) -\hat{c}\left( z_i-\bar{z} \right) \right)}\\ &=l_{xy}-\hat{b}l_{xx}-\hat{c}l_{xz},\\ \end{aligned}

b^lxx+c^lxz=lxy\hat{b}l_{xx}+\hat{c}l_{xz}=l_{xy}, 同理由 (3)(3)b^lxz+c^lzz=lzy\hat{b}l_{xz}+\hat{c}l_{zz}=l_{zy}. 即有线性方程组

{lxxb^+lxzc^=lxy,lxzb^+lzzc^=lzy,\begin{cases} l_{xx}\cdot \hat{b}+l_{xz}\cdot \hat{c}=l_{xy},\\ l_{xz}\cdot \hat{b}+l_{zz}\cdot \hat{c}=l_{zy},\\ \end{cases}

根据克拉默法则, 解得

b^=lxylzzlxzlzylxxlzzlxz2,c^=lxxlzylxylxzlxxlzzlxz2.\hat{b}=\frac{l_{xy}l_{zz}-l_{xz}l_{zy}}{l_{xx}l_{zz}-l_{xz}^{2}},\quad \hat{c}=\frac{l_{xx}l_{zy}-l_{xy}l_{xz}}{l_{xx}l_{zz}-l_{xz}^{2}}.

代入得

a^=yˉb^xˉc^zˉ,d^=1ni=1n(yia^b^xic^sinxi)2.\hat{a} = \bar{y}-\hat{b} \bar{x} -\hat{c}\bar{z}, \quad \hat{d}=\frac{1}{n}\sum_{i=1}^n{\left( y_i-\hat{a}-\hat{b}x_i-\hat{c}\sin x_i \right) ^2}.

(2) 根据线性回归结论, 有 β^N(β,Vd)\hat{\beta} \sim N(\beta,Vd), 其中 V=Q1=(XTX)1V=Q^{-1}=(X^TX)^{-1}, 此处

Q=XTX=(nxizixixi2xizizixizizi2),Q= X^TX=\left( \begin{matrix} n& \sum{x_i}& \sum{z_i}\\ \sum{x_i}& \sum{x_{i}^{2}}& \sum{x_iz_i}\\ \sum{z_i}& \sum{x_iz_i}& \sum{z_{i}^{2}}\\ \end{matrix} \right) ,

若记 V=(vij)V=(v_{ij}), 则有

a^N(a,v11d),b^N(b,v22d),c^N(c,v33d),\hat{a}\sim N\left( a,v_{11}d \right) ,\quad \hat{b}\sim N\left( b,v_{22}d \right) ,\quad \hat{c}\sim N\left( c,v_{33}d \right) ,

根据逆矩阵计算公式, 有

vij=1det(Q)(1)i+jQij.v_{ij}=\frac{1}{\det \left( Q \right)}\left( -1 \right) ^{i+j}Q_{ij}.

先计算行列式, 有

Q=(2)+(xˉ)(1)(3)+(zˉ)(1)nxizi0xi2nxˉ2xizinxˉzˉ0xizinxˉzˉzi2nzˉ2=n(lxxlzzlxz2).\left| Q \right|\xlongequal{\begin{array}{c} \left( 2 \right) +\left( -\bar{x} \right) \cdot \left( 1 \right)\\ \left( 3 \right) +\left( -\bar{z} \right) \cdot \left( 1 \right)\\ \end{array}}\left| \begin{matrix} n& \sum{x_i}& \sum{z_i}\\ 0& \sum{x_{i}^{2}}-n\bar{x}^2& \sum{x_iz_i}-n\bar{x}\bar{z}\\ 0& \sum{x_iz_i}-n\bar{x}\bar{z}& \sum{z_{i}^{2}}-n\bar{z}^2\\ \end{matrix} \right|=n\left( l_{xx}l_{zz}-l_{xz}^{2} \right) .

因此有

v11d=dn(lxxlzzlxz2)xi2xizixizizi2=dn(lxxlzzlxz2)lxx+nxˉ2lxz+nxˉzˉlxz+nxˉzˉlzz+nzˉ=(zˉ2lxx2xˉzˉlxy+xˉ2lzzlxxlzzlxz2+1n)d.\begin{aligned} v_{11}d&=\frac{d}{n\left( l_{xx}l_{zz}-l_{xz}^{2} \right)}\left| \begin{matrix} \sum{x_{i}^{2}}& \sum{x_iz_i}\\ \sum{x_iz_i}& \sum{z_{i}^{2}}\\ \end{matrix} \right|=\frac{d}{n\left( l_{xx}l_{zz}-l_{xz}^{2} \right)}\left| \begin{matrix} l_{xx}+n\bar{x}^2& l_{xz}+n\bar{x}\bar{z}\\ l_{xz}+n\bar{x}\bar{z}& l_{zz}+n\bar{z}\\ \end{matrix} \right|\\ &=\left( \frac{\bar{z}^2l_{xx}-2\bar{x}\bar{z}l_{xy}+\bar{x}^2l_{zz}}{l_{xx}l_{zz}-l_{xz}^{2}}+\frac{1}{n} \right) d.\\ \end{aligned}

以及

v22d=dn(lxxlzzlxz2)nzizizi2=lzzlxxlzzlxz2d,v_{22}d=\frac{d}{n\left( l_{xx}l_{zz}-l_{xz}^{2} \right)}\left| \begin{matrix} n& \sum{z_i}\\ \sum{z_i}& \sum{z_{i}^{2}}\\ \end{matrix} \right|=\frac{l_{zz}}{l_{xx}l_{zz}-l_{xz}^{2}}d,

v33d=dn(lxxlzzlxz2)nxixixi2=lxxlxxlzzlxz2d,v_{33}d=\frac{d}{n\left( l_{xx}l_{zz}-l_{xz}^{2} \right)}\left| \begin{matrix} n& \sum{x_i}\\ \sum{x_i}& \sum{x_{i}^{2}}\\ \end{matrix} \right|=\frac{l_{xx}}{l_{xx}l_{zz}-l_{xz}^{2}}d,

综上所述, 有

a^N(a,(zˉ2lxx2xˉzˉlxy+xˉ2lzzlxxlzzlxz2+1n)d),b^N(b,lzzlxxlzzlxz2d),c^N(c,lxxlxxlzzlxz2d).\begin{aligned} \hat{a}&\sim N\left( a,\left( \frac{\bar{z}^2l_{xx}-2\bar{x}\bar{z}l_{xy}+\bar{x}^2l_{zz}}{l_{xx}l_{zz}-l_{xz}^{2}}+\frac{1}{n} \right) d \right) ,\\ \hat{b}&\sim N\left( b,\frac{l_{zz}}{l_{xx}l_{zz}-l_{xz}^{2}}d \right) ,\quad \hat{c}\sim N\left( c,\frac{l_{xx}}{l_{xx}l_{zz}-l_{xz}^{2}}d \right) .\\ \end{aligned}

(3) 根据该模型, 如果 YYXX 具有线性关系, 那么系数 b^\hat{b} 应该非常显著, 同时, 非线性关系项 sinX\sin X 对应的系数 c^\hat{c} 不应显著.