北京大学光华-431金融学统计-2022年

一、(20分) 设 XX 有密度函数

f(x)={c(1x2),x1,0,其他.f\left( x \right) =\begin{cases} c\left( 1-x^2 \right) ,& \left| x \right|\le 1,\\ 0,& \text{其他}.\\ \end{cases}

(1)(5分) 求 cc.
(2)(10分) 求 XX 的期望和方差.
(3)(5分) 求 Y=X2Y=X^2 的概率分布.

Solution: (1) 由密度函数的正则性, 有

1=c11(1x2)dx=c(223)=43c,1=c\int_{-1}^1{\left( 1-x^2 \right) dx}=c\left( 2-\frac{2}{3} \right) =\frac{4}{3}c,

解得 c=34c=\frac{3}{4}.

(2) 先计算期望, 由奇函数性质, 有

E(X)=3411x(1x2)dx=0.E\left( X \right) =\frac{3}{4}\int_{-1}^1{x\left( 1-x^2 \right) dx}=0.

再算二阶矩, 由偶函数性质, 有

E(X2)=3411x2(1x2)dx=3201(x2x4)dx=32(1315)=15.E\left( X^2 \right) =\frac{3}{4}\int_{-1}^1{x^2\left( 1-x^2 \right) dx}=\frac{3}{2}\int_0^1{\left( x^2-x^4 \right) dx}=\frac{3}{2}\left( \frac{1}{3}-\frac{1}{5} \right) =\frac{1}{5}.

因此 Var(X)=15Var(X)=\frac{1}{5}.

(3) 利用分布函数法, 对 y(0,1)y\in (0,1), 有

P(Yy)=34yy(1x2)dx=34(2y23y32)=32y1212y32.P\left( Y\le y \right) =\frac{3}{4}\int_{-\sqrt{y}}^{\sqrt{y}}{\left( 1-x^2 \right) dx}=\frac{3}{4}\left( 2\sqrt{y}-\frac{2}{3}y^{\frac{3}{2}} \right) =\frac{3}{2}y^{\frac{1}{2}}-\frac{1}{2}y^{\frac{3}{2}}.

求导, 得

fY(y)=34y1234y12,y(0,1).f_Y\left( y \right) =\frac{3}{4}y^{-\frac{1}{2}}-\frac{3}{4}y^{\frac{1}{2}},\quad y\in \left( 0,1 \right) .

二、(15分) 某生产灯泡的公司想估计灯泡的平均寿命(小时). 设灯泡寿命 XN(μ,10002)X\sim N(\mu,1000^2).

(1)(5分) 想将 95%95\% 的置信水平的置信区间误差控制在 ±200\pm 200 小时内, 需要多少样本量?
(2)(5分) 现将置信水平改为 99%99\%, 重新回答(1).
(3)(5分) 现在考虑置信水平还是 95%95\%, 但误差需要在 ±100\pm 100 小时内, 需要多少样本量?

Solution: (1) 枢轴量为 Z=nxˉμ1000N(0,1)Z=\sqrt{n}\frac{\bar{x}-\mu}{1000}\sim N\left( 0,1 \right), 因此有置信区间

[xˉz0.9751000n,xˉ+z0.9751000n].\left[ \bar{x}-z_{0.975}\frac{1000}{\sqrt{n}},\bar{x}+z_{0.975}\frac{1000}{\sqrt{n}} \right] .

查表得 z0.975=1.96z_{0.975}=1.96, 因此令

1.961000n200,n(1.961000200)2=96.04.1.96\frac{1000}{\sqrt{n}}\le 200,\quad \Rightarrow \quad n\ge \left( 1.96\frac{1000}{200} \right) ^2=96.04.

这说明至少需要 9797 个样本量.

(2) 同理, 查表得 z0.995=2.58z_{0.995}= 2.58, 因此令

2.581000n200,n(2.581000200)2=166.41.2.58\frac{1000}{\sqrt{n}}\le 200,\quad \Rightarrow \quad n\ge \left( 2.58\frac{1000}{200} \right) ^2=166.41.

这说明至少需要 167167 个样本量.

(3) 令

1.961000n100,n(1.961000100)2=384.16.1.96\frac{1000}{\sqrt{n}}\le 100,\quad \Rightarrow \quad n\ge \left( 1.96\frac{1000}{100} \right) ^2=384.16.

至少需要 385385 个样本量.

三、(20分) 为调查折扣水平和订阅服务量是否有关, 收集如下数据.

无折扣 普通折扣 大折扣 总和
订阅 20 50 30 100
不订阅 80 150 70 300
总和 100 200 100 400

(1)(5分) 写出 H0H_0H1H_1.
(2)(10分) 给出检验统计量及其在 H0H_0 下的分布, 并计算其样本值.
(3)(5分) 在 0.050.05 显著性水平下, 是否认为折扣水平和订阅服务量有关?

Solution: (1) 原假设应是折扣水平和订阅服务量无关, 备择假设是有关, 即

H0:折扣水平和订阅服务量独立vsH1:不独立H_0:\text{折扣水平和订阅服务量独立} \quad \mathrm{vs} \quad H_1:\text{不独立}

(2) 列联表检验统计量

χ2=i,j(nijnp^ip^j)2np^ip^jχ2((31)(21))=χ2(2).\chi ^2=\sum_{i,j}{\frac{\left( n_{ij}-n\hat{p}_{i\cdot}\hat{p}_{\cdot j} \right) ^2}{n\hat{p}_{i\cdot}\hat{p}_{\cdot j}}}\sim \chi ^2\left( \left( 3-1 \right) \left( 2-1 \right) \right) =\chi ^2\left( 2 \right) .

我们先计算出独立时每个单元格期望值 np^ip^jn\hat{p}_{i\cdot}\hat{p}_{\cdot j}, 即

无折扣 普通折扣 大折扣 总和
订阅 25 50 25 100
不订阅 75 150 75 300
总和 100 200 100 400

对应计算出差值 nijnp^ip^jn_{ij}-n\hat{p}_{i\cdot}\hat{p}_{\cdot j}, 即

无折扣 普通折扣 大折扣
订阅差值 -5 0 5
不订阅差值 5 0 -5

因此有卡方统计量的值为

χ2=52(125+175)+0+52(125+175)=2.66667.\chi ^2=5^2\left( \frac{1}{25}+\frac{1}{75} \right) +0+5^2\left( \frac{1}{25}+\frac{1}{75} \right) =2.66667.

(3) 对应的拒绝域是

W={χ2χ0.952(2)},W=\{\chi^2 \ge \chi^2_{0.95}(2)\},

回忆起 Yχ2(2)=Exp(1)Y\sim \chi^2(2)=Exp(1), 令 P(Y>c)=ec=0.05P\left( Y>c \right) =e^{-c}=0.05, 解得

χ0.952(2)=c=ln(0.05)=2.99573,\chi _{0.95}^{2}\left( 2 \right) =c=-\ln \left( 0.05 \right) =2.99573,

显然此时 2.66667<2.995732.66667<2.99573, 不落入拒绝域, 故我们认为订阅量与折扣水平独立.

四、(20分) 设有线性模型 Y=a+bX+clnX+eY=a+bX+c\ln X+e, 其中 eN(0,σ2)e\sim N(0,\sigma^2). 假设收集到独立数据 (x1,y1),(x2,y2),,(xn,yn)(x_1,y_1),(x_2,y_2),\cdots,(x_n,y_n).

(1)(5分) 求 a,b,ca,b,c 的 OLS 估计量.
(2)(5分) 根据该模型, 如何判断 YYXX 是否存在明显的线性关系?
(3)(10分) 如果 YYXX 存在线性关系, 求 bb 的OLS估计量, 并证明它是无偏的.

Solution: (1) 记zi=lnxiz_i=\ln x_i, OLS 估计意味着残差平方和最小, 即

Q(a,b,c)=i=1n(yiabxiczi)2Q\left( a,b,c \right) =\sum_{i=1}^n{\left( y_i-a-bx_i-cz_i \right) ^2}

最小. 求导有

{Qa=i=1n(yiabxiczi),(1)Qb=i=1nxi(yiabxiczi),(2)Qc=i=1nzi(yiabxiczi),(3)\begin{cases} \frac{\partial Q}{\partial a}=-\sum_{i=1}^n{\left( y_i-a-bx_i-cz_i \right) ,}& \left( 1 \right)\\ \frac{\partial Q}{\partial b}=-\sum_{i=1}^n{x_i\left( y_i-a-bx_i-cz_i \right) ,}& \left( 2 \right)\\ \frac{\partial Q}{\partial c}=-\sum_{i=1}^n{z_i\left( y_i-a-bx_i-cz_i \right) ,}& \left( 3 \right)\\ \end{cases}

令它们为 00, 由 (1)(1) 直接得 a^=yˉb^xˉc^zˉ\hat{a} = \bar{y}-\hat{b} \bar{x} -\hat{c}\bar{z}.
整理 (2)(2)

i=1nxi(yiabxiczi)=i=1n(xixˉ)(yia^b^xic^zi)=i=1n(xixˉ)((yiyˉ)b^(xixˉ)c^(zizˉ))=lxyb^lxxc^lxz,\begin{aligned} \sum_{i=1}^n{x_i\left( y_i-a-bx_i-cz_i \right)}&=\sum_{i=1}^n{\left( x_i-\bar{x} \right) \left( y_i-\hat{a}-\hat{b}x_i-\hat{c}z_i \right)}\\ &=\sum_{i=1}^n{\left( x_i-\bar{x} \right) \left( \left( y_i-\bar{y} \right) -\hat{b}\left( x_i-\bar{x} \right) -\hat{c}\left( z_i-\bar{z} \right) \right)}\\ &=l_{xy}-\hat{b}l_{xx}-\hat{c}l_{xz},\\ \end{aligned}

b^lxx+c^lxz=lxy\hat{b}l_{xx}+\hat{c}l_{xz}=l_{xy}, 同理由 (3)(3)b^lxz+c^lzz=lzy\hat{b}l_{xz}+\hat{c}l_{zz}=l_{zy}. 即有线性方程组

{lxxb^+lxzc^=lxy,lxzb^+lzzc^=lzy,\begin{cases} l_{xx}\cdot \hat{b}+l_{xz}\cdot \hat{c}=l_{xy},\\ l_{xz}\cdot \hat{b}+l_{zz}\cdot \hat{c}=l_{zy},\\ \end{cases}

根据克拉默法则, 解得

b^=lxylzzlxzlzylxxlzzlxz2,c^=lxxlzylxylxzlxxlzzlxz2.\hat{b}=\frac{l_{xy}l_{zz}-l_{xz}l_{zy}}{l_{xx}l_{zz}-l_{xz}^{2}},\quad \hat{c}=\frac{l_{xx}l_{zy}-l_{xy}l_{xz}}{l_{xx}l_{zz}-l_{xz}^{2}}.

代入得 a^=yˉb^xˉc^zˉ\hat{a} = \bar{y}-\hat{b} \bar{x} -\hat{c}\bar{z}.

(2) 根据该模型, 如果 YYXX 具有线性关系, 那么系数 b^\hat{b} 应该非常显著, 同时, 非线性关系项 lnX\ln X 对应的系数 c^\hat{c} 不应显著.

(3) 如果已知 YYXX 只存在线性关系, 则有非线性关系项 lnX\ln X 对应的系数真值为 c=0c=0, 此时残差平方和为 Q(a,b)=i=1n(yiabxi)2Q\left( a,b \right) =\sum_{i=1}^n{\left( y_i-a-bx_i \right) ^2}, 重复 (1) 中求导步骤得

a^=yˉb^xˉ,b^=lxylxx=i=1n(xixˉ)(yiyˉ)i=1n(xixˉ),\hat{a}=\bar{y}-\hat{b}\bar{x},\quad \hat{b}=\frac{l_{xy}}{l_{xx}}=\frac{\sum_{i=1}^n{\left( x_i-\bar{x} \right) \left( y_i-\bar{y} \right)}}{\sum_{i=1}^n{\left( x_i-\bar{x} \right)}},

根据期望的线性性, 有

E(b^)=i=1n(xixˉ)E(yiyˉ)lxx=i=1n(xixˉ)(a+bxi(a+bxˉ))lxx=i=1nb(xixˉ)2lxx=blxxlxx=b.\begin{aligned} E\left( \hat{b} \right) &=\frac{\sum_{i=1}^n{\left( x_i-\bar{x} \right) E\left( y_i-\bar{y} \right)}}{l_{xx}}=\frac{\sum_{i=1}^n{\left( x_i-\bar{x} \right) \left( a+bx_i-\left( a+b\bar{x} \right) \right)}}{l_{xx}}\\ &=\frac{\sum_{i=1}^n{b\left( x_i-\bar{x} \right) ^2}}{l_{xx}}=\frac{bl_{xx}}{l_{xx}}=b.\\ \end{aligned}