北京大学光华-431金融学统计-2017年

一、(15分) 公司甲同时在大陆A 股及香港H 股上市,现有它在A 股市场和H 股市场上过去一年每天的回报预测值 Xi,YiX_i, Y_i

(1)请给出两种检验方法,检验该股票在A 股和H 股上的回报均值是否相等,需要给出具体的计算过程。

(2)讨论这两种检验隐含的假设条件。根据你的假设条件讨论,你认为两种检验有无差异? 如果有, 哪种检验更合理?

Solution:

(1)

  • t检验:假设XiX_iYiY_i都是独立同分布的正态随机变量,且方差未知但相等。则可以用以下公式计算tt统计量:

t=XˉYˉSw1n+1mt=\frac{\bar{X}-\bar{Y}}{S_w\sqrt{\frac{1}{n}+\frac{1}{m}}}

其中,Xˉ\bar{X}Yˉ\bar{Y}分别是XiX_iYiY_i的样本均值,nnmm分别是XiX_iYiY_i的样本大小,SpS_p是合并样本标准差,计算公式为:

Sw=(n1)SX2+(m1)SY2n+m2S_w=\sqrt{\frac{(n-1)S_X^2+(m-1)S_Y^2}{n+m-2}}

其中,SX2S_X^2SY2S_Y^2分别是XiX_iYiY_i的样本方差。然后根据自由度为n+m2n+m-2tt分布表,查找相应的临界值,判断t统计量是否落在拒绝域内。如果是,则拒绝原假设,即认为两个回报均值不相等;如果否,则不能拒绝原假设,即认为两个回报均值没有显著差异。

  • Wilcoxon秩和检验:不需要假设XiX_iYiY_i服从正态分布,只需要假设它们都是连续随机变量,且有相同的形状。则可以用以下步骤进行检验:

    • 将两个样本合并,并按照从小到大的顺序排列,给每个观测值一个秩(即排名),如果有相同的观测值,则给它们平均秩。
    • 计算两个样本的秩和,即将每个样本中的观测值对应的秩相加,得到RXR_XRYR_Y
    • 计算检验统计量:

    Z=RXn(n+m+1)2nm(n+m+1)12Z=\frac{R_X-\frac{n(n+m+1)}{2}}{\sqrt{\frac{n m(n+m+1)}{12}}}

    • 根据标准正态分布表,查找相应的临界值,判断ZZ统计量是否落在拒绝域内。如果是,则拒绝原假设,即认为两个回报均值不相等;如果否,则不能拒绝原假设,即认为两个回报均值没有显著差异。

(2)这两种检验隐含的假设条件有以下区别:

  • tt检验要求两个样本都服从正态分布,而Wilcoxon秩和检验不需要这个假设。这意味着如果两个样本存在偏度或峰度等非正态特征,tt检验可能会失效或不准确,而Wilcoxon秩和检验则更稳健。
  • tt检验要求两个样本的方差相等,而Wilcoxon秩和检验只要求两个样本有相同的形状。这意味着如果两个样本存在方差齐性问题,tt检验可能会受到影响,而Wilcoxon秩和检验则更灵活。
  • tt检验利用了两个样本的具体数值信息,而Wilcoxon秩和检验只利用了两个样本的相对顺序信息。这意味着如果两个样本的数值信息有意义,tt检验可能会更有效,而Wilcoxon秩和检验则可能会损失一些信息。

综上所述,两种检验有一定的差异,哪种检验更合理取决于两个样本的实际分布情况和研究目的。一般来说,如果两个样本都近似正态且方差相等,tt检验是一个合理的选择;如果两个样本不服从正态分布或方差不等,Wilcoxon秩和检验是一个更保守的选择。

二、(15 分)给定模型 ln(y)=α+βln(x)+ε\ln(y) = \alpha + \beta \ln(x) + \varepsilon,和一组观测值 (xi,yi),i=1,2,,n(x_i,y_i), i= 1,2,\cdots, n.

(1)请给出 β\beta 的经济学含义。

(2)请给出 β\beta 的一个估计。

(3)验证你上面给的估计的无偏性(要给出相应的假设条件)

Solution:

(1)β\beta 的经济学含义是 ln(x)\ln(x) 的百分比变化引起的 ln(y)\ln(y) 的百分比变化,也就是 ln(x)\ln(x)ln(y)\ln(y) 之间的弹性。例如,如果 β=0.5\beta = 0.5,那么当 ln(x)\ln(x) 增加 1%,ln(y)\ln(y) 就会增加 0.5%。

(2)β\beta 的一个估计是最小二乘估计,即使得残差平方和最小的值。残差平方和的定义为

S(α,β)=i=1n(εi)2=i=1n(ln(yi)αβln(xi))2S(\alpha,\beta) = \sum_{i=1}^n (\varepsilon_i)^2 = \sum_{i=1}^n (\ln(y_i) - \alpha - \beta \ln(x_i))^2

求解以下方程组,得到最小二乘估计:

{Sα=2i=1n(ln(yi)αβln(xi))=0Sβ=2i=1n(ln(yi)αβln(xi))ln(xi)=0\begin{cases} \frac{\partial S}{\partial \alpha} = -2\sum_{i=1}^n (\ln(y_i) - \alpha - \beta \ln(x_i)) = 0 \\ \frac{\partial S}{\partial \beta} = -2\sum_{i=1}^n (\ln(y_i) - \alpha - \beta \ln(x_i))\ln(x_i) = 0 \end{cases}

解得:

β^=ni=1n(ln(xi)ln(yi))(i=1nln(xi))(i=1nln(yi))ni=1n(ln(xi))2(i=1nln(xi))2\hat{\beta} = \frac{n\sum_{i=1}^n (\ln(x_i)\ln(y_i)) - (\sum_{i=1}^n \ln(x_i))(\sum_{i=1}^n \ln(y_i))}{n\sum_{i=1}^n (\ln(x_i))^2 - (\sum_{i=1}^n \ln(x_i))^2}

(3)为了验证 β^\hat{\beta} 的无偏性,需要假设以下条件:

  • E(εi)=0\mathbb{E}(\varepsilon_i) = 0,即误差项的期望为零。
  • E(εi2)=σ2\mathbb{E}(\varepsilon_i^2) = \sigma^2,即误差项的方差为常数。
  • E(εiεj)=0,ij\mathbb{E}(\varepsilon_i\varepsilon_j) = 0, i\neq j,即不同观测值的误差项之间没有相关性。

在这些假设下,可以证明:

E(β^)=E(ni=1n(ln(xi)ln(yi))(i=1nln(xi))(i=1nln(yi))ni=1n(ln(xi))2(i=1nln(xi))2)\mathbb{E}(\hat{\beta}) = \mathbb{E}\left(\frac{n\sum_{i=1}^n (\ln(x_i)\ln(y_i)) - (\sum_{i=1}^n \ln(x_i))(\sum_{i=1}^n \ln(y_i))}{n\sum_{i=1}^n (\ln(x_i))^2 - (\sum_{i=1}^n \ln(x_i))^2}\right)

由于 ln(yi)=α+βln(xi)+εi\ln(y_i) = \alpha + \beta \ln(x_i) + \varepsilon_i,代入上式得:

E(β^)=E(ni=1n(ln(xi)(α+βln(xi)+εi))(i=1nln(xi))(i=1n(α+βln(xi)+εi))ni=1n(ln(xi))2(i=1nln(xi))2)=ni=1n(ln(xi)(α+βln(xi)))(i=1nln(xi))(i=1n(α+βln(xi)))ni=1n(ln(xi))2(i=1nln(xi))2=α{ni=1nln(xi)}+β{ni=1n(ln(xi))2}α{ni=1nln(xi)}β{(i=1nln(xi))2}ni=1n(ln(xi))2(i=1nln(xi))2=β\begin{aligned} \mathbb{E} (\hat{\beta})&=\mathbb{E} \left( \frac{n\sum_{i=1}^n{(}\ln\mathrm{(}x_i)(\alpha +\beta \ln\mathrm{(}x_i)+\varepsilon _i))-(\sum_{i=1}^n{\ln}(x_i))(\sum_{i=1}^n{(}\alpha +\beta \ln\mathrm{(}x_i)+\varepsilon _i))}{n\sum_{i=1}^n{(}\ln\mathrm{(}x_i))^2-(\sum_{i=1}^n{\ln}(x_i))^2} \right) \\ &=\frac{n\sum_{i=1}^n{(}\ln\mathrm{(}x_i)(\alpha +\beta \ln\mathrm{(}x_i)))-(\sum_{i=1}^n{\ln}(x_i))(\sum_{i=1}^n{(}\alpha +\beta \ln\mathrm{(}x_i)))}{n\sum_{i=1}^n{(}\ln\mathrm{(}x_i))^2-(\sum_{i=1}^n{\ln}(x_i))^2} \\ &=\frac{\alpha \cdot \left\{ n\sum_{i=1}^n{\ln \left( x_i \right)} \right\} +\beta \cdot \left\{ n\sum_{i=1}^n{\left( \ln \left( x_i \right) \right) ^2} \right\} -\alpha \cdot \left\{ n\sum_{i=1}^n{\ln}(x_i) \right\} -\beta \cdot \left\{ (\sum_{i=1}^n{\ln}(x_i))^2 \right\}}{n\sum_{i=1}^n{(}\ln\mathrm{(}x_i))^2-(\sum_{i=1}^n{\ln}(x_i))^2} \\ &=\beta \end{aligned}

三、(15 分)为准备研究生入学政治考试,很多学生花了多少不一的时间在考试辅导班复习。当然还花了多少不一的时间自己在家复习。请你设计一个回归模型,检验“在家复习的时间”与“在考试辅导班复习的时间”对最后考试成绩的影响是否一样。假设你可以得到随机抽取的 nn 个考生在家复习的时间 xix_i,在考试辅导班复习的时间 ziz_i, 和她最后的考试成绩yiy_i。你还可以做其它你认为需要的合理的假设。请给出具体的模型和检验方法。

Solution:

可以考虑一个线性回归模型:

yi=α+βxi+γzi+εiy_i = \alpha + \beta x_i + \gamma z_i + \varepsilon_i

其中,yiy_i 是第 ii 个考生的考试成绩,xix_i 是第 ii 个考生在家复习的时间,ziz_i 是第 ii 个考生在考试辅导班复习的时间,εi\varepsilon_i 是误差项。

要检验“在家复习的时间”与“在考试辅导班复习的时间”对最后考试成绩的影响是否一样,就是要检验 β\betaγ\gamma 是否相等。也就是说,要检验以下假设:

H0:β=γv.s.H1:βγH_0: \beta = \gamma \quad v.s. \quad H_1: \beta \neq \gamma

一个可能的检验方法是:

  • 用最小二乘法估计模型参数,得到 α^\hat{\alpha}β^\hat{\beta}γ^\hat{\gamma}
  • 计算检验统计量:

t=β^γ^S2(1xi2+1zi22xizixi2zi2(xizi)2)t = \frac{\hat{\beta} - \hat{\gamma}}{\sqrt{S^2(\frac{1}{\sum x_i^2} + \frac{1}{\sum z_i^2} - \frac{2\sum x_iz_i}{\sum x_i^2\sum z_i^2 - (\sum x_iz_i)^2})}}

其中,S2S^2 是残差平方和除以自由度 n3n-3 得到的随机误差项方差的无偏估计。

根据自由度为 n3n-3tt 分布表,查找相应的临界值,判断 tt 统计量是否落在拒绝域内。如果是,则拒绝原假设,即认为两种复习时间对考试成绩的影响不一样;如果否,则不能拒绝原假设,即认为两种复习时间对考试成绩的影响没有显著差异。

对于该模型需要一些假设:

  • xix_iziz_i 都是非负的,且不会同时为零。
  • E(εi)=0\mathbb{E}(\varepsilon_i) = 0,即误差项的期望为零。
  • E(εixi,zi)=0\mathbb{E}(\varepsilon_i | x_i,z_i) = 0,即误差项和解释变量之间没有相关性。
  • E(εi2xi,zi)=σ2\mathbb{E}(\varepsilon_i^2 | x_i,z_i) = \sigma^2,即误差项的方差为常数。
  • E(εiεjxi,xj,zi,zj)=0,ij\mathbb{E}(\varepsilon_i\varepsilon_j | x_i,x_j,z_i,z_j) = 0, i\neq j,即不同观测值的误差项之间没有相关性。

四、(20 分)假定一个研究者要考查公司管理层的收入是否与公司管理的绩效有关,收集相关数据建立了一个回归模型,变量 yy 为CEO 年薪,变量 x1x_1 为公司上一年年报收益,变量 x2x_2 为公司上一年市场价格,变量 x3x_3 为公司杠杆率,变量 x4x_4 为公司大股东持股比例, 变量 x5x_5 为公司规模. 使用的回归模型为:

y=β0+β1x1+β2x2+β3x3+β4x4+β5x5+εy = \beta_0 + \beta_1 x_1 + \beta_2 x_2 + \beta_3 x_3 + \beta_4 x_4 + \beta_5 x_5 + \varepsilon

(1)请给出CEO年薪只与公司的报表收益和市场表现线性相关的零假设和备择假设,给出假设检验需要的限制模型的形式和检验统计量.

(2)假定通过上述50 家公司的数据计算得到的 β1\beta_1 的估计值为0.3,相应的 tt 统计量为1.5。如果研究者又进一步随机的收集到了更多的数据,共计收集了200家上市公司的数据,使用200 家公司数据重新估计模型,请判断系数的估计值是否会改变,tt 统计量大概会是多少,模型的调整R2R^2是否会改变,如果会改变,给出变化的关系。

(3)请讨论在上面的模型中,如果公司的收益存在盈余管理,可能会对估计的结果产生什么影响,请说明理由,并指出在什么假设条件下,即使存在自变量的量度误差也不影响估计的无偏性?

Solution:

(1)CEO年薪只与公司的报表收益和市场表现线性相关的零假设和备择假设是:

H0:β3=β4=β5=0v.s.H1:β30 或 β40 或 β50H_0: \beta_3 = \beta_4 = \beta_5 = 0 \quad v.s. \quad H_1: \beta_3 \neq 0 \text{ 或 } \beta_4 \neq 0 \text{ 或 } \beta_5 \neq 0

假设检验需要的限制模型的形式是:

y=β0+β1x1+β2x2+εy = \beta_0 + \beta_1 x_1 + \beta_2 x_2 + \varepsilon

检验统计量是:

F=(SSERSSEU)/(dfRdfU)SSEU/dfUF = \frac{(SSE_R - SSE_U)/(df_R - df_U)}{SSE_U/df_U}

其中,SSERSSE_R 是限制模型的残差平方和,SSEUSSE_U 是不限制模型的残差平方和,dfRdf_R 是限制模型的自由度,dfUdf_U 是不限制模型的自由度。根据 FF 分布表,查找相应的临界值,判断 FF 统计量是否落在拒绝域内。如果是,则拒绝原假设,即认为 CEO 年薪不仅与公司的报表收益和市场表现线性相关,还与其他变量有关;如果否,则不能拒绝原假设,即认为 CEO 年薪只与公司的报表收益和市场表现线性相关。

(2)如果研究者又进一步随机地收集到了更多的数据,共计收集了 200 家上市公司的数据,使用 200 家公司数据重新估计模型:

系数的估计值可能会改变,因为更多的数据可能会提供更多的信息,从而影响参数的估计。tt 统计量可能会增大,因为更多的数据可能会减少标准误差,从而增加 tt 统计量的绝对值。具体地,如果 β^1\hat{\beta}_1 的估计值不变,那么 tt 统计量大概会是原来的 4\sqrt{4} 倍,即 3;如果 β^1\hat{\beta}_1 的估计值也改变了,那么 tt 统计量可能会更大或更小。

模型的调整 R2R^2 可能会改变,因为更多的数据可能会影响模型对因变量的解释程度。具体地,如果 SSE 不变或减小,那么调整 R2R^2 会增大;如果 SSE 增大超过一定程度,那么调整 R2R^2 会减小。

(3)在上面的模型中,如果公司的收益存在盈余管理,可能会对估计的结果产生以下影响:

如果盈余管理是随机的,并且与 CEO 年薪无关,那么它只会增加误差项 εi\varepsilon_i 的方差,从而增加参数估计的标准误差和置信区间的宽度,但不影响参数估计的无偏性和一致性。 如果盈余管理是系统性的,并且与 CEO 年薪有关,那么它会导致解释变量 x1x_1 和误差项 εi\varepsilon_i 之间存在相关性,从而造成内生性问题,导致参数估计的偏误和不一致性。例如,如果 CEO 年薪越高,盈余管理越严重,那么 β1\beta_1 的估计值可能会高估真实值,因为它同时反映了 CEO 年薪对公司收益的直接影响和 CEO 年薪对盈余管理的间接影响。

在什么假设条件下,即使存在自变量的量度误差也不影响估计的无偏性?一个可能的假设条件是:

  • 自变量的量度误差是随机的,并且与真实值无关,即 E(xixi)=0\mathbb{E}(x_i^* - x_i) = 0E(xixixi)=0\mathbb{E}(x_i^* - x_i | x_i) = 0,其中 xix_i^* 是观测值,xix_i 是真实值。
  • 自变量的量度误差与误差项无关,即 E((xixi)εi)=0\mathbb{E}((x_i^* - x_i)\varepsilon_i) = 0

五、(15 分)下表是从Wind 资讯的行情数据中随机选取的部分中国公司同时在大陆的A 股和香港H 股上市的公司某一时刻的股票价格。假定我们希望通过这些资料来考查这两个市场是否存在定价的差异。收集到16 家公司的行情报价数据分别为:

股票简称 A股股价 B股股价
中国银行 3.37 3.46
广发证券 18.03 17.18
工商银行 4.41 4.67
中国石油 7.29 5.32
中国神华 18.25 17.38
江西铜业 15.59 9.59
交通银行 5.64 5.94
中国铝业 3.99 2.91
中兴通讯 15.53 10.66
中国中铁 8.65 6.3
中国中车 9.34 6.9
万科 24.2 20.5
新华制药 13.75 5.73
新华保险 43.12 34.45
广深铁路 4.38 4.15
中国铁建 10.53 10.2

通过计算得到16 家公司A 股和H 股的平均价格分别为:12.88 和10.33,标准差分别为10.15 和8.36。(后面的回答使用符号和公式也可以)

(1)请给出这些股票为代表的两个市场股票价格的95%的置信区间。

(2)请根据以上的信息资料给出一个对这两个市场股票价格定价是否存在差异的一个判断性结论。

(3)如果上述公司的选取是随机的,我们想得到一个分辨这两个市场定价差异的1%显著水平判断,你认为大概需要收集多少家公司的数据就可以了。

Solution:

(1)这些股票为代表的两个市场股票价格的 95% 的置信区间是:

  • A 股的置信区间:

xˉA±tα/2,n1sAn\bar{x}_A \pm t_{\alpha/2,n-1}\frac{s_A}{\sqrt{n}}

其中,xˉA\bar{x}_A 是 A 股的平均价格,tα/2,n1t_{\alpha/2,n-1} 是自由度为 n1n-1tt 分布的上 α/2\alpha/2 分位数,sAs_A 是 A 股的标准差,nn 是样本大小。代入数据得:

12.88±2.13110.151612.88 \pm 2.131\frac{10.15}{\sqrt{16}}

化简得 12.88±5.4112.88 \pm 5.41,即 A 股的置信区间是 (7.47,18.29)(7.47, 18.29)

  • H 股的置信区间:

xˉH±tα/2,n1sHn\bar{x}_H \pm t_{\alpha/2,n-1}\frac{s_H}{\sqrt{n}}

其中,xˉH\bar{x}_H 是 H 股的平均价格,tα/2,n1t_{\alpha/2,n-1} 是自由度为 n1n-1tt 分布的上 α/2\alpha/2 分位数,sHs_H 是 H 股的标准差,nn 是样本大小。代入数据得:

10.33±2.1318.361610.33 \pm 2.131\frac{8.36}{\sqrt{16}}

化简得:10.33±4.4510.33 \pm 4.45, 即 H 股的置信区间是 (5.88,14.78)(5.88, 14.78)

(2)一个可能的假设检验的方法是:

定义两个市场股票价格之比为 ri=xAi/xHir_i = x_{Ai}/x_{Hi},其中 xAix_{Ai} 是第 ii 家公司的 A 股价格,xHix_{Hi} 是第 ii 家公司的 H 股价格。 假设两个市场股票价格之比的均值为 μr\mu_r,构造以下假设

H0:μr=1v.s.H1:μr1H_0: \mu_r = 1 \quad v.s. \quad H_1: \mu_r \neq 1

用样本中的 A 股和 H 股之比的平均值 rˉ\bar{r} 和标准差 srs_r 来估计 μr\mu_rσr\sigma_r。根据数据计算得到 rˉ=1.28\bar{r} = 1.28sr=0.36s_r = 0.36

  • 计算检验统计量:t=rˉ1sr/nt = \frac{\bar{r} - 1}{s_r/\sqrt{n}}

代入数据得:

t=1.2810.36/16=3.11t=\frac{1.28-1}{0.36/\sqrt{16}}=3.11

  • 根据自由度为 n1=15n-1 = 15tt 分布表,查找相应的临界值,判断 tt 统计量是否落在拒绝域内。如果是,则拒绝原假设,即认为两个市场股票价格之比的均值不等于 1;如果否,则不能拒绝原假设,即认为两个市场股票价格之比的均值等于 1。在本例中,如果取显著水平为 5%,则临界值为 ±2.131\pm 2.131,因为 t>2.131t > 2.131,所以拒绝原假设,认为两个市场股票价格之比的均值不等于 1,即存在定价差异。

(3)我们令θ=μAμH\theta=\mu_A-\mu_H, α=0.01\alpha=0.01, 下面我们构造θ\theta的单侧置信区间.
考虑如下枢轴量

T=xˉAxˉHθsr/nT=\frac{\bar{x}_A-\bar{x}_H-\theta}{s_r/\sqrt{n}}

在大样本情况下,TN(0,1)T\overset{\cdot}{\sim}N(0,1). 从而有

P(T<z1α)=P(θ>xˉAxˉHz1αsrn)=1αP(T<z_{1-\alpha})=P\left(\theta>\bar{x}_A-\bar{x}_H-z_{1-\alpha}\frac{s_r}{\sqrt{n}}\right)=1-\alpha

θ\theta的置信区间为

[xˉAxˉHz1αsrn,+)[\bar{x}_A-\bar{x}_H-z_{1-\alpha}\frac{s_r}{\sqrt{n}},+\infty)

xˉAxˉHz1αsrn>0\bar{x}_A-\bar{x}_H-z_{1-\alpha}\frac{s_r}{\sqrt{n}}>0,可以反解得到所需的样本量为

n=(z1αsrxˉAxˉH)2.n=\left\lceil\left( z_{1-\alpha}\frac{s_r}{\bar{x}_A-\bar{x}_H}\right)^2\right\rceil.

注: 本题也可采用作商检验,或许更为合适。但是题目中并没有出现特别大(成百上千)的数据,而且题干给出了所有股价的平均数,因此我们采用了作差检验。