北京大学光华-431金融学统计-2018年

一、(15分) 解释或回答以下概念及问题:

(1)(5 分)随机变量 XXYY 的相关性。
(2)(5 分)随机变量 XXYY 的独立性。
(3)(5 分)如果 XXYY 不相关,那么 XXYY 是否独立?请具体论述。

Solution:

(1)随机变量 XXYY 的相关性可以用相关系数来度量,相关系数的定义是

ρXY=Cov(X,Y)Var(X)Var(Y)\rho_{XY}=\frac{Cov(X,Y)}{\sqrt{Var(X)Var(Y)}}

其中 Cov(X,Y)Cov(X,Y) 是协方差,Var(X)Var(X)Var(Y)Var(Y) 是方差。相关系数的绝对值越接近1,表示相关性越强;相关系数为正,表示正相关,即一个变量增大时另一个变量也增大;相关系数为负,表示负相关,即一个变量增大时另一个变量减小;相关系数为0,表示不相关,即两个变量之间没有线性相关关系。

(2)随机变量 XXYY 的独立性可以用联合分布函数和边缘分布函数,或者联合概率密度和边缘概率密度来判断,如果两个随机变量的联合分布(密度)等于两个随机变量的边缘分布(密度)的乘积,那么两个随机变量就是独立的。即 FXY(x,y)=FX(x)FY(y)F_{XY}(x,y)=F_X(x)F_Y(y) 或者 fXY(x,y)=fX(x)fY(y)f_{XY}(x,y)=f_X(x)f_Y(y), 否则我们说两个随机变量不独立.

(3)如果 XXYY 不相关,那么 XXYY 不一定独立。因为不相关只能说明两个随机变量之间没有线性关系,但不能排除其他非线性关系。例如,如果 XX 是一个均匀分布在 [1,1][-1,1] 的随机变量,而 Y=X2Y=X^2,那么

Cov(X,Y)=E(XY)E(X)E(Y)=E(X3)E(X)E(X2)=00=0Cov(X,Y)=E(XY)-E(X)E(Y)=E(X^3)-E(X)E(X^2)=0-0=0

但显然 XXYY 不是独立的。

二、(15 分)给定模型 yi=bxi+εiy_i =b x_i + \varepsilon_i,随机误差项 εi N(0,σ2)\varepsilon_i~N(0, \sigma^2)相互独立, 其中 σ2>0\sigma^2>0 未知, 现收集到数据 (xi,yi)(x_i, y_i), i=1,2,,ni = 1,2,\cdots,n.

(1)(5 分)请给出bb的最小二乘估计量b^\hat{b}

(2)(5 分)求b^\hat{b}的期望、方差和分布。

(3)(5 分)对于检验问题 H0:b=0H_0: b = 0 vs H1:b>0H_1: b > 0, 给出检验法.

Solution:

(1)bb的最小二乘估计量b^\hat{b}是使得残差平方和

S(b)=i=1n(yibxi)2S({b})=\sum_{i=1}^n(y_i-{b}x_i)^2

最小的值。对S(b)S({b})求导并令其等于0,得到

S(b)b=2i=1n(yibxi)xi=0\frac{\partial S({b})}{\partial {b}}=-2\sum_{i=1}^n(y_i-{b}x_i)x_i=0

解得 b^=i=1nxiyii=1nxi2\hat{b}=\frac{\sum_{i=1}^n x_i y_i}{\sum_{i=1}^n x_i^2}.

(2)考虑到 b^\hat{b}y1,y2,,yny_1, y_2, \cdots, y_n 的线性函数, 且 y1,y2,,yny_1, y_2, \cdots, y_n 具有联合正态分布, 因此估计量也是正态分布, 故只需求其期望与方差.

b^\hat{b}的期望是

E(b^)=i=1nxiE(yi)i=1nxi2=i=1nxi(bxi)i=1nxi2=bE(\hat{b})=\frac{\sum_{i=1}^n x_i E(y_i)}{\sum_{i=1}^n x_i^2}=\frac{\sum_{i=1}^n x_i (b x_i)}{\sum_{i=1}^n x_i^2}=b

b^\hat{b}的方差是

Var(b^)=i=1nxi2Var(yi)(i=1nxi2)2=σ2i=1nxi2Var(\hat{b})=\frac{\sum_{i=1}^n x_i^2 Var(y_i)}{(\sum_{i=1}^n x_i^2)^2}=\frac{\sigma^2}{\sum_{i=1}^n x_i^2}

b^\hat{b}的分布是正态分布,即 b^N(b,σ2i=1nxi2)\hat{b}\sim N(b,\frac{\sigma^2}{\sum_{i=1}^n x_i^2}).

(3)对于检验问题 H0:b=0H_0: b = 0 vs H1:b>0H_1: b > 0,可以使用单侧 tt 检验法。构造统计量

t=b^0σ^2i=1nxi2,t=\frac{\hat{b}-0}{\sqrt{\frac{\hat{\sigma}^2}{\sum_{i=1}^n x_i^2}}},

其中 σ^2=1n1i=1n(yib^xi)2\hat{\sigma}^2=\frac{1}{n-1}\sum_{i=1}^n{\left( y_i-\hat{b}x_i \right) ^2}, 在原假设成立时,该统计量服从自由度为 n1n-1tt 分布.

则根据给定的显著性水平 α\alpha,查表得到临界值 t1α(n1)t_{1-\alpha}(n-1),如果观察到的统计量值 tt 大于临界值 t1α(n1)t_{1-\alpha}(n-1),则拒绝原假设;否则不拒绝原假设.

三、(10 分)工商局抽查了 NN 家小微企业,发现 MM 家企业存在违规行为。请你设计一个统计模型,检验企业主的性别男女与违规行为是否有关。

Solution:

可以使用卡方检验法。卡方检验法是一种用于分析两个分类变量之间是否有关联的方法。在这个问题中,两个分类变量分别是企业主的性别(男或女)和企业是否存在违规行为(是或否)。我们可以用一个二维列联表来表示这两个变量的频数分布,如下:

违规 未违规 总计
aa bb a+ba+b
cc dd c+dc+d
总计 a+ca+c b+db+d NN

其中,a,b,c,da,b,c,d是观察到的频数,N=M+(NM)N=M+(N-M)是总样本数。我们的假设检验问题是:

H0:H_0: 性别与违规行为无关

H1:H_1: 性别与违规行为有关

我们可以构造统计量

χ2=i=12j=12(OijEij)2Eij\chi ^2=\sum_{i=1}^2{\sum_{j=1}^2{\frac{(O_{ij}-E_{ij})^2}{E_{ij}}}}

其中,OijO_{ij}是第ii行第jj列的观察频数,EijE_{ij}是第ii行第jj列的期望频数,根据原假设和边际分布计算得到 Eij=(Oi)(Oj)NE_{ij}=\frac{(O_{i \cdot})(O_{\cdot j})}{N} 在原假设成立时,该统计量近似服从自由度为 (r1)(c1)(r-1)(c-1) 的卡方分布,其中 r,cr,c 分别是行数和列数。根据给定的显著性水平 α\alpha,查表得到临界值 χ1α2((r1)(c1))\chi^2_{1-\alpha}((r-1)(c-1)). 如果观察到的统计量值 χ2\chi^2 大于临界值, 则拒绝原假设;否则不拒绝原假设。

四、(15分) 在股票交易系统中,任何一只股票连续两次交易的时间间隔tit_i服从泊松分布。现有两只股票一周的全部交易数据,请检验这两只股票是否服从同一泊松分布。

Solution: 用 λ1,λ2\lambda_1, \lambda_2 表示两个泊松分布的参数, 而 Xˉ\bar{X}Yˉ\bar{Y} 分别表示两只股票的交易间隔时间均值, 则根据中心极限定理有 n(Xˉλ1)dN(0,λ1),m(Yˉλ2)dN(0,λ2)\sqrt{n}\left( \bar{X}-\lambda _1 \right) \rightarrow _dN\left( 0,\lambda _1 \right), \sqrt{m}\left( \bar{Y}-\lambda _2 \right) \rightarrow _dN\left( 0,\lambda _2 \right), 因此有

(XˉYˉ)(λ1λ2)λ1n+λ2mdN(0,1),\frac{\left( \bar{X}-\bar{Y} \right) -\left( \lambda _1-\lambda _2 \right)}{\sqrt{\frac{\lambda _1}{n}+\frac{\lambda _2}{m}}}\rightarrow _dN\left( 0,1 \right) ,

在原假设成立时, λ1=λ2\lambda _1=\lambda _2 且可由两组样本的共同均值 λ^0=nXˉ+mYˉn+m\hat{\lambda}_0=\frac{n\bar{X}+m\bar{Y}}{n+m} 估计, 且根据大数定律有λ^0pλ1\hat{\lambda}_0\rightarrow _p\lambda _1. 故根据slutsky定理, 有

Z=XˉYˉnXˉ+mYˉnmdN(0,1).Z = \frac{\bar{X}-\bar{Y}}{\sqrt{\frac{n\bar{X}+m\bar{Y}}{nm}}}\rightarrow _dN\left( 0,1 \right) .

ZZ 可以作为检验统计量, 临界值为 z1α/2z_{1-\alpha/2}, 其中 α\alpha 是检验的显著性水平, 当 Z<z1α/2|Z| < z_{1-\alpha/2} 时接受原假设, 即认为两只股票服从同一泊松分布.

五、(20 分)假定一个研究者要考查公司管理层的收入是否与公司管理的绩效有关,收集相关数据建立了一个回归模型,变量 yy 为CEO 年薪,变量 x1x_1 为公司上一年年报收益,变量 x2x_2 为公司上一年市场价格,变量 x3x_3 为公司盈利能力,变量 x4x_4 为公司规模。使用的回归模型为:

y=β0+β1x1+β2x2+β3x3+β4x4+εy = \beta_0 + \beta_1 x_1 + \beta_2 x_2 + \beta_3 x_3 + \beta_4 x_4 + \varepsilon

(1)如果只利用收集到的20 家公司进行分析,是否适合?如不适合,请给出原因。

(2)如果通过收集数据,将公司数量增加到80 家,使用这些数据重新估计模型,请判断系数的估计值是否会改变,tt统计量的值是否会改变。模型的调整 R2R^2 是否会改变,如果会改变,给出其化关系。

(3)如果通过上述80 家公司,发现模型的 R2R^2 并不低,但所有变量的系数都不显著。请你分析可能存在的原因,以及如何进行改进?

Solution:

(1)如果只利用收集到的20 家公司进行分析,可能不太适合,因为样本量太小,未知参数的数量是5个, 这可能导致回归模型的估计不稳定或不显著。

(2)如果通过收集数据,将公司数量增加到80 家,使用这些数据重新估计模型,系数的估计值可能会改变,因为数据的变化可能影响到回归方程的拟合效果。tt 统计量的值也可能会改变,因为 tt 统计量与系数的估计值和标准误差有关。模型的调整 R2R^2 可能会改变,因为调整 R2R^2 与样本量和自由度有关。一般来说,当样本量增加时,调整 R2R^2 会越来越接近 R2R^2

(3)如果通过上述80 家公司,发现模型的 R2R^2 并不低,但所有变量的系数都不显著。可能存在的原因有:

  • 变量之间存在多重共线性,即自变量之间相关性较高,导致系数的估计不准确或不稳定。
  • 模型存在异方差性,即误差项的方差随着自变量的变化而变化,导致标准误差的估计偏大或偏小。
  • 模型存在遗漏变量偏误,即忽略了一些重要的自变量,导致系数的估计受到干扰或偏离真实值。

可能改进的方法:

  • 检测并消除多重共线性,可以使用方差膨胀因子(VIF)等指标来判断自变量之间是否存在共线性问题,并尝试删除或合并一些相关性较高的自变量。
  • 检测并消除异方差性,可以使用White检验等方法来检验模型是否存在异方差性,并使用加权最小二乘法(WLS)等方法来修正异方差性带来的影响。
  • 检测并消除遗漏变量偏误,可以使用重要性分析等方法来评估自变量对因变量的影响程度,并尝试添加一些可能相关的自变量。