北京大学-431金融学综合-2018年

2018统计部分解析

一、(15分) 解释或回答以下概念及问题:

（1）（5 分）随机变量 $X$ 和 $Y$ 的相关性。
（2）（5 分）随机变量 $X$ 和 $Y$ 的独立性。
（3）（5 分）如果 $X$ 和 $Y$ 不相关，那么 $X$ 和 $Y$ 是否独立？请具体论述。

Solution:

（1）随机变量 $X$ 和 $Y$ 的相关性可以用相关系数来度量，相关系数的定义是

\rho_{XY}=\frac{Cov(X,Y)}{\sqrt{Var(X)Var(Y)}}

其中 $Cov(X,Y)$ 是协方差， $Var(X)$ 和 $Var(Y)$ 是方差。相关系数的绝对值越接近1，表示相关性越强；相关系数为正，表示正相关，即一个变量增大时另一个变量也增大；相关系数为负，表示负相关，即一个变量增大时另一个变量减小；相关系数为0，表示不相关，即两个变量之间没有线性相关关系。

（2）随机变量 $X$ 和 $Y$ 的独立性可以用联合分布函数和边缘分布函数，或者联合概率密度和边缘概率密度来判断，如果两个随机变量的联合分布（密度）等于两个随机变量的边缘分布（密度）的乘积，那么两个随机变量就是独立的。即 $F_{XY}(x,y)=F_X(x)F_Y(y)$ 或者 $f_{XY}(x,y)=f_X(x)f_Y(y)$ , 否则我们说两个随机变量不独立.

（3）如果 $X$ 和 $Y$ 不相关，那么 $X$ 和 $Y$ 不一定独立。因为不相关只能说明两个随机变量之间没有线性关系，但不能排除其他非线性关系。例如，如果 $X$ 是一个均匀分布在 $[-1,1]$ 的随机变量，而 $Y=X^2$ ，那么

Cov(X,Y)=E(XY)-E(X)E(Y)=E(X^3)-E(X)E(X^2)=0-0=0

但显然 $X$ 和 $Y$ 不是独立的。

二、（15 分）给定模型 $y_i =b x_i + \varepsilon_i$ ，随机误差项 $\varepsilon_i\sim N(0, \sigma^2)$ 相互独立, 其中 $\sigma^2>0$ 未知, 现收集到数据 $(x_i, y_i)$ , $i = 1,2,\cdots,n$ .

（1）（5 分）请给出 $b$ 的最小二乘估计量 $\hat{b}$ 。
（2）（5 分）求 $\hat{b}$ 的期望、方差和分布。
（3）（5 分）对于检验问题 $H_0: b = 0$ vs $H_1: b > 0$ , 给出检验法.

Solution:

（1） $b$ 的最小二乘估计量 $\hat{b}$ 是使得残差平方和

S({b})=\sum_{i=1}^n(y_i-{b}x_i)^2

最小的值。对 $S({b})$ 求导并令其等于0，得到

\frac{\partial S({b})}{\partial {b}}=-2\sum_{i=1}^n(y_i-{b}x_i)x_i=0

解得 $\hat{b}=\frac{\sum_{i=1}^n x_i y_i}{\sum_{i=1}^n x_i^2}$ .

（2）考虑到 $\hat{b}$ 是 $y_1, y_2, \cdots, y_n$ 的线性函数, 且 $y_1, y_2, \cdots, y_n$ 具有联合正态分布, 因此估计量也是正态分布, 故只需求其期望与方差.

$\hat{b}$ 的期望是

E(\hat{b})=\frac{\sum_{i=1}^n x_i E(y_i)}{\sum_{i=1}^n x_i^2}=\frac{\sum_{i=1}^n x_i (b x_i)}{\sum_{i=1}^n x_i^2}=b

$\hat{b}$ 的方差是

Var(\hat{b})=\frac{\sum_{i=1}^n x_i^2 Var(y_i)}{(\sum_{i=1}^n x_i^2)^2}=\frac{\sigma^2}{\sum_{i=1}^n x_i^2}

$\hat{b}$ 的分布是正态分布，即 $\hat{b}\sim N(b,\frac{\sigma^2}{\sum_{i=1}^n x_i^2})$ .

（3）对于检验问题 $H_0: b = 0$ vs $H_1: b > 0$ ，可以使用单侧 $t$ 检验法。构造统计量

t=\frac{\hat{b}-0}{\sqrt{\frac{\hat{\sigma}^2}{\sum_{i=1}^n x_i^2}}},

其中 $\hat{\sigma}^2=\frac{1}{n-1}\sum_{i=1}^n{\left( y_i-\hat{b}x_i \right) ^2}$ , 在原假设成立时，该统计量服从自由度为 $n-1$ 的 $t$ 分布.

则根据给定的显著性水平 $\alpha$ ，查表得到临界值 $t_{1-\alpha}(n-1)$ ，如果观察到的统计量值 $t$ 大于临界值 $t_{1-\alpha}(n-1)$ ，则拒绝原假设；否则不拒绝原假设.

三、（10 分）工商局抽查了 $N$ 家小微企业，发现 $M$ 家企业存在违规行为。请你设计一个统计模型，检验企业主的性别男女与违规行为是否有关。

Solution:

可以使用卡方检验法。卡方检验法是一种用于分析两个分类变量之间是否有关联的方法。在这个问题中，两个分类变量分别是企业主的性别（男或女）和企业是否存在违规行为（是或否）。我们可以用一个二维列联表来表示这两个变量的频数分布，如下：

	违规	未违规	总计
男	$a$	$b$	$a+b$
女	$c$	$d$	$c+d$
总计	$a+c$	$b+d$	$N$

其中， $a,b,c,d$ 是观察到的频数， $N=M+(N-M)$ 是总样本数。我们的假设检验问题是：

H_0: 性别与违规行为无关

H_1: 性别与违规行为有关

我们可以构造统计量

\chi ^2=\sum_{i=1}^2{\sum_{j=1}^2{\frac{(O_{ij}-E_{ij})^2}{E_{ij}}}}

其中， $O_{ij}$ 是第 $i$ 行第 $j$ 列的观察频数， $E_{ij}$ 是第 $i$ 行第 $j$ 列的期望频数，根据原假设和边际分布计算得到 $E_{ij}=\frac{(O_{i \cdot})(O_{\cdot j})}{N}$ 在原假设成立时，该统计量近似服从自由度为 $(r-1)(c-1)$ 的卡方分布，其中 $r,c$ 分别是行数和列数。根据给定的显著性水平 $\alpha$ ，查表得到临界值 $\chi^2_{1-\alpha}((r-1)(c-1))$ . 如果观察到的统计量值 $\chi^2$ 大于临界值, 则拒绝原假设；否则不拒绝原假设。

四、(15分) 在股票交易系统中，任何一只股票连续两次交易的时间间隔 $t_i$ 服从泊松分布。现有两只股票一周的全部交易数据，请检验这两只股票是否服从同一泊松分布。

Solution: 用 $\lambda_1, \lambda_2$ 表示两个泊松分布的参数, 而 $\bar{X}$ 和 $\bar{Y}$ 分别表示两只股票的交易间隔时间均值, 则根据中心极限定理有 $\sqrt{n}\left( \bar{X}-\lambda _1 \right) \rightarrow _dN\left( 0,\lambda _1 \right), \sqrt{m}\left( \bar{Y}-\lambda _2 \right) \rightarrow _dN\left( 0,\lambda _2 \right)$ , 因此有

\frac{\left( \bar{X}-\bar{Y} \right) -\left( \lambda _1-\lambda _2 \right)}{\sqrt{\frac{\lambda _1}{n}+\frac{\lambda _2}{m}}}\rightarrow _dN\left( 0,1 \right) ,

在原假设成立时, $\lambda _1=\lambda _2$ 且可由两组样本的共同均值 $\hat{\lambda}_0=\frac{n\bar{X}+m\bar{Y}}{n+m}$ 估计, 且根据大数定律有 $\hat{\lambda}_0\rightarrow _p\lambda _1$ . 故根据slutsky定理, 有

Z = \frac{\bar{X}-\bar{Y}}{\sqrt{\frac{n\bar{X}+m\bar{Y}}{nm}}}\rightarrow _dN\left( 0,1 \right) .

而 $Z$ 可以作为检验统计量, 临界值为 $z_{1-\alpha/2}$ , 其中 $\alpha$ 是检验的显著性水平, 当 $|Z| < z_{1-\alpha/2}$ 时接受原假设, 即认为两只股票服从同一泊松分布.

五、（20 分）假定一个研究者要考查公司管理层的收入是否与公司管理的绩效有关，收集相关数据建立了一个回归模型，变量 $y$ 为CEO 年薪，变量 $x_1$ 为公司上一年年报收益，变量 $x_2$ 为公司上一年市场价格，变量 $x_3$ 为公司盈利能力，变量 $x_4$ 为公司规模。使用的回归模型为：

y = \beta_0 + \beta_1 x_1 + \beta_2 x_2 + \beta_3 x_3 + \beta_4 x_4 + \varepsilon

（1）如果只利用收集到的20 家公司进行分析，是否合适？如不合适，请给出原因。

（2）如果通过收集数据，将公司数量增加到80 家，使用这些数据重新估计模型，请判断系数的估计值是否会改变， $t$ 统计量的值是否会改变。模型的调整 $R^2$ 是否会改变，如果会改变，给出其化关系。

（3）如果通过上述80 家公司，发现模型的 $R^2$ 并不低，但所有变量的系数都不显著。请你分析可能存在的原因，以及如何进行改进？

Solution:

（1）如果只利用收集到的20 家公司进行分析，可能不太适合，因为样本量太小，未知参数的数量是5个, 这可能导致回归模型的估计不稳定或不显著。

（2）如果通过收集数据，将公司数量增加到80 家，使用这些数据重新估计模型，系数的估计值可能会改变，因为数据的变化可能影响到回归方程的拟合效果。 $t$ 统计量的值也可能会改变，因为 $t$ 统计量与系数的估计值和标准误差有关。模型的调整 $R^2$ 可能会改变，因为调整 $R^2$ 与样本量和自由度有关。一般来说，当样本量增加时，调整 $R^2$ 会越来越接近 $R^2$ 。

（3）如果通过上述80 家公司，发现模型的 $R^2$ 并不低，但所有变量的系数都不显著。可能存在的原因有：

变量之间存在多重共线性，即自变量之间相关性较高，导致系数的估计不准确或不稳定。
模型存在异方差性，即误差项的方差随着自变量的变化而变化，导致标准误差的估计偏大或偏小。
模型存在遗漏变量偏误，即忽略了一些重要的自变量，导致系数的估计受到干扰或偏离真实值。

可能改进的方法：

检测并消除多重共线性，可以使用方差膨胀因子（VIF）等指标来判断自变量之间是否存在共线性问题，并尝试删除或合并一些相关性较高的自变量。
检测并消除异方差性，可以使用White检验等方法来检验模型是否存在异方差性，并使用加权最小二乘法（WLS）等方法来修正异方差性带来的影响。
检测并消除遗漏变量偏误，可以使用重要性分析等方法来评估自变量对因变量的影响程度，并尝试添加一些可能相关的自变量。

2018微观部分解析

一、（20分）假设明天的世界有两种气象状态，晴天或雨天。晴天时，消费者可固定享受收益 $y_1$ 碗热干面。雨天时，其收益 $y_2$ 是随机的，具有一半概率为 $y_H$ ，另一半概率为 $y_L$ ，且 $y_H > y_L$ 。消费者的偏好是 $U = \min\{E(c_1), E(c_2)\}$ ，其中 $c_1$ 和 $c_2$ 分别表示明天在晴天和雨天两种状态下，消费者所获得的热干面数量， $E$ 表示基于今天信息的数学期望。

公司 $C$ 在今天的期货市场上交易两种状态下的热干面期货，价格分别为 $p_1$ 和 $p_2$ 。消费者可以以 $p_1$ 的价格向公司 $C$ 购买晴天的热干面期货，即今天支付 $p_1$ ，如果明天是晴天，则公司 $C$ 提供 $1$ 碗热干面。如果明天是雨天，则公司 $C$ 不提供该商品。

消费者的目标是在今天进行期货交易以满足不同气象状态下的期望收益，假设消费者在今天没有任何初始收益。

(5 分) 写出在今天的期货市场上的预算约束。
(10 分) 求 $x_1$ 的表达式。
(3 分) $x_1$ 一定是负的吗？
(2 分) 若 $p_1, p_2$ 均翻倍，对 $x_1$ 有何影响？

Solution：

(1) 由题意，消费者在今天没有任何初始财富，即预算约束可表示为：

p_1 x_1 + p_2 x_2 = 0

(2) 消费者的目标是最大化效用函数：

\max U = \min\{E(c_1), E(c_2)\}

其中 $c_1 = y_1 + x_1$ ， $c_2 = y_2 + x_2$ 。期望收益 $E(c_1) = y_1 + x_1$ ， $E(c_2) = \frac{y_H + y_L}{2} + x_2$ 。将预算约束代入，解得

x_1 = \frac{p_2}{p_1 + p_2} \left(\frac{y_H + y_L}{2} - y_1\right)

(3) 根据上式， $x_1$ 的正负取决于 $\frac{y_H + y_L}{2}$ 和 $y_1$ 的大小。当 $\frac{y_H + y_L}{2} > y_1$ 时， $x_1 > 0$ ；当 $\frac{y_H + y_L}{2} < y_1$ 时， $x_1 < 0$ 。

(4) 如果 $p_1, p_2$ 均翻倍，预算约束仍然为：

2p_1 x_1 + 2p_2 x_2 = 0

可化简为 $p_1 x_1 + p_2 x_2 = 0$ ，所以 $x_1$ 不受影响。

二、（20 分）考虑一个有三家公司各自生产产品参加的博弈。如果每家公司 $i$ 选择自己公司商品的价格 $P_i \in [0, +\infty)$ ，那么这家公司的销售数量是 $1 - P_i + k \sum_{-i} P_j = 1 - P_i + k \sum_{j\neq i} P_j$ ，边际成本为 $c_i > 0$ 。请计算每家企业的商品价格以及获得的利润。

Solution：

(1)
公司 $i \ (i = 1, 2, 3)$ 的决策：

\max \pi_i = (P_i - c_i) (1 - P_i + k \sum_{-i} P_j)

一阶条件 (F.O.C.)：

1 - 2P_i + k \sum_{-i} P_j + c_i = 0

加总每一个一阶条件，得：

3 - 2 \sum P_i + 2k \sum P_i + \sum c_i = 0

以及

\sum P_i = \frac{3 + \sum c_i}{2 - 2k}

由于

\sum P_i = \frac{3 + \sum c_i}{2 - 2k}

表达式比较繁琐，为了简化分析，可令

\sum P_i = \frac{3 + \sum c_i}{2 - 2k} = A

这样，企业 $i$ 的一阶条件为：

1 - 2P_i + k \sum_{-i} P_j + c_i = 0

变形得到

1 - 2P_i - kP_i + k \sum P_i + c_i = 0

因此企业 $i$ 的均衡价格为：

P_i = \frac{1 + c_i + kA}{2 + k} \quad \text{，其中 } A = \frac{3 + \sum c_i}{2(1 - k)}

企业 $i$ 的均衡利润为：

\begin{aligned} \pi_i & = (P_i - c_i) \left(1 - P_i + k \sum_{-i} P_j \right) \\ &= (P_i - c_i) \left[1 - P_i + k (A - P_i)\right] \\ &= (P_i - c_i) \left[1 + kA - (1 + k)P_i \right] \\ &= \frac{1 + c_i + kA}{2 + k} \left[1 + kA - \left(1 + k\right) \frac{1 + c_i + kA}{2 + k}\right] \end{aligned}

最后，代入 $A = \frac{3 + \sum c_i}{2(1 - k)}$ ，得：

\pi_i = \left(\frac{1 + c_i + k \cdot \frac{3 + \sum c_i}{2(1 - k)}}{2 + k}\right)^2 = \left(\frac{(1 + c_i)(2 - 2k) + k(3 + \sum c_i)}{(2 + k)(2 - 2k)} - c_i\right)^2.

三、（10 分）有两种商品 $x$ 和 $y$ ，小丽的效用函数为 $u = x + y$ ，小贾的效用函数为 $u = \max\{x, y\}$ 。

（3 分）请用无差异曲线在埃奇沃思矩形图中表示两个人的偏好。
（3 分）请猜想 $x$ 和 $y$ 的均衡价格有什么关系？
（4 分）猜猜在均衡的情况下，分配结果会是什么样？

Solution：

(1) 如图所示:

(2) $x$ 和 $y$ 的均衡价格比 $\frac{P_x}{P_y} = 1$ ；理由如下：
(i) 如果 $\frac{P_x}{P_y} > 1$ ，那么无人会购买商品 $x$ ，无法形成均衡；
(ii) 如果 $\frac{P_x}{P_y} < 1$ ，那么无人会购买商品 $y$ ，无法形成均衡。

(3) 根据上面的分析，商品均衡价格比只能为 1。分配结果的特征：至少有一人拥有某种商品的全部份额。

四、(25分) 某市正规划新建一个音乐会场地。假设城市中有两个居民：小丽（L）和小贾（J）。居民的个人捐赠将成为建造该场地经费的唯一来源。假设两位居民对于私有品（ $X_i$ ）和场地总尺寸（ $S$ ）的效用函数为 $U_i(X_i, S) = 0.5 \ln(X_i) + 0.5 \ln(S)$ ，场地总尺寸即为其总座位数 $S$ ，等于由小丽和小贾各自捐赠的座位数之和，即 $S = S_L + S_J$ 。小丽的收入为 $200$ ，小贾的收入为 $100$ 。假设私有品和座位数的单位价格均为 $1$ 。

（5 分）如果政府不干预的话，该场地将会建造多少座位？其中多少是由小丽捐赠的，多少是由小贾捐赠的呢？
（5 分）总座椅数的社会最优解是多少？如果你的答案与（1）不同，请解释原因。

现在，假设一个座位的价格从1变为 $P_S$ ，而私有品的价格仍为1，在改变价格的同时，小丽和小贾的收入按照如下方式相应改变:当价格变为 $P_S$ 时，小丽和小贾的预算约束增加了 $C_L$ 和 $C_J$ ，其中 $C_L=(P_S-1)S_L$ ， $C_J=(P_S-1)S_J$ 。增加后的预算约束称为补偿预算约束。

（5 分）写下小丽和小贾的补偿预算约束的表达式。你觉得它们为什么被称作“补偿约束”？
（10 分）通过需求曲线的纵向加总，求出社会最优解。
(i) 按如下方式推导 $S$ 的逆需求曲线:
a.满足补偿约束运算的前提下,最大化小丽和小贾的需求曲线。注意在求导之前，不要代入 $C_L$ 和 $S_J$ 的表达式。
b.对于小丽和小贾，求解 $S_L$ 和 $S_J$ ,作为 $P_S$ 的自变量的函数形式。请使用你在(i)中得到的结果推导社会需求曲线。
(ii)回到 $P_S=1$ ， $P_X=1$ 的初始设定。请通过使社会需求曲线与社会供给曲线(即场地座位的边际成本)相等，找到座椅数的社会均衡数量。和(2)结果相比，是否不同?

Solution：

(1) 若政府不干预，小丽和小贾将分别决策，最大化自身的效用。记小丽和小贾的收入分别为 $M_L = 200$ ， $M_J = 100$ 。

\max \ U_i = 0.5 \ln(X_i) + 0.5 \ln(S) \\ \text{s.t.} \ P_X X_i + P_S S_i = M_i

化为一元函数，

\max \ U_i = 0.5 \ln(M_i - S_i) + 0.5 \ln(S)

一阶条件得：

\frac{dU_i}{dS_i} = 0.5 \cdot \frac{-1}{M_i - S_i} + 0.5 \cdot \frac{1}{S} = 0

解得：

S = M_i - S_i

加和得：

\sum S = \sum M_i - S

解得：

S = \frac{\sum M_i}{3} = 100

因此均衡时，小丽和小贾的捐赠数量是 $S_L = 100$ ， $S_J = 0$ ，总座位数量为 $S = 100$ 。

(2) 由于座椅属于公共物品，其有效供给数量满足萨缪尔森原则，即公共物品对私有品的边际替代率之和等于公共物品与私有品的价格比。
即：

\sum \text{MRS}_{S, X} = 1

或对小丽、小贾的效用和做最大化问题：

\max \ U = 0.5 \ln(X_L) +0.5 \ln(X_J) + 0.5 \ln(S) \\ \text{s.t.} \ P_X X_L+ P_X X_J+P_S S_i = M_L+M_J

解得：

X_L=X_J=\frac{M_L+M_J}{4 P_X},S=\frac{M_L+M_J}{2 P_S}

两种方法均可解得 $S = 150$ ，与（1）结果相比，不同的原因是公共品具有正外部性，在私人决策的时候，个体不会考虑到公共品对于其他消费者的正效用，会提供少于社会最优的公共品数量，而社会最优供给考虑了每个人的效用。

(3) 二人的补偿预算约束如下：
- 小丽： $X_L + P_S S_L = 200 + c_L$ ，其中 $c_L = (P_s - 1) S_L$
- 小贾： $X_J + P_S S_J = 100 + c_J$ ，其中 $c_J = (P_s - 1) S_J$
所以称其为“补偿预算约束”，是因为消费者面临的价格相对于原来的 $1$ 变动了 $P_s - 1$ 个单位。

(4) 求出 $S$ 的逆需求曲线：
小丽的逆需求为： $P_s = \frac{200 - S_L}{S}$ ；
小贾的逆需求为： $P_s = \frac{100 - S_J}{S}$ 。
将二人的逆需求纵向加总，得到社会需求函数：

P_s = \frac{300 - S}{S}

解得 $S = 150$ 。