北京师范大学-432统计学-2023年

一、单项选择题(每题3分,共18分)

  1. 已知 P(AB)=P(AˉBˉ)P(A\cap B) = P(\bar{A}\cap \bar{B}), 且 P(A)=pP(A)=p, 则 P(B)=()P(B)=(\qquad).
    A. pp
    B. 1p1-p
    C. 00
    D. 2p2p

Solution: 选 B.
利用德摩根公式, 有

P(AB)=P(AˉBˉ)=1P(AB)=1P(A)P(B)+P(AB),P(AB) = P(\bar{A} \bar{B})=1-P(A\cup B)=1-P(A)-P(B)+P(AB),

解得 P(B)=1P(A)=1pP(B)=1-P(A)=1-p.

  1. 已知 XN(0,1),YX \sim N(0,1), Y 以等概率取-1 和 1,Z=XZ,X1, Z=X \cdot Z, XYY 独立, 下列错误的是 ()(\qquad).
    A. ZZ 服从标准正态
    B. X,ZX, Z 不相关
    C. X,ZX, Z 不独立
    D. (X,Z)(X, Z) 服从二维正态

Solution: 选 D.

23考研模考题原题重现. 可以验证ZN(0,1)Z\sim N(0,1), 且Cov(X,Z)=E(XZ)=E(X2Y)=0Cov\left( X,Z \right) =E\left( XZ \right) =E\left( X^2Y \right) =0, 但是

P(X1,Z1)=P(X1,XY1)=P(X1,Y=1)+P(1X1,Y=1)=Φ(1)12Φ(1),\begin{aligned} P\left( X\le 1,Z\le 1 \right) &=P\left( X\le 1,XY\le 1 \right)\\ &=P\left( X\le 1,Y=1 \right) +P\left( -1\le X\le 1,Y=-1 \right)\\ &=\Phi \left( 1 \right) -\frac{1}{2}\Phi \left( -1 \right) ,\\ \end{aligned}

不过 P(X1)P(Z1)=Φ2(1)P\left( X\le 1 \right) P\left( Z\le 1 \right) =\Phi ^2\left( 1 \right), 它们不独立. 此外, 考虑 X=xX=x 时, ZZ 只可能取 ±x\pm x, 因此它们不是联合正态. 因为如果它们是联合正态, 那条件分布也会是正态.

  1. X,YX,Y 独立服从同一种分布(参数不一定相同), 且 X+YX+Y 也服从这种名称的分布, 则X,YX,Y的分布不可能是 ()(\qquad ).
    A. 正态
    B. 二项
    C. 指数
    D. 泊松

Solution: 选 C.
指数分布没有可加性, 即使它们参数一样时加在一起也是Gamma分布.

  1. XN(0,1)X\sim N(0,1), Yχ2(m)Y\sim \chi^2(m), Zχ2(n)Z\sim \chi^2(n), 则正确的说法是()(\qquad).
    A. X2χ2(1)X^2\sim \chi^2(1)
    B. XY/mt(m)\frac{X}{\sqrt{Y/m}}\sim t(m)
    C. Y/mZ/nF(m,n)\frac{Y/m}{Z/n}\sim F(m,n)
    D. 都对

Solution: 选 A.
如果没有强调独立性, 则 B,C 都不一定对.

  1. 有来自 P(λ)\mathcal{P}(\lambda) 的 i.i.d. 样本 X1,,XnX_1,\cdots,X_n, 则E(nXˉ2+S2)=()E(n\bar{X}^2+S^2)=(\qquad).
    A. 2λ2\lambda
    B. nλ2+λn\lambda^2+\lambda
    C. λ+(n+1)λ2\lambda+(n+1)\lambda^2
    D. 2λ+nλ22\lambda + n\lambda^2

Solution: 选 D.
E(Xˉ2)=λ2+λnE(\bar{X}^2) = \lambda^2 + \frac{\lambda}{n}, E(S2)=λE(S^2)=\lambda, 因此有

E(nXˉ2+S2)=nλ2+2λ.E(n\bar{X}^2+S^2) = n\lambda^2 + 2\lambda.

  1. 有来自 N(μ,σ2)N(\mu,\sigma^2) 的 i.i.d. 样本 X1,,XnX_1,\cdots,X_n, 记 S12S_1^2σ2\sigma^2 的MLE, S22S_2^2 是样本方差, 则说法错误的是 ()(\qquad).
    A. S22S_2^2σ2\sigma^2 的MLE
    B. S12S_1^2 的方差更小
    C. S22S_2^2σ2\sigma^2 的无偏估计
    D. S2S_2σ\sigma 的有偏估计

Solution: 选 A. 显然错误.

二、填空题(每题3分,共30分)

  1. 甲乙丙独立做题,做对概率分别是 1/3,1/4,1/51/3,1/4,1/5, 则至少有一人做对的概率是 \underline{\qquad}.

Solution: 35\frac{3}{5}.

p=1233445=35.p=1-\frac{2}{3}\cdot\frac{3}{4}\cdot\frac{4}{5}=\frac{3}{5}.

  1. 已知 ξU(0,5)\xi\sim U(0,5), 则方程 4x2+4ξx+(ξ+2)=04x^2+4\xi x+(\xi+2)=0 有实根的概率是 \underline{\qquad}.

Solution: 35\frac{3}{5}.
判别式为 Δ=16ξ216(ξ+2)=16(ξ2ξ2)=16(ξ+1)(ξ2)\Delta = 16\xi^2 -16(\xi+2)=16(\xi ^2-\xi-2)=16(\xi+1)(\xi-2), 令其 0\ge 0, 解得

{Δ0}={ξ1}{ξ2},\{\Delta \ge 0\}= \{\xi\le -1\}\cup\{\xi\ge2\},

P(Δ0)=P(ξ2)=35P(\Delta\ge 0)=P(\xi\ge 2)=\frac{3}{5}.

  1. 已知 X,Y,ZX,Y,Z i.i.d. 服从 N(0,1)N(0,1), 则 E(X2X2+Y2+Z2)=E\left( \frac{X^2}{X^2+Y^2+Z^2} \right) =\underline{\qquad}.

Solution: 13\frac{1}{3}.

根据对称性, 有

E(X2X2+Y2+Z2)=E(Y2X2+Y2+Z2)=E(Z2X2+Y2+Z2),E\left( \frac{X^2}{X^2+Y^2+Z^2} \right) = E\left( \frac{Y^2}{X^2+Y^2+Z^2} \right) = E\left( \frac{Z^2}{X^2+Y^2+Z^2} \right),

三者相加又是 11, 故显然答案是 13\frac{1}{3}.

  1. Xˉ,S2\bar{X},S^2 是样本均值和样本方差, 而 Xˉ2cS2\bar{X}^2-cS^2 是总体均值平方的无偏估计, 则 c=c=\underline{\qquad}.

Solution: 1n\frac{1}{n}.

E(Xˉ2)=μ2+1nσ2E(\bar{X}^2)=\mu^2+\frac{1}{n}\sigma^2, E(S2)=σ2E(S^2)=\sigma^2, 因此 c=1nc=\frac{1}{n}.

  1. 已知 X,YX,Y i.i.d. 服从 N(μ,σ2)N(\mu,\sigma^2), 则 aX+bYaX+bYaXbYaX-bY 的相关系数是 \underline{\qquad}.

Solution: a2b2a2+b2\frac{a^2-b^2}{a^2+b^2}.

先求协方差, 有

Cov(aX+bY,aXbY)=a2Var(X)b2Var(Y)=(a2b2)σ2,Cov(aX+bY,aX-bY)=a^2Var(X)-b^2Var(Y)=(a^2-b^2)\sigma^2,

同时再算方差, 有

Var(aX+bY)=Var(aXbY)=(a2+b2)σ2,Var(aX+bY)=Var(aX-bY)=(a^2+b^2)\sigma^2,

故有 Corr(aX+bY,aXbY)=a2b2a2+b2\mathrm{Corr}(aX+bY,aX-bY)=\frac{a^2-b^2}{a^2+b^2}.

  1. 已知 X,YX,Y 不相关, XB(1,p1)X\sim B(1,p_1), YB(1,p2)Y\sim B(1,p_2), 则 E(X2Y2)=E(X^2Y^2)=\underline{\qquad}.

Solution: p1p2p_1p_2.

由于两点分布不相关与独立等价, 故

E(X2Y2)=E(X2)E(Y2)=p1p2.E(X^2Y^2)=E(X^2)E(Y^2)= p_1p_2.

  1. 某校学生身高近似服从标准差为 66 的正态分布, 对该校男生身高进行置信水 平为 95%95 \% 的区间估计, 若要求误差 d0d_0 不超过 1 , 则至少要调查的样本数为 \underline{\qquad}.

Solution: 139139.

95%95\% 置信区间为

[xˉ1.966n,xˉ+1.966n],\left[ \bar{x}-1.96\frac{6}{\sqrt{n}},\bar{x}+1.96\frac{6}{\sqrt{n}} \right] ,

d0=1.966n1d_0=1.96\frac{6}{\sqrt{n}}\le 1, 解得 n138.298n \ge 138.298.

  1. X1,,XnX_1,\cdots,X_n i.i.d. 服从 U(0,1)U(0,1), 则 E(X(n))=E(X_{(n)})=\underline{\qquad}.

Solution: nn+1\frac{n}{n+1}.

利用结论: X(n)Beta(n,1)X_{(n)}\sim Beta(n,1), 我们有 E(X(n))=nn+1E(X_{(n)})=\frac{n}{n+1}.

  1. 某设备发送 A.B 两种信号, 概率为 1:21: 2, 发射 A 信号但误接收为 B 的概率 为 0.020.02, 发射 B\mathrm{B} 信号对但接收为 A\mathrm{A} 的概率为 0.010.01, 则在接收到 A\mathrm{A} 信号时发射 A\mathrm{A} 信号的概率为 \underline{\qquad}.

Solution: 0.980.98.

由贝叶斯公式, 有

P(in:Aout:A)=130.98130.98+230.01=0.98.P\left( \mathrm{in}:A|\mathrm{out}:A \right) =\frac{\frac{1}{3}\cdot 0.98}{\frac{1}{3}\cdot 0.98+\frac{2}{3}\cdot 0.01}=0.98.

  1. 某一零件正常工作概率 0.950.95, 一个机器有 100 个零件, 至少 90 个零件正常 工作则机器可正常运作, 问机器正常运作的概率为 \underline{\qquad}.

Solution: Φ(2.524)\Phi \left( 2.524 \right).

设零件工作 Xi=1X_i =1, 不工作 Xi=0X_i=0, 则有 XiB(1,0.95)X_i\sim B(1,0.95), 因此有 Y=i=1100XiAN(95,4.75)Y=\sum_{i=1}^{100} X_i \sim AN(95,4.75), 故有

P(正常)=P(Y90)=P(Y>89.5)=P(Y954.75>89.5954.75)=Φ(2.524).P\left( \text{正常} \right) =P\left( Y\ge 90 \right) =P\left( Y>89.5 \right) =P\left( \frac{Y-95}{\sqrt{4.75}}>\frac{89.5-95}{\sqrt{4.75}} \right) =\Phi \left( 2.524 \right) .

三、分析计算题(共102分)

  1. (20分) 简述两种图示方法, 分析 X1,X2,,XnX_1,X_2,\cdots,X_n 是否为正态分布.

Solution: 可以用概率图(Probability-probability Plot,P-P图)、分位数图(Quantile-quantile Plot,Q-Q图)、直方图等来判断正态性。

P-P图是以样本的累计频率作为横坐标,以按照正态分布计算的相应累计概率作为纵坐标,把样本值表现为直角坐标系中的散点。如果数据服从正态分布,则样本点应该围绕第一象限的对角线分布。

Q-Q图则是以样本的分位数作为横坐标,以按照正态分布计算的相应分位数作为纵坐标,把样本表现为直角坐标系的散点。如果资料服从正态分布,则样本点应该呈一条围绕第一象限对角线的直线。

直方图指的是将数据以直方图的形式呈现,并将每个直方图顶部的中点连线,观察连线是否呈现中间高两边低且对称的钟形分布。

  1. (20分) 证明: 1n1i=1n(XiXˉ)2=12n(n1)i=1nj=1n(XiXj)2\frac{1}{n-1}\sum_{i=1}^n (X_i-\bar{X})^2=\frac{1}{2n(n-1)}\sum_{i=1}^n\sum_{j=1}^n(X_i-X_j)^2, 并说明统计学意义.

Solution: 作恒等变形, 有
恒等变形.

T:=i=1nj=1n(XiXj)2=i=1nj=1n(Xi2+Xj22XiXj)=i=1nj=1n(Xi2+Xj22XiXj)=i=1n(nXi2+j=1nXj22nXiXˉ)=ni=1nXi2+nj=1nXj22n2Xˉ2=2n(i=1nXi2nXˉ2),\begin{aligned} T:=\sum_{i=1}^n{\sum_{j=1}^n{\left( X_i-X_j \right) ^2}}&=\sum_{i=1}^n{\sum_{j=1}^n{\left( X_{i}^{2}+X_{j}^{2}-2X_iX_j \right)}}\\ &=\sum_{i=1}^n{\sum_{j=1}^n{\left( X_{i}^{2}+X_{j}^{2}-2X_iX_j \right)}}\\ &=\sum_{i=1}^n{\left( nX_{i}^{2}+\sum_{j=1}^n{X_{j}^{2}}-2nX_i\bar{X} \right)}\\ &=n\sum_{i=1}^n{X_{i}^{2}}+n\sum_{j=1}^n{X_{j}^{2}}-2n^2\bar{X}^2\\ &=2n\left( \sum_{i=1}^n{X_{i}^{2}-n\bar{X}^2} \right) ,\\ \end{aligned}

因此看出

T=i=1nXi2nXˉ2n1=1n1i=1n(XiXˉ)2=S2.T=\frac{\sum_{i=1}^n{X_{i}^{2}-n\bar{X}^2}}{n-1}=\frac{1}{n-1}\sum_{i=1}^n{\left( X_i-\bar{X} \right) ^2}=S^2.

我们可以发现:S2S^2 是样本方差,衡量数据的离散程度。而 TT 是两两样本之间距离平方的平均值,同样衡量数据的离散程度。

  1. (20分) 有两组独立样本: X1,,XnX_1,\cdots,X_n i.i.d. 服从 N(μ1,σ2)N(\mu_1,\sigma^2), Y1,,YmY_1,\cdots,Y_m i.i.d. 服从 N(μ2,σ2)N(\mu_2,\sigma^2).
    (1) 求 μ1,μ2,σ2\mu_1,\mu_2,\sigma^2 的MLE.
    (2) 请构造 H0:μ1=μ2H_0:\mu_1=\mu_2 的水平为 α\alpha 的拒绝域(备择假设是其对立).
    (3) 请构造 H0:σ2=σ02H_0:\sigma^2=\sigma_0^2 的水平为 α\alpha 的拒绝域(备择假设是其对立).

Solution: (1) 写出似然函数

L(μ1,μ2,σ2)=(2πσ2)m+n2exp{12σ2(i=1n(xiμ1)2+i=1m(yiμ2)2)},L\left( \mu _1,\mu _2,\sigma ^2 \right) =\left( 2\pi \sigma ^2 \right) ^{-\frac{m+n}{2}}\exp \left\{ -\frac{1}{2\sigma ^2}\left( \sum_{i=1}^n{\left( x_i-\mu _1 \right) ^2}+\sum_{i=1}^m{\left( y_i-\mu _2 \right) ^2} \right) \right\} ,

对数似然函数是

(μ1,μ2,σ2)=Am+n2ln(σ2)12σ2(i=1n(xiμ1)2+i=1m(yiμ2)2).\ell \left( \mu _1,\mu _2,\sigma ^2 \right) =A-\frac{m+n}{2}\ln \left( \sigma ^2 \right) -\frac{1}{2\sigma ^2}\left( \sum_{i=1}^n{\left( x_i-\mu _1 \right) ^2}+\sum_{i=1}^m{\left( y_i-\mu _2 \right) ^2} \right).

求导置零解得

μ^1=xˉ,μ^2=yˉ,σ^2=1m+n(i=1n(xixˉ)2+i=1m(yiyˉ)2).\hat{\mu}_1=\bar{x},\quad \hat{\mu}_2 = \bar{y},\quad \hat{\sigma}^2=\frac{1}{m+n}\left( \sum_{i=1}^n{\left( x_i-\bar{x} \right) ^2}+\sum_{i=1}^m{\left( y_i-\bar{y} \right) ^2} \right) .

(2) 由于

(xˉyˉ)(μ1μ2)sw1n+1mt(m+n2),\frac{\left( \bar{x}-\bar{y} \right) -\left( \mu _1-\mu _2 \right)}{s_w\sqrt{\frac{1}{n}+\frac{1}{m}}}\sim t\left( m+n-2 \right) ,

其中 sw2s_w^2 是联合样本方差, 即

sw2=1m+n2(i=1n(xixˉ)2+i=1m(yiyˉ)2),s_{w}^{2}=\frac{1}{m+n-2}\left( \sum_{i=1}^n{\left( x_i-\bar{x} \right) ^2}+\sum_{i=1}^m{\left( y_i-\bar{y} \right) ^2} \right),

故在原假设成立时有检验统计量 xˉyˉsw2nt(n2)\frac{\bar{x}-\bar{y}}{s_w\sqrt{\frac{2}{n}}} \sim t(n-2), 故拒绝域是

W={xˉyˉsw1n+1m>t1α2(m+n2)}.W=\left\{ \left| \frac{\bar{x}-\bar{y}}{s_w\sqrt{\frac{1}{n}+\frac{1}{m}}} \right|>t_{1-\frac{\alpha}{2}}\left( m+n-2 \right) \right\} .

(3) 利用 (m+n2)sw2σ2χ(m+n2)\frac{(m+n-2)s_w^2}{\sigma^2} \sim \chi^(m+n-2), 拒绝域是

W={(m+n2)sw2σ02<χα22(m+n2)}{(m+n2)sw2σ02>χ1α22(m+n2)}.W=\left\{ \frac{\left( m+n-2 \right) s_{w}^{2}}{\sigma _{0}^{2}}<\chi _{\frac{\alpha}{2}}^{2}\left( m+n-2 \right) \right\} \cup \left\{ \frac{\left( m+n-2 \right) s_{w}^{2}}{\sigma _{0}^{2}}>\chi _{1-\frac{\alpha}{2}}^{2}\left( m+n-2 \right) \right\} .

  1. (20分) 已知 X1,,XnX_1,\cdots,X_n i.i.d. 来自总体 XN(μ,σ2)X\sim N(\mu,\sigma^2), 任意 i,ji,j, Corr(Xi,Xj)=ρ\mathrm{Corr}(X_i,X_j)=\rho.
    (1) 求 E(Xμ)E(|X-\mu|);
    (2) 求 μ\mu 的矩估计;
    (3) 证明: ρ1n1\rho \ge -\frac{1}{n-1}.

Solution: (1) Xμ=σZ|X-\mu|=\sigma |Z|, 其中 ZN(0,1)Z\sim N(0,1), 因此有

E(Z)=+z12πez22dz=2π0+zez22dz=2π0+eudu=2π.E\left( |Z| \right) =\int_{-\infty}^{+\infty}{|z|\frac{1}{\sqrt{2\pi}}e^{-\frac{z^2}{2}}dz}=\sqrt{\frac{2}{\pi}}\int_0^{+\infty}{ze^{-\frac{z^2}{2}}dz}=\sqrt{\frac{2}{\pi}}\int_0^{+\infty}{e^{-u}du}=\sqrt{\frac{2}{\pi}}.

E(Xμ)=σ2πE(|X-\mu|)=\sigma \sqrt{\frac{2}{\pi}}.

(2) 总体期望 E(X)=μE(X) = \mu, 由替换原理, μ^=xˉ\hat{\mu}=\bar{x}.

(3) 茆书原题, 利用相关系数矩阵的非负定性, 有

1ρρρ1ρρρ1=1+(n1)ρ1+(n1)ρ1+(n1)ρρ1ρρρ1=[1+(n1)ρ]111ρ1ρρρ1=[1+(n1)ρ]100ρ1ρ0ρ01ρ=[1+(n1)ρ](1ρ)n1.\begin{aligned} \left| \begin{matrix} 1& \rho& \cdots& \rho\\ \rho& 1& \cdots& \rho\\ \vdots& \vdots& & \vdots\\ \rho& \rho& \cdots& 1\\ \end{matrix} \right|&=\left| \begin{matrix} 1+\left( n-1 \right) \rho& 1+\left( n-1 \right) \rho& \cdots& 1+\left( n-1 \right) \rho\\ \rho& 1& \cdots& \rho\\ \vdots& \vdots& & \vdots\\ \rho& \rho& \cdots& 1\\ \end{matrix} \right|\\ &=\left[ 1+\left( n-1 \right) \rho \right] \left| \begin{matrix} 1& 1& \cdots& 1\\ \rho& 1& \cdots& \rho\\ \vdots& \vdots& & \vdots\\ \rho& \rho& \cdots& 1\\ \end{matrix} \right|\\ &=\left[ 1+\left( n-1 \right) \rho \right] \left| \begin{matrix} 1& 0& \cdots& 0\\ \rho& 1-\rho& \cdots& 0\\ \vdots& \vdots& & \vdots\\ \rho& 0& \cdots& 1-\rho\\ \end{matrix} \right|\\ &=\left[ 1+\left( n-1 \right) \rho \right] \left( 1-\rho \right) ^{n-1}.\\ \end{aligned}

如果 ρ=1\rho=1, 则相关系数矩阵的行列式为 0, 但也满足 ρ1n1\rho \ge -\frac{1}{n-1}. 如果 ρ<1\rho<1, 那么 (1ρ)n1>0(1-\rho)^{n-1}>0, 因此非负定要求了 1+(n1)ρ01+(n-1)\rho \ge 0, 故 ρ1n1\rho\ge -\frac{1}{n-1}.

  1. (12分) 设 F(y1,y2,,yd)F(y_1,y_2,\cdots,y_d)(Y1,,Yd)(Y_1,\cdots,Y_d) 的联合分布函数, 而 Fi(yi)F_i(y_i) 是边际分布. 证明:

F(x1,,xd)F(y1,,yd)i=1dFi(xi)Fi(yi).\left| F\left( x_1,\cdots ,x_d \right) -F\left( y_1,\cdots ,y_d \right) \right|\le \sum_{i=1}^d{\left| F_i\left( x_i \right) -F_i\left( y_i \right) \right|}.

先证 d=2d=2 时的情形, 再证明一般的情形.

Solution: 这题23考研模考题押中原题. 先看 d=2d=2, 简记 xy=min{x,y}x\land y =\min\{x,y\}, xy=max{x,y}x\lor y =\max\{x,y\}, 放缩, 有

F(x1,x2)F(y1,y2)=F(x1,x2)F(y1,x2)+F(y1,x2)F(y1,y2)F(x1,x2)F(y1,x2)+F(y1,x2)F(y1,y2)=P(x1y1<Y1x1y1,Y2x2)+P(Y1y1,x2y2<Y1x2y2)P(x1y1<Y1x1y1)+P(x2y2<Y1x2y2)=F1(x1)F1(y1)+F2(x2)F2(y2).\begin{aligned} \left| F\left( x_1,x_2 \right) -F\left( y_1,y_2 \right) \right|&=\left| F\left( x_1,x_2 \right) -F\left( y_1,x_2 \right) +F\left( y_1,x_2 \right) -F\left( y_1,y_2 \right) \right|\\ &\le \left| F\left( x_1,x_2 \right) -F\left( y_1,x_2 \right) \right|+\left| F\left( y_1,x_2 \right) -F\left( y_1,y_2 \right) \right|\\ &=P\left( x_1\land y_1<Y_1\le x_1\lor y_1,Y_2\le x_2 \right) +P\left( Y_1\le y_1,x_2\land y_2<Y_1\le x_2\lor y_2 \right)\\ &\le P\left( x_1\land y_1<Y_1\le x_1\lor y_1 \right) +P\left( x_2\land y_2<Y_1\le x_2\lor y_2 \right)\\ &=\left| F_1\left( x_1 \right) -F_1\left( y_1 \right) \right|+\left| F_2\left( x_2 \right) -F_2\left( y_2 \right) \right|.\\ \end{aligned}

而对于一般的 dd, 有

F(x1,,xd1,xd)F(y1,,yd1,yd)=F(x1,,xd1,xd)F(y1,,yd1,xd)+F(y1,,yd1,xd)F(y1,,yd1,yd)F(x1,,xd1,xd)F(y1,,yd1,xd)+F(y1,,yd1,xd)F(y1,,yd1,yd)F1,d1(x1,,xd1)F1,d1(y1,,yd1)+Fd(xd)Fd(yd),\begin{aligned} \left| F\left( x_1,\cdots ,x_{d-1},x_d \right) -F\left( y_1,\cdots ,y_{d-1},y_d \right) \right|&=\left| F\left( x_1,\cdots ,x_{d-1},x_d \right) -F\left( y_1,\cdots ,y_{d-1},x_d \right) +F\left( y_1,\cdots ,y_{d-1},x_d \right) -F\left( y_1,\cdots ,y_{d-1},y_d \right) \right|\\ &\le \left| F\left( x_1,\cdots ,x_{d-1},x_d \right) -F\left( y_1,\cdots ,y_{d-1},x_d \right) \right|+\left| F\left( y_1,\cdots ,y_{d-1},x_d \right) -F\left( y_1,\cdots ,y_{d-1},y_d \right) \right|\\ &\le \left| F_{1,d-1}\left( x_1,\cdots ,x_{d-1} \right) -F_{1,d-1}\left( y_1,\cdots ,y_{d-1} \right) \right|+\left| F_d\left( x_d \right) -F_d\left( y_d \right) \right|,\\ \end{aligned}

因此 d1d-1 时成立可推出 dd 时成立, 用归纳假设可以说明对一般的 dd 成立.

  1. (10分) 一元线性回归: Y=β0+β1X+εY=\beta_0+\beta_1X+\varepsilon, Y^=β^0+β^1X\hat{Y}=\hat{\beta}_0+\hat{\beta}_1X, 其中 β^0,β^1\hat{\beta}_0,\hat{\beta}_1 是最小二乘估计. 证明皮尔逊相关系数的平方 r2r^2 与拟合优度 R2R^2 等价. 注意:

r=(XiXˉ)(YiYˉ)(XiXˉ)2(YiYˉ)2,R2=(Y^iYˉ)2(YiYˉ)2.r=\frac{\sum\left(X_i-\bar{X}\right) \cdot\left(Y_i-\bar{Y}\right)}{\sqrt{\sum\left(X_i-\bar{X}\right)^2 \sum\left(Y_i-\bar{Y}\right)^2}},\quad R^2=\frac{\sum\left(\hat{Y}_i-\bar{Y}\right)^2}{\sum\left(Y_i-\bar{Y}\right)^2}.

Solution:

r2=lxy2lxxlyy=β^12lxxlyy=i=1n[β^1(XiXˉ)]2i=1n(YiYˉ)2=i=1n(Y^iYˉ)2i=1n(YiYˉ)2=R2.r^2=\frac{l_{xy}^{2}}{l_{xx}l_{yy}}=\frac{\hat{\beta}_{1}^{2}l_{xx}}{l_{yy}}=\frac{\sum_{i=1}^n{\left[ \hat{\beta}_1\left( X_i-\bar{X} \right) \right] ^2}}{\sum_{i=1}^n{\left( Y_i-\bar{Y} \right) ^2}}=\frac{\sum_{i=1}^n{\left( \hat{Y}_i-\bar{Y} \right) ^2}}{\sum_{i=1}^n{\left( Y_i-\bar{Y} \right) ^2}}=R^2.