北大叉院-849统计学-2021年

一、(10分) 事件A,BA,B独立, 且P(BA)=P(AB)=14P(B-A)=P(A-B)=\frac{1}{4},求P(A),P(B)P(A),P(B).

Solution:
根据独立性有

{P(BA)=P(B)P(BA)=P(B)P(A)P(B)=14P(AB)=P(A)P(AB)=P(A)P(A)P(B)=14\left\{\begin{array}{l} P(B-A)=P(B)-P(B A)=P(B)-P(A) P(B)=\frac{1}{4} \\ P(A-B)=P(A)-P(A B)=P(A)-P(A) P(B)=\frac{1}{4} \end{array}\right.

解得 P(A)=P(B)=12P(A)=P(B)=\frac{1}{2}.

二、(10分) 盒中有100个球, 分别编号1-100, 现从中抽出10个.

(1)(5分) 有放回抽球, 求10个球编号和的期望;

(2)(5分) 无放回抽取, 求10个球编号和的期望.

Solution:
(1)
设抽到第 ii 个球的编号是 XiX_{i}, 则 P(Xi=k)=1100(k=1,2,,100)P\left(X_{i}=k\right)=\frac{1}{100}(k=1,2, \cdots, 100)
所以 EXi=k=1100k100=50.5E X_{i}=\sum_{k=1}^{100} \frac{k}{100}=50.5, 所以 E(i=110Xi)=i=110EXi=10EX1=505E\left(\sum_{i=1}^{10} X_{i}\right)=\sum_{i=1}^{10} E X_{i}=10 E X_{1}=505.

(2)
此时 XiX_{i} 的分布与(1)中相同, 只是此时诸 XiX_{i} 不是独立的, 而(1)中诸 XiX_{i} 是独 立的, 但根据期望的线性性, 这并不影响它们和的期望, 同样有

E(i=110Xi)=i=110EXi=10EX1=505E\left(\sum_{i=1}^{10} X_{i}\right)=\sum_{i=1}^{10} E X_{i}=10 E X_{1}=505

三、(15分) 现有1000名顾客, 无偏颇地选择两家剧院, 每家剧院皆有NN个座位, 顾客进入剧院如果观察到座位已满则会被迫离开, 试确定合适的NN, 使得因无座而流失的顾客不超过1%.

(1) 用二项分布给出表达式;

(2) 借助正态近似求解NN.

Solution:
(1) 设 Xi={1, 第 i 个顾客选择甲剧院 0, 第 i 个顾客选择乙剧院 X_{i}=\left\{\begin{array}{ll}1, & \text { 第 } i \text { 个顾客选择甲剧院 } \\ 0, & \text { 第 } i \text { 个顾客选择乙剧院 }\end{array}\right.,则选择甲剧院的观众总数为 i=11000Xi\sum_{i=1}^{1000} X_{i}, 选 择乙剧院的观众总数是 1000i=11000Xi1000-\sum_{i=1}^{1000} X_{i}, 因此因座位不够而流失观众这一事件可 记为

A={i=11000Xi>N}{1000i=11000Xi>N}A=\left\{\sum_{i=1}^{1000} X_{i}>N\right\} \cup\left\{1000-\sum_{i=1}^{1000} X_{i}>N\right\}

找的合适的 NN 使得 P(A)0.01P(A) \leqslant 0.01, 即

P(Aˉ)=P(1000Ni=11000XiN)0.99P(\bar{A})=P\left(1000-N \leqslant \sum_{i=1}^{1000} X_{i} \leqslant N\right) \geqslant 0.99

而根据题意, i=11000Xib(1000,12)\sum_{i=1}^{1000} X_{i} \sim b\left(1000, \frac{1}{2}\right), 所以上式可写为

k=1000NNC1000k(12)10000.99\sum_{k=1000-N}^{N} C_{1000}^{k}\left(\frac{1}{2}\right)^{1000} \geqslant 0.99

(2) 利用二项分布的正态近似, 我们知道 i=11000Xi500250N(0,1)\frac{\sum_{i=1}^{1000} X_{i}-500}{\sqrt{250}} \sim N(0,1), 因此

P(1000Ni=11000XiN)=P(N500250i=11000Xi500250N500250)2Φ(N500510)1\begin{aligned} P\left(1000-N \leqslant \sum_{i=1}^{1000} X_{i} \leqslant N\right) &=P\left(-\frac{N-500}{\sqrt{250}} \leqslant \frac{\sum_{i=1}^{1000} X_{i}-500}{\sqrt{250}} \leqslant \frac{N-500}{\sqrt{250}}\right) \\ & \approx 2 \Phi\left(\frac{N-500}{5 \sqrt{10}}\right)-1 \end{aligned}

于是令 2Φ(N500510)10.992 \Phi\left(\frac{N-500}{5 \sqrt{10}}\right)-1 \geqslant 0.99, 即 Φ(N500510)0.995\Phi\left(\frac{N-500}{5 \sqrt{10}}\right) \geqslant 0.995, 得

N500+510u0.995=500+5102.5758=540.727N \geqslant 500+5 \sqrt{10} u_{0.995}=500+5 \sqrt{10} \cdot 2.5758=540.727

所以 NN 至少是 541 .

四、(15分) f(x)=Aπex2+2x+1f(x)=\frac{A}{\sqrt{\pi}}e^{-x^2+2x+1}XX的概率密度函数, 求

(1) AA;

(2) EX\mathrm{E}XVar(X)\mathrm{Var}(X).

Solution: (1)
由概率密度函数的正则性, 有
+Aπex2+2x+1dx=Ae2+1πe(x1)2dx=Ae2=1\int_{-\infty}^{+\infty} \frac{A}{\sqrt{\pi}} e^{-x^{2}+2 x+1} d x=A e^{2} \int_{-\infty}^{+\infty} \frac{1}{\sqrt{\pi}} e^{-(x-1)^{2}} d x=A e^{2}=1 解得 A=e2A=e^{-2}.
(2)
容易看出 XN(1,12)X \sim N\left(1, \frac{1}{2}\right), 所以 EX=1,Var(X)=12E X=1, \operatorname{Var}(X)=\frac{1}{2}.

五、(15分) X,YX,Y独立同服从标准正态分布, Z=5X+4YZ=5X+4Y, Z=5X4YZ=5X-4Y, 求

(1)(7分) EZ\mathrm{E}Z,EW\mathrm{E}WCov(Z,W)\mathrm{Cov}(Z,W);

(2)(8分) (Z,W)(Z,W)的联合概率密度.

Solution:
(1)

EZ=E(5X+4Y)=0,EW=E(5X4Y)=0Cov(Z,W)=Cov(5X+4Y,5X4Y)=25Var(X)16Var(Y)=9\begin{aligned} &E Z=E(5 X+4 Y)=0, E W=E(5 X-4 Y)=0 \\ &\operatorname{Cov}(Z, W)=\operatorname{Cov}(5 X+4 Y, 5 X-4 Y)=25 \operatorname{Var}(X)-16 \operatorname{Var}(Y)=9 \end{aligned}

(2)
Var(Z)=Var(W)=25+16=41\operatorname{Var}(Z)=\operatorname{Var}(W)=25+16=41, 因此 Corr(Z,W)=941\operatorname{Corr}(Z, W)=\frac{9}{41}, 所以 (Z,W)N(0,0;41,41;941)(Z, W) \sim N\left(0,0 ; 41,41 ; \frac{9}{41}\right), 它们的联合密度函数是

f(z,w)=182π192412exp{12(192412)[z2412941zw41+w241]}=180πexp{1211600(41z218zw+41w2)}\begin{aligned} f(z, w) &=\frac{1}{82 \pi \sqrt{1-\frac{9^{2}}{41^{2}}}} \exp \left\{-\frac{1}{2\left(1-\frac{9^{2}}{41^{2}}\right)}\left[\frac{z^{2}}{41}-\frac{2 \frac{9}{41} z w}{41}+\frac{w^{2}}{41}\right]\right\} \\ &=\frac{1}{80 \pi} \exp \left\{-\frac{1}{2} \frac{1}{1600}\left(41 z^{2}-18 z w+41 w^{2}\right)\right\} \end{aligned}

六、(15分) (X,Y)(X,Y)有联合概率密度f(x,y)=A1+x2+y2f(x,y)=\frac{A}{1+x^2+y^2}.

(1)(7分) 求常数AA;

(2)(8分) Var(X)\mathrm{Var}(X)Var(Y)\mathrm{Var}(Y)是否存在?

Solution:
(1)

积分发散, ff 不构成密度函数.

(2)

自然不存在方差.

[注] 原题就是如此. 错题, 因此考场上指出该题出错之人都给分.

七、(15分) X1,,XnX_1,\cdots,X_n是来自总体U(a,b)U(a,b)的随机样本, 求a,ba,b的矩估计和最大似然估计, 并判断无偏性.

Solution: 先求矩估计, 由替换原理可得

{EX=a+b2Var(X)=(ba)212{a^M=xˉ3sb^M=xˉ+3s\left\{\begin{array} { l } { E X = \frac { a + b } { 2 } } \\ { \operatorname { V a r } ( X ) = \frac { ( b - a ) ^ { 2 } } { 1 2 } } \end{array} \Rightarrow \left\{\begin{array}{l} \hat{a}_{M}=\bar{x}-\sqrt{3} s \\ \hat{b}_{M}=\bar{x}+\sqrt{3} s \end{array}\right.\right.

其中 xˉ=1ni=1nXi\bar{x}=\frac{1}{n} \sum_{i=1}^{n} X_{i}, 易知 Exˉ=EX1=a+b2;s2=1n1i=1n(xixˉ)2E \bar{x}=E X_{1}=\frac{a+b}{2} ; s^{2}=\frac{1}{n-1} \sum_{i=1}^{n}\left(x_{i}-\bar{x}\right)^{2}, 易知 Es2=Var(X)=(ba)212.E s^{2}=\operatorname{Var}(X)=\frac{(b-a)^{2}}{12} .
由 Jensen不等式, 考虑严格凹函数 g(t)=tg(t)=\sqrt{t}, 有 g(Es2)>Eg(s2)g\left(E s^{2}\right)>E g\left(s^{2}\right), 即有不 等式 ba23>Es\frac{b-a}{2 \sqrt{3}}>E s 严格成立, 因此

Ea^M=E(xˉ3s)>a+b2ba2=aEb^M=E(xˉ+3s)<a+b2+ba2=b\begin{aligned} &E \hat{a}_{M}=E(\bar{x}-\sqrt{3} s)>\frac{a+b}{2}-\frac{b-a}{2}=a \\ &E \hat{b}_{M}=E(\bar{x}+\sqrt{3} s)<\frac{a+b}{2}+\frac{b-a}{2}=b \end{aligned}

所以矩估计 a^M,b^M\hat{a}_{M}, \hat{b}_{M} 不是无偏估计.
再求最大似然估计, 似然函数 L(a,b)=1(ba)nI{x(1)a}I{x(n)b}L(a, b)=\frac{1}{(b-a)^{n}} I_{\left\{x_{(1)} \geqslant a\right\}} I_{\left\{x_{(n)} \leqslant b\right\}} 想要达到最 大值即要求 bab-a 达到最小值, 而 bx(n)b \geqslant x_{(n)} 以及 ax(1)a \leqslant x_{(1)}, 所以 a^L=x(1),b^L=x(n)\hat{a}_{L}=x_{(1)}, \hat{b}_{L}=x_{(n)}(a,b)(a, b) 的最大似然估计.
x(1)ababeta(1,n)\frac{x_{(1)}-a}{b-a} \sim \operatorname{beta}(1, n), 所以 Ex(1)=a+ban+1E x_{(1)}=a+\frac{b-a}{n+1}, 即 a^L=x(1)\hat{a}_{L}=x_{(1)} 不是 aa 的无偏估 计; 同样 x(n)ababeta(n,1)\frac{x_{(n)}-a}{b-a} \sim \operatorname{beta}(n, 1), 所以 Ex(n)=bban+1E x_{(n)}=b-\frac{b-a}{n+1}, 即 b^L=x(n)\hat{b}_{L}=x_{(n)} 不是 bb 的无偏 估计.

八、(15分) X1,,XnX_1,\cdots,X_n是来自总体N(μ,1)N(\mu,1)的随机样本, Y1,,YmY_1,\cdots,Y_m是来自总体N(μ,4)N(\mu,4)的随机样本, 两组样本独立, 令

T=ai=1nXi+bj=1mYj,T=a\sum_{i=1}^n{X_i}+b\sum_{j=1}^m{Y_j},

a,ba,b的值使得TT无偏且方差最小.

Solution:
ET=E(ai=1nXi+bj=1mYj)=(an+bm)μ=μE T=E\left(a \sum_{i=1}^{n} X_{i}+b \sum_{j=1}^{m} Y_{j}\right)=(a n+b m) \mu=\mu, 即 an+bm=1a n+b m=1.
于是我 们 便 求 Var(T)=Var(ai=1nXi+bj=1mYj)=a2n+4b2m\operatorname{Var}(T)=\operatorname{Var}\left(a \sum_{i=1}^{n} X_{i}+b \sum_{j=1}^{m} Y_{j}\right)=a^{2} n+4 b^{2} man+bm=1a n+b m=1 下的条件最小值, 约束条件可写为 a=1mbna=\frac{1-m b}{n}, 将其代入 Var(T)\operatorname{Var}(T), 有

Var(T)=n(1mbn)2+4mb2=1n2mnb+(m2n+4m)b2\operatorname{Var}(T)=n\left(\frac{1-m b}{n}\right)^{2}+4 m b^{2}=\frac{1}{n}-\frac{2 m}{n} b+\left(\frac{m^{2}}{n}+4 m\right) b^{2}

它是关于 bb 的开口向上的二次函数, 其最小值在对称轴处取到, 即

b=2mn2(m2n+4m)=1m+4nb=-\frac{-\frac{2 m}{n}}{2\left(\frac{m^{2}}{n}+4 m\right)}=\frac{1}{m+4 n}

a=1mbn=4m+4na=\frac{1-m b}{n}=\frac{4}{m+4 n}.

九、(20分) 已知yi=a+bxi+εiy_i=a+bx_i+\varepsilon_i, i=,,ni=,\cdots,n, 残差独立同服从标准正态分布, 有样本相关系数

r=i=1n(xixˉ)(yiyˉ)i=1n(xixˉ)2i=1n(yiyˉ)2.r=\frac{\sum_{i=1}^n{\left( x_i-\bar{x} \right) \left( y_i-\bar{y} \right)}}{\sqrt{\sum_{i=1}^n{\left( x_i-\bar{x} \right) ^2}\sum_{i=1}^n{\left( y_i-\bar{y} \right) ^2}}}.

(1)(6分) 求a,ba,b的最小二乘估计;

(2)(7分) 求最小二乘估计的分布;

(3)(7分) 证明: r2=i=1n(y^iyˉ)2i=1n(yiyˉ)2r^{2}=\frac{\sum_{i=1}^n{\left( \hat{y}_i-\bar{y} \right) ^2}}{\sum_{i=1}^n{\left( y_i-\bar{y} \right) ^2}}

Solution:
(1) 考虑使 Q(a,b)=i=1n(yiabxi)2Q(a, b)=\sum_{i=1}^{n}\left(y_{i}-a-b x_{i}\right)^{2} 达到最小, 对 aabb 求偏导并置 0 , 得正 规方程组

{Qa=2i=1n(yiabxi)=0Qb=2i=1nxi(yiabxi)=0\left\{\begin{array}{l} \frac{\partial Q}{\partial a}=-2 \sum_{i=1}^{n}\left(y_{i}-a-b x_{i}\right)=0 \\ \frac{\partial Q}{\partial b}=-2 \sum_{i=1}^{n} x_{i}\left(y_{i}-a-b x_{i}\right)=0 \end{array}\right.

解得 β0,β1\beta_{0}, \beta_{1} 的最小二乘估计是 {a^=yˉb^xˉb^=lxylxx\left\{\begin{array}{l}\hat{a}=\bar{y}-\hat{b} \bar{x} \\ \hat{b}=\frac{l_{x y}}{l_{x x}}\end{array}\right..
这里

lxx=i=1n(xixˉ)2,lxy=i=1n(xixˉ)(yiyˉ).l_{x x}=\sum_{i=1}^{n}\left(x_{i}-\bar{x}\right)^{2}, l_{x y}=\sum_{i=1}^{n}\left(x_{i}-\bar{x}\right)\left(y_{i}-\bar{y}\right) .

(2)
由于 Y=(y1,,yn)TN(Xβ,σ2In)\boldsymbol{Y}=\left(y_{1}, \cdots, y_{n}\right)^{T} \sim N\left(X \boldsymbol{\beta}, \sigma^{2} I_{n}\right), 这里 β=(a,b)T,X=(1x11xn)\boldsymbol{\beta}=(a, b)^{T}, X=\left(\begin{array}{cc}1 & x_{1} \\ \vdots & \vdots \\ 1 & x_{n}\end{array}\right).
β^=(a^,b^)T=(XTX)1XTY\hat{\boldsymbol{\beta}}=(\hat{a}, \hat{b})^{T}=\left(X^{T} X\right)^{-1} X^{T} \boldsymbol{Y} 依然是正态分布, 且

Eβ^=E(XTX)1XTY=(XTX)1XTXβ=βCov(β^)=σ2(XTX)1XTInX(XTX)1=σ2(XTX)1 即 β^N((ab),σ2(1n+xˉ2lxxxˉlxxxˉlxx1lxx)).\begin{gathered} E \hat{\boldsymbol{\beta}}=E\left(X^{T} X\right)^{-1} X^{T} \boldsymbol{Y}=\left(X^{T} X\right)^{-1} X^{T} X \boldsymbol{\beta}=\boldsymbol{\beta} \\ \operatorname{Cov}(\hat{\boldsymbol{\beta}})=\sigma^{2}\left(X^{T} X\right)^{-1} X^{T} I_{n} X\left(X^{T} X\right)^{-1}=\sigma^{2}\left(X^{T} X\right)^{-1} \\ \text { 即 } \hat{\boldsymbol{\beta}} \sim N\left(\left(\begin{array}{l} a \\ b \end{array}\right), \sigma^{2}\left(\begin{array}{cc} \frac{1}{n}+\frac{\bar{x}^{2}}{l_{x x}} & -\frac{\bar{x}}{l_{x x}} \\ -\frac{\bar{x}}{l_{x x}} & \frac{1}{l_{x x}} \end{array}\right)\right) . \end{gathered}

(3)

r2=lxy2lxxlyy=b^2lxxlyy=i=1n[b^(xixˉ)]2i=1n(yiyˉ)2=i=1n(y^iyˉ)2i=1n(yiyˉ)2.r^{2}=\frac{l_{x y}^{2}}{l_{x x} l_{y y}}=\frac{\hat{b}^{2} l_{x x}}{l_{y y}}=\frac{\sum_{i=1}^{n}\left[\hat{b}\left(x_{i}-\bar{x}\right)\right]^{2}}{\sum_{i=1}^{n}\left(y_{i}-\bar{y}\right)^{2}}=\frac{\sum_{i=1}^{n}\left(\hat{y}_{i}-\bar{y}\right)^{2}}{\sum_{i=1}^{n}\left(y_{i}-\bar{y}\right)^{2}} .

十、(20分) 对于某种疾病, 社会患病率为α\alpha, 若一人患病, 他被准确测出患病的概率为γ\gamma, 若一人不患病, 他被准确测为不患病的概率是rr. 现有一人在nn次独立测试中被测出 kk 次患病, 求他的确患病的概率.

Solution:
用事件 AA 表示该人患病, 用事件 BB 表示该人在 nn 次独立测试中被测出 kk 次患 病, 则由 Bayes 公式, 有

P(AB)=P(BA)P(A)P(BA)P(A)+P(BAˉ)P(Aˉ)=Cnkγk(1γ)nkαCnkγk(1γ)nkα+Cnk(1r)krnk(1α)=γk(1γ)nkαγk(1γ)nkα+(1r)krnk(1α)\begin{aligned} P(A \mid B) &=\frac{P(B \mid A) P(A)}{P(B \mid A) P(A)+P(B \mid \bar{A}) P(\bar{A})} \\ &=\frac{C_{n}^{k} \gamma^{k}(1-\gamma)^{n-k} \cdot \alpha}{C_{n}^{k} \gamma^{k}(1-\gamma)^{n-k} \cdot \alpha+C_{n}^{k}(1-r)^{k} r^{n-k} \cdot(1-\alpha)} \\ &=\frac{\gamma^{k}(1-\gamma)^{n-k} \cdot \alpha}{\gamma^{k}(1-\gamma)^{n-k} \cdot \alpha+(1-r)^{k} r^{n-k} \cdot(1-\alpha)} \end{aligned}