北京师范大学-432统计学-2022年

一、选择题(每题3分, 共30分)

  1. P(A)=p1>0,0<P(B)=p2<1,AP(A)=p_1>0,0<P(B)=p_2<1, ABB 互不相容, 则 P(AB)=P(A \mid B)=( ).
    A. p1p_1
    B. p2p_2
    C. p1/p2p_1/p_2
    D. 0

Solution: D. 互不相容意味着P(AB)=0P(A B)=0, 故P(AB)=P(AB)P(B)=0P(A \mid B)=\frac{P(A B)}{P(B)}=0

  1. 关于古典概率, 下列说法一定错误的是().
    A. 所有样本点对应的基本事件和一定为 1
    B. 每个样本点对应的基本事件概率一定相同
    C. 样本点个数可以是无限个
    D. 某事件的概率一定与其所包含的基本事件个数成正比

Solution: C. 古典概型只能是有限样本点.

  1. 某个班男生的平均身高标准差为 6 cm6 \mathrm{~cm}, 为估计全校男生的平均身高, 置信水平 95%95 \%, 允许误差为 1 , 请问所需要的样本个数至少为( ).
    A. 138
    B. 139
    C. 140
    D. 141

Solution: B. 考虑样本均值xˉ\bar{x}是近似正态分布, 则置信区间为μ[xˉz0.025σn,xˉ+z0.025σn]\mu \in [\bar{x}-z_{0.025}\frac{\sigma}{\sqrt{n}},\bar{x}+z_{0.025}\frac{\sigma}{\sqrt{n}}], 令误差z0.025σn1z_{0.025}\frac{\sigma}{\sqrt{n}}\le 1, 代入σ=6\sigma =6, z0.025=1.96z_{0.025}=1.96, 解得n138.3n \ge 138.3.

  1. 设圆的直径dU(a,b)d\sim U(a,b), 则圆面积的期望E(S)=E(S)=( ).
    A. (ba)212\frac{(b-a)^2}{12}
    B. a+b2\frac{a+b}{2}
    C. π(a2+ab+b2)12\frac{\pi(a^2+ab+b^2)}{12}
    D. π(a+b)12\frac{\pi(a+b)}{12}

Solution: C. dU(a,b)d \sim U(a, b), S=πr2=π4d2S=\pi r^2=\frac{\pi}{4} d^2, 密度函数

f(d)={1baadb0101+3f(d)=\left\{\begin{array}{cc}\frac{1}{b-a} & a \leq d \leq b \\ 0 & -101+3\end{array}\right.

求期望ES=abπ4x21badx=π4(ba)13x3ab=π(b3a3)12(ba)=π12(a2+ab+b2)E S=\int_a^b \frac{\pi}{4} x^2 \cdot \frac{1}{b-a} d x=\left.\frac{\pi}{4(b-a)} \cdot \frac{1}{3} x^3\right|_a ^b =\frac{\pi\left(b^3-a^3\right)}{12(b-a)}=\frac{\pi}{12}\left(a^2+a b+b^2\right).

  1. 如果 Var(X)\operatorname{Var}(X) 存在, 下面说法错误的是( ).
    A. EXE X 一定存在
    B. EX2>(EX)2E X^2>(E X)^2 一定成立
    C. 对于 CEX,Var(X)<E(XC)2C \neq E X, \operatorname{Var}(X)<E(X-C)^2
    D. 标准差 Var(X)\sqrt{\operatorname{Var}(X)} 一定存在

Solution: B. 如果Var(X)=0Var(X)=0, 则P(X=c)=1P(X=c)=1, 说明EX2=(EX)2EX^2=(EX)^2.

  1. 抽样推断的精确度与抽样误差的关系是( ).
    A. 前者提高说明后者变小
    B. 前者提高说明后者变大
    C. 前者提高说明后者不变
    D. 没有关系

Solution: A. 要求的精确度越高, 说明置信区间越短, 抽样误差越小.

  1. X1,,XnX_1, \ldots, X_n 独立同分布, 且 E(X1)=μ,Var(X1)=σ2E\left(X_1\right)=\mu, \operatorname{Var}\left(X_1\right)=\sigma^2, 则 limnP(k=1nXk<nμ)=\lim _{n \rightarrow \infty} P\left(\sum_{k=1}^n X_k<n \mu\right)=( ).
    A. 0.250.25
    B. 0.50.5
    C. 0.75
    D. 1

Solution: B. limnP(k=1nXk<nμ)=limnP(xˉ<μ)\lim \limits_{n \rightarrow \infty} P\left(\sum_{k=1}^n X_k<n \mu\right)=\lim \limits_{n \rightarrow \infty} P\left(\bar{x}< \mu\right), 根据中心极限定理, xˉ\bar{x}近似服从N(μ,σ2n)N(\mu,\frac{\sigma^2}{n}), 正态分布小于其期望的概率恰好是0.5.

  1. XXYY 独立, 且 XYX 、 Y 均服从 B(1,0.4)B(1,0.4), 则 P(X=Y)=P(X=Y)=( ).
    A. 425\frac{4}{25}
    B. 625\frac{6}{25}
    C. 1325\frac{13}{25}
    D. 0

Solution: C. P(X=Y)=P(X=Y=0)+P(x=Y=1)=25×25+35×35=1325P(X=Y)=P(X=Y=0)+P(x=Y=1)=\frac{2}{5} \times \frac{2}{5}+\frac{3}{5} \times \frac{3}{5}=\frac{13}{25}

  1. S2S^2 是从 N(0,1)N(0,1) 中抽取的 n=16n=16 的样本方差, 则 Var(S2)=\operatorname{Var}\left(S^2\right)=( ).
    A. 115\frac{1}{15}
    B. 215\frac{2}{15}
    C. 216\frac{2}{16}
    D. 1

Solution: B. 由抽样基本定理(Fisher引理), 有(n1)S2χ2(n1)(n-1)S^2 \sim \chi^2(n-1), 因此

E((n1)S2))=n1,Var((n1)S2)=2(n1),E((n-1)S^2)) = n-1,\quad Var((n-1)S^2) = 2(n-1),

解得Var(S2)=2n1=215Var(S^2) = \frac{2}{n-1} = \frac{2}{15}.

  1. X1,,XnX_1, \ldots, X_n 为来自 N(0,σ2)N\left(0, \sigma^2\right) 的简单随机样本, 为使得 Ci=1n1(Xi+1Xi)2C \sum_{i=1}^{n-1}\left(X_{i+1}-X_i\right)^2σ2\sigma^2 的无偏估 计, 则 C=C=( ).
    A. 1n1\frac{1}{n-1}
    B. 1n\frac{1}{n}
    C. 12(n1)\frac{1}{2(n-1)}
    D. 12n\frac{1}{2 n}

Solution: C. 由正态分布性质, 有Xi+1XiN(0,2σ2)X_{i+1}-X_i \sim N(0,2\sigma^2), 故E(Xi+1Xi)2=2σ2E(X_{i+1}-X_i)^2 = 2\sigma^2, 由期望的线性可加性, 有

E[Ci=1n1(Xi+1Xi)2]=C(n1)2σ2,E[C \sum_{i=1}^{n-1}\left(X_{i+1}-X_i\right)^2] = C\cdot(n-1)\cdot2\sigma^2,

因此C=12(n1)C=\frac{1}{2(n-1)}.

二、计算题(共120分)

  1. (10分) 给出 12 个数据 23、26、31、33、33、34、36、39、40、40、43、49, 用至少两种统计量和统计图进行统计分析.

Solution: 统计分析报告为常考基础题, 务必掌握!
统计图: 可⽤茎叶图 , 箱线图, 直方图.
统计指标: 平均数, 中位数 , 众数, 方差, 极差等.
最后给出分析, 可从三个⽅⾯展开: 集中趋势, 离散趋势, 分布形状.

  1. (15分) 一个不透明的箱子里有 aa 个白球和 bb 个红球, kk 个人不放回地抽球, 且 k<a+bk<a+b, 求第 ii 个人抽到红球的概率.

【提示】: 这是2021第一大题重复考察, 也类似茆书原题1.5.26, 1.5.27, 用数学归纳法. 这里我们用另外一种条件期望法做.

Solution: 设 XiX_{i} 表示第 ii 个人抽球时盒中红球数量, 很显然

X1=b,P(i个人抽到红球)=E(Xia+b(i1))=1a+b(i1)E(Xi),X_1 = b,\quad P(\text{第} i \text{个人抽到红球}) = E\left(\frac{X_i}{a+b-(i-1)}\right) = \frac{1}{a+b-(i-1)}\cdot E(X_i),

如果 Xi1=xX_{i-1}=x 已知, 则有

P(Xi=Xi11Xi1)=Xi1a+b(i2),P(Xi=Xi1Xi1)=1Xi1a+b(i2),P(X_i=X_{i-1}-1|X_{i-1})=\frac{X_{i-1}}{a+b-\left( i-2 \right)},P(X_i=X_{i-1}|X_{i-1})=1-\frac{X_{i-1}}{a+b-\left( i-2 \right)},

求得条件期望为

E(XiXi1)=Xi1(11a+b(i2)),E\left( X_i\mid X_{i-1} \right) =X_{i-1}\left( 1-\frac{1}{a+b-\left( i-2 \right)} \right) ,

用重期望公式得

E(Xi)=E(Xi1)(a+b(i1)a+b(i2)),E\left( X_i \right) =E\left( X_{i-1} \right) \left( \frac{a+b-\left( i-1 \right)}{a+b-\left( i-2 \right)} \right) ,

用递推式得到

E(Xi)=E(X1)a+b1a+ba+b2a+b1a+b(i1)a+b(i2)=a+b(i1)a+bb,E\left( X_i \right) =E\left( X_1 \right) \cdot \frac{a+b-1}{a+b}\cdot \frac{a+b-2}{a+b-1}\cdots \frac{a+b-\left( i-1 \right)}{a+b-\left( i-2 \right)}=\frac{a+b-\left( i-1 \right)}{a+b}b,

代入得

P(i个人抽到红球)=E(Xia+b(i1))=1a+b(i1)E(Xi)=ba+b.P(\text{第} i \text{个人抽到红球}) = E\left(\frac{X_i}{a+b-(i-1)}\right) = \frac{1}{a+b-(i-1)}\cdot E(X_i) = \frac{b}{a+b}.

  1. (24分) X1,X2,XnX_1, X_2 \ldots, X_n 相互独立, X1N(β+γZi,σ2),i=1,2,,nX_1 \sim N\left(\beta+\gamma Z_i, \sigma^2\right), i=1,2, \ldots, n, 且 Zi++Zn=0Z_i+\ldots+Z_n=0, Z12++Zn2>0Z_1^2+\ldots+Z_n^2>0, 其中 ZiZ_i 是已知数值; β,γ,σ\beta, \gamma, \sigma 为未知参数,

(1)(8分) 求 β,γ,σ2\beta, \gamma, \sigma^2 的极大似然估计.

(2)(8分) 分别求 β,γ,σ2\beta, \gamma, \sigma^21α1-\alpha 的置信区间,其中给定 α(0,1)\alpha \in(0,1).

(3)(8分) 假设 H0:γ=0H_0: \gamma=0 vs H1:γ0H_1: \gamma \neq 0, 构造 α\alpha 水平下的拒绝域.

【提示】: 这实际上是一元线性回归.

Solution: (1) 写出似然函数, 即

L(β,γ,σ2)=(2πσ2)n2exp{12σ2i=1n(XiβγZi)2},L\left( \beta ,\gamma ,\sigma ^2 \right) =\left( 2\pi \sigma ^2 \right) ^{-\frac{n}{2}}\exp \left\{ -\frac{1}{2\sigma ^2}\sum_{i=1}^n{\left( X_i-\beta -\gamma Z_i \right) ^2} \right\} ,

对数似然函数为

(β,γ,σ2)=n2ln(2π)n2ln(σ2)12σ2i=1n(XiβγZi)2,\ell \left( \beta ,\gamma ,\sigma ^2 \right) =-\frac{n}{2}\ln \left( 2\pi \right) -\frac{n}{2}\ln \left( \sigma ^2 \right) -\frac{1}{2\sigma ^2}\sum_{i=1}^n{\left( X_i-\beta -\gamma Z_i \right) ^2},

求偏导得

{β=12σ2i=1n(XiβγZi),γ=12σ2i=1nZi(XiβγZi),σ2=n2σ2+12σ4i=1n(XiβγZi)2,\begin{cases} \frac{\partial \ell}{\partial \beta}=\frac{1}{2\sigma ^2}\sum_{i=1}^n{\left( X_i-\beta -\gamma Z_i \right)},\\ \frac{\partial \ell}{\partial \gamma}=\frac{1}{2\sigma ^2}\sum_{i=1}^n{Z_i\left( X_i-\beta -\gamma Z_i \right)},\\ \frac{\partial \ell}{\partial \sigma ^2}=-\frac{n}{2\sigma ^2}+\frac{1}{2\sigma ^4}\sum_{i=1}^n{\left( X_i-\beta -\gamma Z_i \right) ^2},\\ \end{cases}

第一个式子告诉我们Xˉ=β^+γ^Zˉ=β^\bar{X}=\hat{\beta}+\hat{\gamma}\bar{Z}=\hat{\beta}, 代入第二个式子消元 β\beta 恰好解得

γ^=lxzlzz=i=1n(XiXˉ)(ZiZˉ)i=1n(ZiZˉ)2=i=1n(XiXˉ)Zii=1nZi2,\hat{\gamma}=\frac{l_{xz}}{l_{zz}}=\frac{\sum_{i=1}^n{\left( X_i-\bar{X} \right) \left( Z_i-\bar{Z} \right)}}{\sum_{i=1}^n{\left( Z_i-\bar{Z} \right) ^2}}=\frac{\sum_{i=1}^n{\left( X_i-\bar{X} \right) Z_i}}{\sum_{i=1}^n{Z_{i}^{2}}},

再代到第三个解得σ^2=1ni=1n(Xiβ^γ^Zi)2\hat{\sigma}^2=\frac{1}{n}\sum_{i=1}^n{\left( X_i-\hat{\beta}-\hat{\gamma}Z_i \right) ^2}, 汇总后是

{γ^=lxzlzz=i=1n(XiXˉ)Zii=1nZi2,β^=Xˉ,σ^2=1ni=1n(Xiβ^γ^Zi)2.\begin{cases} \hat{\gamma}=\frac{l_{xz}}{l_{zz}}=\frac{\sum_{i=1}^n{\left( X_i-\bar{X} \right) Z_i}}{\sum_{i=1}^n{Z_{i}^{2}}},\\ \hat{\beta}=\bar{X},\\ \hat{\sigma}^2=\frac{1}{n}\sum_{i=1}^n{\left( X_i-\hat{\beta}-\hat{\gamma}Z_i \right) ^2}.\\ \end{cases}

恰好是最小二乘估计, 只不过因变量是 XX, 自变量是 ZZ.

(2) 根据最小二乘估计结论, 有

γ^N(γ,1lzzσ2),β^N(β,(1n+Zˉ2lzz)σ2),(n2)σ~2σ2χ2(n2),\hat{\gamma}\sim N\left( \gamma ,\frac{1}{l_{zz}}\sigma ^2 \right) ,\quad \hat{\beta}\sim N\left( \beta ,\left( \frac{1}{n}+\frac{\bar{Z}^2}{l_{zz}} \right) \sigma ^2 \right) ,\quad \frac{\left( n-2 \right) \tilde{\sigma}^2}{\sigma ^2}\sim \chi ^2\left( n-2 \right) ,

其中 σ~2\tilde{\sigma}^2σ2\sigma^2 的无偏估计, 且Zˉ=0\bar{Z}=0. 此处由于 σ\sigma 未知, 因此

β^βσ~1n+Zˉlzz=nXˉβσ~t(n2),γ^γσ~1lzz=i=1nZi2γ^γσ~t(n2),\frac{\hat{\beta}-\beta}{\tilde{\sigma}\sqrt{\frac{1}{n}+\frac{\bar{Z}}{l_{zz}}}}=\sqrt{n}\frac{\bar{X}-\beta}{\tilde{\sigma}}\sim t\left( n-2 \right) ,\quad \frac{\hat{\gamma}-\gamma}{\tilde{\sigma}\sqrt{\frac{1}{l_{zz}}}}=\sqrt{\sum_{i=1}^n{Z_{i}^{2}}}\frac{\hat{\gamma}-\gamma}{\tilde{\sigma}}\sim t\left( n-2 \right) ,

总结得到置信区间为

β[β^σ~ntα2(n2),β^+σ~ntα2(n2)],\beta \in \left[ \hat{\beta}-\frac{\tilde{\sigma}}{\sqrt{n}}t_{\frac{\alpha}{2}}\left( n-2 \right) ,\hat{\beta}+\frac{\tilde{\sigma}}{\sqrt{n}}t_{\frac{\alpha}{2}}\left( n-2 \right) \right] ,

γ[γ^σ~i=1nZi2tα2(n2),γ^+σ~i=1nZi2tα2(n2)],\gamma \in \left[ \hat{\gamma}-\frac{\tilde{\sigma}}{\sqrt{\sum_{i=1}^n{Z_{i}^{2}}}}t_{\frac{\alpha}{2}}\left( n-2 \right) ,\hat{\gamma}+\frac{\tilde{\sigma}}{\sqrt{\sum_{i=1}^n{Z_{i}^{2}}}}t_{\frac{\alpha}{2}}\left( n-2 \right) \right] ,

σ2[(n2)σ~2χα22(n2),(n2)σ~2χ1α22(n2)].\sigma ^2\in \left[ \frac{\left( n-2 \right) \tilde{\sigma}^2}{\chi _{\frac{\alpha}{2}}^{2}\left( n-2 \right)},\frac{\left( n-2 \right) \tilde{\sigma}^2}{\chi _{1-\frac{\alpha}{2}}^{2}\left( n-2 \right)} \right] .

(3) 构造检验统计量

i=1nZi2γ^σ~H0成立时t(n2),\sqrt{\sum_{i=1}^nZ_i^2}\cdot\frac{\hat{\gamma}}{\tilde{\sigma}} \underset{H_0\text{成立时}}{\sim} t(n-2),

当该检验统计量的绝对值特别大时, 我们认为γ\gamma的真值不应是00, 故拒绝域是

W={i=1nZi2γ^σ~>tα2(n2)}.W=\left\{ \left|\sqrt{\sum_{i=1}^nZ_i^2}\cdot\frac{\hat{\gamma}}{\tilde{\sigma}}\right|>t_{\frac{\alpha}{2}}(n-2)\right\}.

  1. (20分) 已知 (X,Y)(X, Y) 服从二元正态分布, 且 XXYY 的边缘分布均服从 N(0,1),ρN(0,1), \rhoXYX 、 Y 的 相关系数, 则:

(1)(10分) X=U,Y=ρU+(1ρ2)12VX=U, Y=\rho U+\left(1-\rho^2\right)^{\frac{1}{2}} V, 求 (U,V)(U, V) 的联合密度函数.

(2)(10分) 记 α=P(X>0,Y>0)\alpha=P(X>0, Y>0), 证明 ρ=cos((12α)π)\rho=\cos ((1-2 \alpha) \pi).

Solution: (1) (X,Y)(X,Y)(U,V)(U,V) 的线性组合, 反过来 (U,V)(U,V) 也是 (X,Y)(X,Y) 的线性组合. 二元正态的线性组合还是正态, 因此我们只需要计算 (U,V)(U,V) 的期望、方差、协方差, 就可以写出密度函数, 根据题设 X=UX=UUN(0,1)U\sim N(0,1), 而由 0=E(Y)=ρE(U)+1ρ2E(V)0=E(Y)=\rho E(U) +\sqrt{1-\rho^2} E(V) 也解得 E(V)=0E(V) = 0, 同时有

ρ=Cov(X,Y)=Cov(U,ρU+1ρ2V)=ρ+1ρ2Cov(U,V),\rho =Cov\left( X,Y \right) =Cov\left( U,\rho U+\sqrt{1-\rho ^2}V \right) =\rho +\sqrt{1-\rho ^2}Cov\left( U,V \right) ,

这说明要么 Cov(U,V)=0Cov(U,V)=0, 要么 ρ=±1\rho = \pm 1, 然而当 ρ=±1\rho = \pm 1时, (X,Y)(X,Y) 的协方差矩阵行列式为0, 不是二元正态, 故得出 Cov(U,V)=0Cov(U,V)=0. 再回代 1=Var(Y)=ρ2Var(U)+(1ρ2)Var(V)1=Var(Y)=\rho^2 Var(U)+(1-\rho^2)Var(V), 解得 Var(V)=1Var(V)=1.
综上, (U,V)N(0,0;1,1;0)(U,V)\sim N(0,0;1,1;0), 密度函数是

ρ=Cov(X,Y)=Cov(U,ρU+1ρ2V)=ρ+1ρ2Cov(U,V).\rho =Cov\left( X,Y \right) =Cov\left( U,\rho U+\sqrt{1-\rho ^2}V \right) =\rho +\sqrt{1-\rho ^2}Cov\left( U,V \right) .

(2) 由 (X,Y)(-X,-Y)(X,Y)(X,Y) 同分布, 因此

P(X>0,Y>0)=P(X>0,Y>0)=P(X<0,Y<0),P\left( X>0,Y>0 \right) =P\left( -X>0,-Y>0 \right) =P\left( X<0,Y<0 \right) ,

因此有

P(X>0,Y>0)=12[P(X>0,Y>0)+P(X<0,Y<0)]=12P(XY>0)=12P(YX>0)=12P(ρU+1ρ2VU>0)=12P(ρ+1ρ2VU>0)=12P(VU>ρ1ρ2),\begin{aligned} P\left( X>0,Y>0 \right) &=\frac{1}{2}\left[ P\left( X>0,Y>0 \right) +P\left( X<0,Y<0 \right) \right]\\ &=\frac{1}{2}P\left( XY>0 \right) =\frac{1}{2}P\left( \frac{Y}{X}>0 \right)\\ &=\frac{1}{2}P\left( \frac{\rho U+\sqrt{1-\rho ^2}V}{U}>0 \right)\\ &=\frac{1}{2}P\left( \rho +\sqrt{1-\rho ^2}\frac{V}{U}>0 \right)\\ &=\frac{1}{2}P\left( \frac{V}{U}>-\frac{\rho}{\sqrt{1-\rho ^2}} \right) ,\\ \end{aligned}

利用结论 T=VUT=\frac{V}{U} 服从标准柯西分布, 密度函数是 f(t)=1π11+t2f(t)=\frac{1}{\pi}\frac{1}{1+t^2}, 有

P(VU>ρ1ρ2)=ρ1ρ2+1π11+t2dt=1π(arctan(+)arctan(ρ1ρ2))=1π(π2+arcsinρ)=12+1πarcsinρ,\begin{aligned} P\left( \frac{V}{U}>-\frac{\rho}{\sqrt{1-\rho ^2}} \right) &=\int_{-\frac{\rho}{\sqrt{1-\rho ^2}}}^{+\infty}{\frac{1}{\pi}\frac{1}{1+t^2}dt}\\ &=\frac{1}{\pi}\left( \mathrm{arc}\tan \left( +\infty \right) -\mathrm{arc}\tan \left( -\frac{\rho}{\sqrt{1-\rho ^2}} \right) \right)\\ &=\frac{1}{\pi}\left( \frac{\pi}{2}+\mathrm{arc}\sin \rho \right) =\frac{1}{2}+\frac{1}{\pi}\mathrm{arc}\sin \rho ,\\ \end{aligned}

最后回代即有

α=P(X>0,Y>0)=14+12πarcsinρ,\alpha =P\left( X>0,Y>0 \right) =\frac{1}{4}+\frac{1}{2\pi}\mathrm{arc}\sin \rho ,

整理得

ρ=sin(2π(α14))=sin(2παπ2)=cos(2πα)=cos((12α)π).\rho =\sin \left( 2\pi \left( \alpha -\frac{1}{4} \right) \right) =\sin \left( 2\pi \alpha -\frac{\pi}{2} \right) =-\cos \left( 2\pi \alpha \right) =\cos \left( \left( 1-2\alpha \right) \pi \right) .

  1. (15分) 抽检 NN 人血样本, 方案 1:对每个人进行检验; 方案 2:k2: k 个人一起混检. 已知阳性比例 为 pp, 证明当 pp 较小时, 以适当的 kk 按照方案 2 可减少化验次数, 并确定 kk 取何值时最适合.

Solution: 设 n=Nkn =\frac{N}{k}, 表示 NN 个人总共分成 nn 组, 每一组的次数 XiX_i 可能有两种: (i) 所有人都阴性, 则 X=1X=1; (ii) 有至少一个阳性, 则 X=1+kX=1+k. 期望次数是

E(Xi)=(1p)k+(k+1)[1(1p)k]=(k+1)k(1p)k,E(X_i)=(1-p)^k+(k+1)[1-(1-p)^k]=\left( k+1 \right) -k\left( 1-p \right) ^k,

因此总次数是

E(X)=nE(Xi)=n(k+1)nk(1p)k,E\left( X \right) =nE\left( X_i \right) =n\left( k+1 \right) -nk\left( 1-p \right) ^k,

如果 pp 特别小, 则有 (1p)k1kp\left( 1-p \right) ^k\approx 1-kp, 即

E(X)nk+nnk+nk2p=n(1+k2p),E\left( X \right) \approx nk+n-nk+nk^2p=n\left( 1+k^2p \right) ,

而方案1需要的次数是 N=nkN=nk 次, 只要我们确保 1+k2p<k1+k^2p<k, 则有方案2的期望次数更小, 在pp非常小时, 这是很容易做到的. 实际上我们要尽量选择kk 远小于 1p\frac{1}{p}, 以保证

k2p=kkp<<k,k^2p = k\cdot kp <<k,

使得分组的方法由于不分组.

  1. (16分) X1,X2,XnX_1, X_2 \ldots, X_n 来自总体 X[0,2θ]X \sim[0,2 \theta] 的均匀分布.

(1)(8分) 分别求 θ\theta 的矩估计 θ~\tilde{\theta} 和极大似然估计 θ^\hat{\theta}.

(2)(8分) 讨论 θ^\hat{\theta} 的无偏性, 若非无偏, 则给出一个修正后的无偏估计.

Solution: (1) E(X)=θE(X) = \theta, 故矩估计是 θ~=Xˉ\tilde{\theta}=\bar{X}. 似然函数是

L(θ)=12nθnI{X(n)2θ},L(\theta) = \frac{1}{2^n\theta^n} I_{\{X_{(n)}\le 2\theta\}},

似然函数关于 θ\theta 递减, 故最大值在 θ\theta 取最小值时达到, 即 θ^=X(n)2\hat{\theta} = \frac{X_{(n)}}{2}.

(2) 均匀分布次序统计量结论有 X(n)2θBeta(n,1)\frac{X_{(n)}}{2\theta}\sim Beta(n,1), 故期望是 E[X(n)2θ]=nn+1E[\frac{X_{(n)}}{2\theta}] = \frac{n}{n+1}, 因此 E[θ^]=nn+1θE[\hat{\theta}] = \frac{n}{n+1}\theta, 有偏. 修正后的无偏估计是 θ^a=n+12nX(n)\hat{\theta}_a = \frac{n+1}{2n} X_{(n)}.

  1. (20分) 厂商称白糖平均每包重量 m500gm \geq 500 g, 抽取 100 包测得数据如下:
i 每包克重 包数
1 498-499 10
2 499-500 20
3 500-501 50
4 501-502 20

(1)(5分) 求均值和标准差.

(2)(5分) 构造均值的99%置信区间 (t0.005(99)2.626)\left(t_{0.005}(99) \approx 2.626\right)

(3)(5分) 在 α=0.01\alpha=0.01 水平下, 检验厂商说法是否可信 (t0.01(99)2.364)\left(t_{0.01}(99) \approx 2.364\right)

(4)(5分) 利用正态分布近似, 以 95%95 \% 概率对该批糖达 500 g500 \mathrm{~g} 的比例作区间估计 (z0.025=1.96)(z_{0.025}=1.96)

Solution: (1) 分组数据均值为 xˉ=500.3\bar{x} = 500.3, 样本方差 s2=0.7677s^2=0.7677, 样本标准差 s=0.876s= 0.876.

(2) 总体方差未知, 用 tt 分布构造区间, 置信区间为

xˉ±snt0.005(99)=[500.07,500.53].\bar{x}\pm \frac{s}{\sqrt{n}}t_{0.005}\left( 99 \right) =\left[ 500.07,500.53 \right] .

(3) 假设检验问题为

H0:μ500vsH1:μ>500H_0: \mu \le 500 \quad \mathrm{vs}\quad H_1:\mu >500

检验统计量为

t=xˉ500s/n=3.4247>2.364,t=\frac{\bar{x}-500}{s/\sqrt{n}}=3.4247>2.364,

因此商家的说法是可信的.

(4) 记 p=P(X500)p = P(X\ge 500), 根据表格得 p^=0.7\hat{p} = 0.7, 故有

p^pp^(1p^)/ndN(0,1),\frac{\hat{p}-p}{\sqrt{\hat{p}\left( 1-\hat{p} \right) /n}}\xrightarrow{d}N\left( 0,1 \right) ,

因此置信区间是

p^±z0.025p^(1p^)n=[0.6102,0.7898].\hat{p}\pm z_{0.025}\sqrt{\frac{\hat{p}\left( 1-\hat{p} \right)}{n}}=\left[ 0.6102,0.7898 \right] .