中山大学-432统计学-2023年

一、选择题(每题 3 分, 共 12 空, 总 36 分)

1、设 XN(μ,σ2)X \sim N\left(\mu, \sigma^2\right), 则 EXμ=E|X-\mu| =( )

A.σ2\sigma^2;
B.σ2\frac{\sigma}{2};
C.σ\sigma;
D.σ2π\sigma \sqrt{\frac{2}{\pi}}.

Solution: D

Y=XμσN(0,1)Y=\frac{X-\mu}{\sigma}\sim N\left( 0,1 \right), 则

EY=y2πey22dy=20y2πey22dy=2πE\left| Y \right|=\int_{-\infty}^{\infty}{\frac{\left| y \right|}{\sqrt{2\pi}}e^{-\frac{y^2}{2}}\text{d}y}=2\int_0^{\infty}{\frac{y}{\sqrt{2\pi}}e^{-\frac{y^2}{2}}\text{d}y}=\sqrt{\frac{2}{\pi}}

因此 EXμ=2πE|X-\mu| = \sqrt{\frac{2}{\pi}}

2、 设随机变量 XN(0,1)X \sim N(0,1), 若常数 xpx_p 满足 P(Xxp)=pP\left(X \leq x_p\right)=p, 则称常数 xpx_ppp 分位数, 则 X|X| 的中位数是 ( )
a. x0.25x_{0.25}
b. x0.50x_{0.50}
c. x0.75x_{0.75}
d. x0.67x_{0.67}

Solution: C

12=P(Xa)=P(aXa)=Φ(a)Φ(a)\frac{1}{2}=P\left( \left| X \right|\le a \right) =P\left( -a\le X\le a \right) =\Phi \left( a \right) -\Phi \left( -a \right)

发现恰好是 a=x0.75a = x_{0.75}.

3、已知 E(XY)=E(X)E(Y)E(X Y)=E(X) E(Y), 以下结论正确的是 ( )
a. Var(XY)=Var(X)Var(Y)\operatorname{Var}(X Y)=\operatorname{Var}(X) \operatorname{Var}(Y)
b. Var(X+Y)=Var(X)+Var(Y)\operatorname{Var}(X+Y)=\operatorname{Var}(X)+\operatorname{Var}(Y)
c. XXYY 独立
d. XXYY 不独立

Solution: B

都说明了 XXYY 不相关.

4、以下说法中, 错误的是 ( )
a. 如果 XnDaX_n \stackrel{D}{\rightarrow} a, 那么 XnPaX_n \stackrel{P}{\rightarrow} a
b. 如果 XnDXX_n \stackrel{D}{\rightarrow} X, 那么 XnPXX_n \stackrel{P}{\rightarrow} X
c. 如果 XnPXX_n \stackrel{P}{\rightarrow} X, 那么 XnDXX_n \stackrel{D}{\rightarrow} X
d. 如果 XnDX,YnPaX_n \stackrel{D}{\rightarrow} X, Y_n \stackrel{P}{\rightarrow} a, 那么 XnYnDaXX_n Y_n \stackrel{D}{\rightarrow} a X

Solution: B

B 错误, 依分布收敛推不出依概率收敛, 除非是收敛到常数(单点分布).

5、设 X>0X>0, 已知 E(1/X)E(1 / X)1/EX1 / E X 均存在, 则以下关于 E(1/X)E(1 / X)1/EX1 / E X 的大小关的说法, 正确的是 ( )
a. E(1/X)1/EXE(1 / X) \geq 1 / E X
b. E(1/X)=1/EXE(1 / X)=1 / E X
c. E(1/X)1/EXE(1 / X) \leq 1 / E X
d. 无法确定

Solution:

用Jensen不等式, 取凸函数 g(t)=1tg(t) = \frac{1}{t}, 则有 E(g(X))g(E(X))E\left( g\left( X \right) \right) \ge g\left( E\left( X \right) \right), 即 E(1X)1EXE\left( \frac{1}{X} \right) \ge \frac{1}{EX}.

6、 设简单随机样本 X1,,XniidN(μ,σ2)X_1, \cdots, X_n \stackrel{i i d}{\sim} N\left(\mu, \sigma^2\right), 方差 σ2\sigma^2 已知, 给定置信水平 1α1-\alpha, 关于 μ\mu 的置信区间, 以下说法不正确的是 ( )
a. 样本量增大, 区间长度变短
b. 总体均值范围增大, 区间长度变宽
c. 方差增大, 区间长度变宽
d. 1α1-\alpha 增大, 区间长度变宽

Solution: B

μ\mu1α1-\alpha 水平置信区间是 Xˉ±σnz1α2\bar{X}\pm \frac{\sigma}{\sqrt{n}}z_{1-\frac{\alpha}{2}}. 区间长度是 2σnz1α22\frac{\sigma}{\sqrt{n}}z_{1-\frac{\alpha}{2}}, 显然与总体均值 μ\mu 无关, 因此 A C D 正确, B 错误.

7、 设 X,YX, Y 独立, 均服从伽马分布 Γ(2,4)\Gamma(2,4), 则 X+YX+Y 服从的分布是 ( )
a. 伽马分布 Γ(4,8)\Gamma(4,8)
b. 伽马分布 Γ(4,4)\Gamma(4, 4)
c. 贝塔分布 Beta(2,4)Beta(2,4)
d. 贝塔分布 Beta(4,4)Beta(4,4)

Solution: B

伽马分布 Γ(n,λ)\Gamma(n, \lambda) 具有可加性, 前提是比率参数 λ\lambda 参数相同, 其和只需将自由度相加.

8、 设有来自某总体的简单随机样本, 其样本均值为 Xˉ\bar{X}, 样本方差为 S2S^2, 则下列说法正确的是 ( )
a. SSXˉ\bar{X} 独立
b. SSσ\sigma 的最大似然估计量
c. SSσ\sigma 的无偏估计量
d. SSσ\sigma 的相合估计量

Solution: D

题目未说是正态分布, A 错误. 未指明具体分布, B 也错误. 未指明分布也无法计算期望, C 错误, 且通常也是有偏估计. 如果总体的方差存在, 则样本方差的相合性成立, 这是由大数定律保证的. 再根据连续映射定理, 样本标准差的相合性也得以保证.

8、 以下结论中, 与 Var(E(YX))=Var(Y)\operatorname{Var}(E(Y \mid X))=\operatorname{Var}(Y) 互为充要条件的是 ( )
a. XX 以概率 1 能够用 YY 线性表示
b. YE[YX]=0Y-E[Y \mid X]=0
c. E(Var(YX))=0E(\operatorname{Var}(Y \mid X))=0
d. E(YE(YX))=0E(Y-E(Y \mid X))=0

Solution: C

根据条件方差恒等式, 即

Var(Y)=Var(E(YX))+E(Var(YX)),Var\left( Y \right) =Var\left( E\left( Y\mid X \right) \right) +E\left( Var\left( Y\mid X \right) \right) ,

根据题意, 有

Var(E(YX))=Var(Y)E(Var(YX))=0Var\left( E\left( Y\mid X \right) \right) =Var\left( Y \right) \Leftrightarrow E\left( Var\left( Y\mid X \right) \right) =0

10、 在假设检验问题中, 控制显著性水平 α\alpha 不变, 则增加样本容量, 发生的变化是 ( )
a. 一类错误概率减小
b. 一类错误概率增大
c. 二类错误概率减小
d. 二类错误概率增大

Solution: C

控制了显著性水平, 则第一类错误概率不变. 第二类错误的概率随样本量增大而减小.

11、 为研究某地区儿童的含铅量指标水平是否高于普通儿童,应该设定的假设检验问题为 ( )
a. 原假设 μ>μ0\mu>\mu_0, 备择假设 μ=μ0\mu=\mu_0
b. 原假设 μ<μ0\mu<\mu_0, 备择假设 μ=μ0\mu=\mu_0
c. 原假设 μ=μ0\mu=\mu_0, 备择假设 μ>μ0\mu>\mu_0
d. 原假设 μ=μ0\mu=\mu_0, 备择假设 μ<μ0\mu<\mu_0

Solution: C

通常将研究的问题放在备择假设, 想要拒绝的放在原假设.

12、 对于均匀分布总体 iidU(θ,θ),θ>0\stackrel{i i d}{\sim} U(-\theta, \theta), \theta>0 的一组简单随机样本, 以下说法正确的是 ( )
a. min{X(1),X(n)}\min \left\{-X_{(1)}, X_{(n)}\right\} 是充分统计量
b. (X(1),X(n))\left(X_{(1)}, X_{(n)}\right) 是完备统计量
c. X(n)X(1)X_{(n)}-X_{(1)} 是辅助统计量
d. X(n)/X(1)X_{(n)} / X_{(1)} 是辅助统计量

Solution: D

似然函数是

L(θ)=1(2θ)nI{X(1)θ}I{X(n)θ}=1(2θ)nI{max{X(1),X(n)}θ},L\left( \theta \right) =\frac{1}{\left( 2\theta \right) ^n}I_{\left\{ X_{\left( 1 \right)}\ge -\theta \right\}}I_{\left\{ X_{\left( n \right)}\le \theta \right\}}=\frac{1}{\left( 2\theta \right) ^n}I_{\left\{ \max \left\{ -X_{\left( 1 \right)},X_{\left( n \right)} \right\} \le \theta \right\}},

因此 max{X(1),X(n)}\max \left\{-X_{(1)}, X_{(n)}\right\} 才是充分统计量.

取函数 h(x1,x2)=x1+x2h(x_1, x_2) = x_1 + x_2, 则根据对称性有 Eh(X(1),X(n))=0Eh\left( X_{\left( 1 \right)},X_{\left( n \right)} \right) =0, 但显然没有 h(X(1),X(n))=0, a.s.h\left( X_{\left( 1 \right)},X_{\left( n \right)} \right) =0,\ a.s. 所以(X(1),X(n))\left(X_{(1)}, X_{(n)}\right) 不是完备统计量.

C 项是位置参数的辅助统计量, D 是尺度参数的辅助统计量, 该总体显然是个尺度族而不是位置族, 因此 D 正确.

二、填空题(每空 3 分, 共 14 空, 总 52 分)

1、 一个人是 ABABOA 、 B 、 A B 、 O 型血的概率分别为 0.40.20.10.30.4 、 0.2 、 0.1 、 0.3, 现任意在人群中选四个人, 则他们血型全不相同的概率为____.

Solution: 0.05760.0576

利用多项分布, 抽一个人即视为进行一次试验, 试验有四种结果, 每种结果发生的概率分别是 0.40.20.10.30.4 、 0.2 、 0.1 、 0.3. 重复进行 4 次试验, 则每种结果恰出现一次的概率是

P(X1=X2=X3=X4=1)=4!0.40.20.10.3=0.0576P\left( X_1=X_2=X_3=X_4=1 \right) =4!\cdot 0.4\cdot 0.2\cdot 0.1\cdot 0.3=0.0576

2、 袋中有 mm 个白球 与 nn 个黑球, 现有放回摸球直到摸到白球停止, 则摸到白球之前黑球的个数的数学期望是____.

Solution: nm\frac{n}{m}

XX 表示第一次摸到白球时的总摸球数, 则 XGe(mn+m)X\sim Ge\left( \frac{m}{n+m} \right), 所求即 EX1=n+mm1=nmEX-1=\frac{n+m}{m}-1=\frac{n}{m}

3、 随机变量 XX 的概率密度函数是 f(x)=kexp{x28},x>0f(x)=k \exp \left\{-\frac{x^2}{8}\right\}, x>0, 则 k=k=____.

Solution: 12π\frac{1}{\sqrt{2\pi}}

由于

0+ex28dx=t=x220+et2d(22t)=220+et2dt=2Γ(12)=2π\int_0^{+\infty}{e^{-\frac{x^2}{8}}\text{d}x}\xlongequal{t=\frac{x}{2\sqrt{2}}}\int_0^{+\infty}{e^{-t^2}\text{d}\left( 2\sqrt{2}t \right)}=2\sqrt{2}\int_0^{+\infty}{e^{-t^2}\text{d}t}=\sqrt{2}\cdot \Gamma \left( \frac{1}{2} \right) =\sqrt{2\pi}

根据概率密度函数的正则性, 有 k=12πk=\frac{1}{\sqrt{2\pi}}.

4、 随机变量 XX 的概率密度函数为 f(x)=38x2,0<x<2f(x)=\frac{3}{8} x^2, 0<x<2, 则 E(1X2)E\left(\frac{1}{X^2}\right)____.

Solution: 34\frac{3}{4}

直接计算, E(1X2)=0238dx=34E\left( \frac{1}{X^2} \right) =\int_0^2{\frac{3}{8}\text{d}x}=\frac{3}{4}.

5、 X1,,XnX_1, \cdots, X_n 是来自总体 N(μ,σ2)N\left(\mu, \sigma^2\right) 的简单随机样本, 其中 σ2\sigma^2 已知, 则对于假设检验问题 H0:μ=1H_0: \mu=1 vs H1:μ>1H_1: \mu>1, 显著性水平为 α\alpha 的 UMP 拒绝域是____, 该检验在 μ=2\mu=2 时的功效是____.

Solution: {n(Xˉ1)σz1α}\left\{ \frac{\sqrt{n}\left( \bar{X}-1 \right)}{\sigma}\ge z_{1-\alpha} \right\}, 1Φ(z1αnσ)1-\Phi \left( z_{1-\alpha}-\frac{\sqrt{n}}{\sigma} \right)

根据Karlin-Rubin定理, 该正态总体均值检验的UMP拒绝域是 W={n(Xˉ1)σz1α}W=\left\{ \frac{\sqrt{n}\left( \bar{X}-1 \right)}{\sigma}\ge z_{1-\alpha} \right\}.

μ=2\mu = 2 时, 功效

ρ(2)=Pμ=2(n(Xˉ1)σz1α)=Pμ=2(n(Xˉ2)σz1αnσ)=1Φ(z1αnσ)\rho \left( 2 \right) =P_{\mu =2}\left( \frac{\sqrt{n}\left( \bar{X}-1 \right)}{\sigma}\ge z_{1-\alpha} \right) =P_{\mu =2}\left( \frac{\sqrt{n}\left( \bar{X}-2 \right)}{\sigma}\ge z_{1-\alpha}-\frac{\sqrt{n}}{\sigma} \right) =1-\Phi \left( z_{1-\alpha}-\frac{\sqrt{n}}{\sigma} \right)

6、 X1,,XnX_1, \cdots, X_n 是来自泊松分布 Poisson(λ){Poisson}(\lambda) 总体的简单随机样本, 设 θ=lnλ\theta=\ln \lambda, 则 θ\theta 的最大似然估计是 θ^=\hat{\theta}= ____, n(θ^θ)\sqrt{n}(\hat{\theta}-\theta) 的极限分布是 ____.

Solution: lnXˉ\ln \bar{X}, N(0,1λ)N\left( 0,\frac{1}{\lambda} \right)

λ\lambda 的 MLE 是 Xˉ\bar{X}, 根据 MLE 的不变性, 则 θ\theta 的 MLE 是 lnXˉ\ln \bar{X}.

由于 n(Xˉλ)N(0,λ)\sqrt{n}\left( \bar{X}-\lambda \right) \longrightarrow N\left( 0,\lambda \right), 用 Delta 方法, 取 g(x)=lnxg(x) = \ln x, 则 n(g(Xˉ)g(λ))N(0,λ[g(λ)]2)\sqrt{n}\left( g\left( \bar{X} \right) -g\left( \lambda \right) \right) \longrightarrow N\left( 0,\lambda \cdot \left[ g'\left( \lambda \right) \right] ^2 \right), 即

n(θ^θ)N(0,1λ).\sqrt{n}\left( \hat{\theta}-\theta \right) \longrightarrow N\left( 0,\frac{1}{\lambda} \right) .

7、现对一组数据进行描述性统计, 绘制出下面的箱线图, 则图中 a,b,ca, b, c 三个纵坐标对应的统计量分别是 ____, ____, ____.

Solution: 下四分位数, 中位数, 上四分位数

8、 对于某项 nn 重伯努利试验, 现观测到事件发生了 n1n-1 次, 则对于假设检验问题 H0:p=1/2,H1:p>1/2H_0: p=1 / 2, H_1: p> 1 / 2, 当前的 pp 值是 ____.

Solution: n+12n\frac{n+1}{2^n}

直接计算 pp 值:

Pp=12(Xn1)=Cnn1(12)n+Cnn(12)n=n+12nP_{p=\frac{1}{2}}\left( X\ge n-1 \right) =C_{n}^{n-1}\left( \frac{1}{2} \right) ^n+C_{n}^{n}\left( \frac{1}{2} \right) ^n=\frac{n+1}{2^n}

9、 现有三组数据进行方差分析, 样本量均为 nn, 试用每一组的样本方差Si2,i=1,2,3S_i^2, i = 1,2,3 和每一组的组内均值 Yˉi,i=1,2,3\bar{Y}_i, i = 1,2,3 以及总均值 Yˉˉ\bar{\bar{Y}} 来给出组内均方 (MSW) 和 组间均方 (MSB) 的表达式, 它们分别是 ____ 和 ____

Solution: i=13Si23\frac{\sum_{i=1}^3{S_{i}^{2}}}{3}, ni=13(YˉiYˉˉ)22\frac{n\sum_{i=1}^3{\left( \bar{Y}_i-\bar{\bar{Y}} \right) ^2}}{2}

组内平方和是 SSW=i=13j=1n(YijYˉi)2=(n1)i=13Si2SSW=\sum_{i=1}^3{\sum_{j=1}^n{\left( Y_{ij}-\bar{Y}_i \right) ^2}}=\left( n-1 \right) \sum_{i=1}^3{S_{i}^{2}}, 自由度 dfW=3n3df_W=3n-3, 因此组间均方

MSW=(n1)i=13Si23n3=i=13Si23MSW=\frac{\left( n-1 \right) \sum_{i=1}^3{S_{i}^{2}}}{3n-3}=\frac{\sum_{i=1}^3{S_{i}^{2}}}{3}

组间平方和是 SSB=i=13n(YˉiYˉˉ)2SSB=\sum_{i=1}^3{n\left( \bar{Y}_i-\bar{\bar{Y}} \right) ^2}, 自由度 dfB=2df_B=2, 因此组内均方

MSB=ni=13(YˉiYˉˉ)22MSB=\frac{n\sum_{i=1}^3{\left( \bar{Y}_i-\bar{\bar{Y}} \right) ^2}}{2}

三、解答题(3 题, 共 72 分)

1(22 分)、 X1,,XnX_1, \cdots, X_n 是来自两点分布 B(1,p)B(1, p) 总体的简单随机样本, 记函数 g(p)=p2(1p)g(p)=p^2(1-p), 已知样本量 n4n \geq 4, 则
(1) (4分) 证明 X1X2(1X3)X_1 X_2\left(1-X_3\right)g(p)g(p) 的无偏估计量
(2) (8分) 计算 X1X2(1X3)X_1 X_2\left(1-X_3\right) 的相对效率
(3) (10分) 试给出 g(p)g(p) 的一致最小方差无偏估计

Solution:

(1) 计算期望, E[X1X2(1X3)]=(EX1)(EX2)[E(1X3)]=p2(1p)E\left[ X_1X_2\left( 1-X_3 \right) \right] =\left( EX_1 \right) \left( EX_2 \right) \left[ E\left( 1-X_3 \right) \right] =p^2\left( 1-p \right), 故X1X2(1X3)X_1 X_2\left(1-X_3\right)g(p)g(p) 的无偏估计.

(2) 先计算 pp 的 Fisher信息量, I(p)=E[2logf(X;p)p2]=1p(1p)I\left( p \right) =-E\left[ \frac{\partial ^2\log f\left( X;p \right)}{\partial p^2} \right] =\frac{1}{p\left( 1-p \right)}, 则 g(p)g(p) 的无偏估计的方差的 C-R 下界是

[g(p)]2nI(p)=p(1p)n(2p3p2)2=p(1p)(2p3p2)2n\frac{\left[ g'\left( p \right) \right] ^2}{nI\left( p \right)}=\frac{p\left( 1-p \right)}{n}\cdot \left( 2p-3p^2 \right) ^2=\frac{p\left( 1-p \right) \left( 2p-3p^2 \right) ^2}{n}

再计算 U=X1X2(1X3)U = X_1 X_2\left(1-X_3\right) 的方差, 有

EU2=E(X12X22(1X3)2)=(EX12)(EX12)[E(1X3)2]=pp(1p)=p2(1p),\begin{aligned} EU^2=E\left( X_{1}^{2}X_{2}^{2}\left( 1-X_3 \right) ^2 \right) & =\left( EX_{1}^{2} \right) \left( EX_{1}^{2} \right) \left[ E\left( 1-X_3 \right) ^2 \right] \\ &=p\cdot p\cdot \left( 1-p \right) =p^2\left( 1-p \right), \end{aligned}

Var(U)=p2(1p)[p2(1p)]2=p2(1p)[1p2(1p)].Var\left( U \right) =p^2\left( 1-p \right) -\left[ p^2\left( 1-p \right) \right] ^2=p^2\left( 1-p \right) \left[ 1-p^2\left( 1-p \right) \right].

因此该估计量的效率是

Eff(U)=CR下界Var(U)=1np(1p)(2p3p2)2p2(1p)[1p2(1p)]=1np(23p)21p2+p3Eff\left( U \right) =\frac{CR\text{下界}}{Var\left( U \right)}=\frac{1}{n}\frac{p\left( 1-p \right) \left( 2p-3p^2 \right) ^2}{p^2\left( 1-p \right) \left[ 1-p^2\left( 1-p \right) \right]}=\frac{1}{n}\frac{p\left( 2-3p \right) ^2}{1-p^2+p^3}

(3) 样本的联合分布是

f(x1,,xn;p)=pi=1nXi(1p)ni=1nXi=enlog(1p)e(logplog(1p))i=1nXif\left( x_1,\cdots ,x_n;p \right) =p^{\sum_{i=1}^n{X_i}}\left( 1-p \right) ^{n-\sum_{i=1}^n{X_i}}=e^{n\log \left( 1-p \right)}e^{\left( \log p-\log \left( 1-p \right) \right) \sum_{i=1}^n{X_i}}

是一个完备的单参数指数族分布, 参数 pp 的充分完备统计量是 T=i=1nXiT = \sum_{i=1}^n X_i. 而显然估计量 φ(T)=E[X1X2(1X3)T]\varphi \left( T \right) =E\left[ X_1X_2\left( 1-X_3 \right) \mid T \right] 是基于 TT 给出的 g(p)g(p) 的无偏估计, 根据 L-S 定理, 它是 g(p)g(p) 的UMVUE. 下面求 φ(T)\varphi \left( T \right) 的具体分布:

注意到 X1X2(1X3)=1X_1 X_2 (1-X_3) = 1 当且仅当 X1=1,X2=1,X3=0X_1 = 1, X_2 = 1, X_3 = 0, 否则 X1X2(1X3)=0X_1 X_2 (1-X_3) = 0, 因此

φ(t)=E[X1X2(1X3)T=t]=P(X1=1,X2=1,X3=0i=1nXi=t)\varphi \left( t \right) =E\left[ X_1X_2\left( 1-X_3 \right) \mid T=t \right] =P\left( X_1=1,X_2=1,X_3=0\mid \sum_{i=1}^n{X_i}=t \right)

显然当 t=0,1t = 0, 1 时, φ(t)=0\varphi(t) = 0, 当 t=2,3,,nt = 2,3,\cdots,n 时, 有

φ(t)=P(X1=1,X2=1,X3=0,i=4nXi=t2)P(i=1nXi=t)=pp(1p)Cn3t2pt2(1p)nt1Cntpt(1p)nt=(n3)!(t2)!(nt1)!n!t!(nt)!=t(t1)(nt)n(n1)(n2).\begin{aligned} \varphi \left( t \right) & =\frac{P\left( X_1=1,X_2=1,X_3=0,\sum_{i=4}^n{X_i}=t-2 \right)}{P\left( \sum_{i=1}^n{X_i}=t \right)} \\ &=\frac{p\cdot p\cdot \left( 1-p \right) \cdot C_{n-3}^{t-2}p^{t-2}\left( 1-p \right) ^{n-t-1}}{C_{n}^{t}p^t\left( 1-p \right) ^{n-t}} \\ &=\frac{\frac{\left( n-3 \right) !}{\left( t-2 \right) !\left( n-t-1 \right) !}}{\frac{n!}{t!\left( n-t \right) !}}=\frac{t\cdot \left( t-1 \right) \cdot \left( n-t \right)}{n\cdot \left( n-1 \right) \cdot \left( n-2 \right)}. \end{aligned}

2、(26 分) 现有两组简单随机样本, 其中 X1,,XmN(μ1,σ2)X_1, \cdots, X_m \sim N\left(\mu_1, \sigma^2\right), Y1,,YnN(μ2,σ2)Y_1, \cdots, Y_n \sim N\left(\mu_2, \sigma^2\right), 其中 μ1,μ2\mu_1, \mu_2 均为末知参数, 记 θ=μ1μ2\theta=\mu_1-\mu_2, 试解决以下问题:
(1) (8分) 若 σ2\sigma^2 未知, 构建 θ\theta 的枢轴量 TT, 并推导它的分布;
(2) (8分) 若 σ2\sigma^2 未知, 对假设检验问题 H0:θ=0H_0: \theta=0 vs H1:θ0H_1: \theta \neq 0, 给出一个显著性水平为 α\alpha 的拒绝域, 并利用反转接受域的方法给出 θ\theta 一个的 (1α)100%(1-\alpha) 100 \% 水平置信区间;
(3) (10分) 若 σ2\sigma^2 已知, 求 (2) 中假设检验问题的广义似然比检验(GLRT), 并判断该检验是否为一致最优势检验 (UMPT).

Solution:

(1) 枢轴量是 T=XˉYˉSw1m+1nT=\frac{\bar{X}-\bar{Y}}{S_w\sqrt{\frac{1}{m}+\frac{1}{n}}}, 其中
Xˉ=1mi=1mXi,Yˉ=1ni=1nYi\bar{X}=\frac{1}{m}\sum_{i=1}^m{X_i},\bar{Y}=\frac{1}{n}\sum_{i=1}^n{Y_i}, 并记 SX2=1m1i=1m(XiXˉ)2S_{X}^{2}=\frac{1}{m-1}\sum_{i=1}^m{\left( X_i-\bar{X} \right) ^2}SY2=1n1i=1n(YiYˉ)2S_{Y}^{2}=\frac{1}{n-1}\sum_{i=1}^n{\left( Y_i-\bar{Y} \right) ^2} 是两组样本的样本方差, 有

Sw2=(m1)SX2+(n1)SY2m+n2.S_{w}^{2}=\frac{\left( m-1 \right) S_{X}^{2}+\left( n-1 \right) S_{Y}^{2}}{m+n-2}.

而枢轴量的分子, 根据正态分布的性质, 有 XˉYˉN(θ,(1m+1n)σ2)\bar{X}-\bar{Y}\sim N\left( \theta ,\left( \frac{1}{m}+\frac{1}{n} \right) \sigma ^2 \right), 对于 (m+n2)Sw2σ2\frac{\left( m+n-2 \right) S_{w}^{2}}{\sigma ^2}, 根据 Fisher 引理, 它们二者之间是独立的. 因此有

T=XˉYˉθSw1m+1nt(n+m2).T=\frac{\bar{X}-\bar{Y}-\theta}{S_w\sqrt{\frac{1}{m}+\frac{1}{n}}}\sim t\left(n+m-2 \right).

当原假设成立时, 有

T=XˉYˉSw1m+1nt(n+m2)T=\frac{\bar{X}-\bar{Y}}{S_w\sqrt{\frac{1}{m}+\frac{1}{n}}}\sim t\left( n+m-2 \right)

是自由度为 $n+m-2 $ 的中心 t 分布.

(2) 利用枢轴量给出拒绝域, 一个显著性水平为 α\alpha 的拒绝域是

W={Tt1α2(n+m2)}.W=\left\{ \left| T \right|\ge t_{1-\frac{\alpha}{2}}\left( n+m-2 \right) \right\}.

反转接受域, 可以得到 (1α)100%(1-\alpha) 100 \% 水平的置信区间, 是

θ(XˉYˉ)±Sw1m+1nt1α2(n+m2).\theta \in \left( \bar{X}-\bar{Y} \right) \pm S_w\sqrt{\frac{1}{m}+\frac{1}{n}}\cdot t_{1-\frac{\alpha}{2}}\left( n+m-2 \right) .

(3) 似然函数是

L(μ1,μ2;{Xi},{Yi})=(2πσ2)m+n2e12σ2{i=1m(Xiμ1)2+i=1n(Yiμ2)2},L\left( \mu _1,\mu _2;\left\{ X_i \right\} ,\left\{ Y_i \right\} \right) =\left( 2\pi \sigma ^2 \right) ^{-\frac{m+n}{2}}e^{-\frac{1}{2\sigma ^2}\left\{ \sum_{i=1}^m{\left( X_i-\mu _1 \right) ^2}+\sum_{i=1}^n{\left( Y_i-\mu _2 \right) ^2} \right\}},

在原假设参数空间中 (μ=μ1=μ2\mu = \mu_1 = \mu_2 ), 有 μ^0=mXˉ+nYˉm+n\hat{\mu}_0=\frac{m\bar{X}+n\bar{Y}}{m+n}, 在全参数空间中 μ^1=Xˉ,μ^2=Yˉ\hat{\mu}_1=\bar{X},\hat{\mu}_2=\bar{Y}.

因此广义似然比是

Λ=supΘ0L(μ1,μ2)supΘL(μ1,μ2)=L(μ^0,μ^0)L(μ^1,μ^2)=exp{12σ2[i=1mXi22mXˉμ^0+mμ^02+i=1nYi22nYˉμ^0+nμ^02]}exp{12σ2[i=1mXi2mXˉ2+i=1nYi2nYˉ2]}=exp{12σ2[m(Xˉμ^0)2+n(Yˉμ^0)2]}=exp{12σ2[m(n(XˉYˉ)m+n)2+n(m(XˉYˉ)m+n)2]}=exp{12σ2[mnm+n(XˉYˉ)2]}.\begin{aligned} \Lambda =\frac{\sup_{\Theta _0}L\left( \mu _1,\mu _2 \right)}{\sup_{\Theta}L\left( \mu _1,\mu _2 \right)}&=\frac{L\left( \hat{\mu}_0,\hat{\mu}_0 \right)}{L\left( \hat{\mu}_1,\hat{\mu}_2 \right)} \\ &=\frac{\exp \left\{ -\frac{1}{2\sigma ^2}\left[ \sum_{i=1}^m{X_{i}^{2}}-2m\bar{X}\hat{\mu}_0+m\hat{\mu}_{0}^{2}+\sum_{i=1}^n{Y_{i}^{2}}-2n\bar{Y}\hat{\mu}_0+n\hat{\mu}_{0}^{2} \right] \right\}}{\exp \left\{ -\frac{1}{2\sigma ^2}\left[ \sum_{i=1}^m{X_{i}^{2}}-m\bar{X}^2+\sum_{i=1}^n{Y_{i}^{2}}-n\bar{Y}^2 \right] \right\}} \\ &=\exp \left\{ -\frac{1}{2\sigma ^2}\left[ m\left( \bar{X}-\hat{\mu}_0 \right) ^2+n\left( \bar{Y}-\hat{\mu}_0 \right) ^2 \right] \right\} \\ &=\exp \left\{ -\frac{1}{2\sigma ^2}\left[ m\left( \frac{n\left( \bar{X}-\bar{Y} \right)}{m+n} \right) ^2+n\left( \frac{m\left( \bar{X}-\bar{Y} \right)}{m+n} \right) ^2 \right] \right\} \\ &=\exp \left\{ -\frac{1}{2\sigma ^2}\left[ \frac{mn}{m+n}\left( \bar{X}-\bar{Y} \right) ^2 \right] \right\} . \end{aligned}

因此似然比拒绝域

{Λλ0}{(XˉYˉ)2c0}{(XˉYˉ)2(1m+1n)σ2c}\left\{ \Lambda \le \lambda _0 \right\} \Leftrightarrow \left\{ \left( \bar{X}-\bar{Y} \right) ^2\ge c_0 \right\} \Leftrightarrow \left\{ \frac{\left( \bar{X}-\bar{Y} \right) ^2}{\left( \frac{1}{m}+\frac{1}{n} \right) \sigma ^2}\ge c \right\}

注意到在原假设成立时 (XˉYˉ)2(1m+1n)σ2χ2(1)\frac{\left( \bar{X}-\bar{Y} \right) ^2}{\left( \frac{1}{m}+\frac{1}{n} \right) \sigma ^2}\sim \chi ^2\left( 1 \right), 为使检验的水平恰为 α\alpha, 取 c=χ1α2(1)c = \chi^2_{1-\alpha}(1).

该检验不是 UMP 检验, 当 θ=1\theta = 1 时, 考虑另外一个拒绝域 W2={XˉYˉ1m+1nσ>z1α}W_2=\left\{ \frac{\bar{X}-\bar{Y}}{\sqrt{\frac{1}{m}+\frac{1}{n}}\sigma}>z_{1-\alpha} \right\} 该拒绝域是由 NP 引理给出的在 θ=1\theta = 1 处唯一功效最大的拒绝域, 因此一定有 ρW(1)<ρW2(1)\rho _W\left( 1 \right) <\rho _{W_2}\left( 1 \right). 故该广义似然比检验不是 UMPT.

3、 (24分) 设 X1,,XnX_1, \cdots, X_n 是来自均匀分布总体 U(θ,0)U(-\theta, 0) 的简单随机样本, 其中末知参数 θ>0\theta>0, 考虑假设检验问题 H0:θ=θ0H_0: \theta=\theta_0 vs H1:θθ0H_1: \theta \neq \theta_0.
(1) (6分) 求广义似然比检验统计量 Λ\Lambda;
(2) (8分) 当原假设成立时, 求 2logΛ-2 \log \Lambda 的精确分布;
(3) (10分) 给出一个显著性水平为 α\alpha 的检验, 并写出功效函数.

Solution:

(1) 似然函数是

L(θ)=1θnI{θX(1)}.L\left( \theta \right) =\frac{1}{\theta ^n}I_{\left\{ \theta \ge -X_{\left( 1 \right)} \right\}}.

在原假设参数空间中, θ\theta 的 MLE 是 θ0\theta_0. 在全参数空间中, θ\theta 的 MLE 是 X(1)-X_{(1)}.

因此似然比统计量是

Λ=supΘ0L(θ)supΘL(θ)=L(θ0)L(X(1))={(X(1))nθ0n,X(1)<θ0,0,0<θ0X(1).\Lambda =\frac{\sup_{\Theta _0}L\left( \theta \right)}{\sup_{\Theta}L\left( \theta \right)}=\frac{L\left( \theta _0 \right)}{L\left( -X_{\left( 1 \right)} \right)}=\begin{cases} \frac{\left( -X_{\left( 1 \right)} \right) ^n}{\theta _{0}^{n}},& -X_{\left( 1 \right)}<\theta _0,\\ 0,& 0<\theta _0\le -X_{\left( 1 \right)}.\\ \end{cases}

(2) 考虑 Yi=XiU(0,θ)Y_i = -X_i \sim U(0,\theta), 且 X(1)=Y(n)-X_{\left( 1 \right)}=Y_{\left( n \right)}, 而 Z=Y(n)θBeta(n,1)Z = \frac{Y_{\left( n \right)}}{\theta}\sim Beta\left( n,1 \right).

因此当原假设成立时

T=2logΛ=2log(X(1))nθ0n=2nlogY(n)θ=2nlogZT = -2\log \Lambda =-2\log \frac{\left( -X_{\left( 1 \right)} \right) ^n}{\theta _{0}^{n}}=-2n\log \frac{Y_{\left( n \right)}}{\theta} = -2n \log Z

根据随机变量函数的分布, 可算得 TT 的密度函数是

fT(t)=12net2nn(et2n)n1, 0<et2n<1=12et2, t>0\begin{aligned} f_T\left( t \right) & =\left| -\frac{1}{2n}e^{-\frac{t}{2n}} \right|\cdot n\cdot \left( e^{-\frac{t}{2n}} \right) ^{n-1},\ 0<e^{-\frac{t}{2n}}<1 \\ &=\frac{1}{2}e^{-\frac{t}{2}},\ t>0 \end{aligned}

即参数为 1/21/2 的指数分布. 或自由度为 22 的卡方分布.

(3) 考虑似然比检验, 有似然比拒绝域

W={Λ<λ0}={X(1)<a}{X(1)>b}W=\left\{ \Lambda <\lambda _0 \right\} =\left\{ -X_{\left( 1 \right)}<a \right\} \cup \left\{ -X_{\left( 1 \right)}>b \right\}

考虑到当 θ1>θ0\theta_1 > \theta_0 时恒有 Λ=0\Lambda = 0, 因此可取 b=θ0b = \theta_0. 为使检验的水平是 α\alpha, 即

α=Pθ0(X(1)<a)+Pθ0(X(1)>θ0)=Pθ0(Y(n)θ0<aθ0)=0aθ0nyn1dy=(aθ0)n\alpha =P_{\theta _0}\left( -X_{\left( 1 \right)}<a \right) +P_{\theta _0}\left( -X_{\left( 1 \right)}>\theta _0 \right) =P_{\theta _0}\left( \frac{Y_{\left( n \right)}}{\theta _0}<\frac{a}{\theta _0} \right) =\int_0^{\frac{a}{\theta _0}}{ny^{n-1}\text{d}y}=\left( \frac{a}{\theta _0} \right) ^n

a=θ0α1na=\theta _0\alpha ^{\frac{1}{n}}. 综上所述, 似然比拒绝域是

W={X(1)<θ0α1n}{X(1)>θ0}.W=\left\{ -X_{\left( 1 \right)}<\theta _0\alpha ^{\frac{1}{n}} \right\} \cup \left\{ -X_{\left( 1 \right)}>\theta _0 \right\} .

再计算检验的功效, 当 θ<θ0α1n\theta < \theta_0 \alpha^{\frac{1}{n}} 时, 有

ρW(θ)=Pθ(X(1)<θ0α1n)+Pθ(X(1)>θ0)=1+0=1\begin{aligned} \rho _W\left( \theta \right) &=P_{\theta}\left( -X_{\left( 1 \right)}<\theta _0\alpha ^{\frac{1}{n}} \right) +P_{\theta}\left( -X_{\left( 1 \right)}>\theta _0 \right) \\ &=1+0=1 \end{aligned}

0<θ<θ00 < \theta < \theta_0 时, 有

ρW(θ)=Pθ(X(1)<θ0α1n)+Pθ(X(1)>θ0)=Pθ(Y(n)θ<θ0α1nθ)+Pθ(Y(n)θ>θ0θ)=0θ0α1nθnyn1dy+0=(θ0θ)nα\begin{aligned} \rho _W\left( \theta \right) &=P_{\theta}\left( -X_{\left( 1 \right)}<\theta _0\alpha ^{\frac{1}{n}} \right) +P_{\theta}\left( -X_{\left( 1 \right)}>\theta _0 \right) \\ &=P_{\theta}\left( \frac{Y_{\left( n \right)}}{\theta}<\frac{\theta _0\alpha ^{\frac{1}{n}}}{\theta} \right) +P_{\theta}\left( \frac{Y_{\left( n \right)}}{\theta}>\frac{\theta _0}{\theta} \right) \\ &=\int_0^{\frac{\theta _0\alpha ^{\frac{1}{n}}}{\theta}}{ny^{n-1}\text{d}y}+0 \\ &=\left( \frac{\theta _0}{\theta} \right) ^n\alpha \end{aligned}

θθ0\theta \ge \theta_0 时, 有

ρW(θ)=Pθ(X(1)<θ0α1n)+Pθ(X(1)>θ0)=Pθ(Y(n)θ<θ0α1nθ)+Pθ(Y(n)θ>θ0θ)=0θ0α1nθnyn1dy+θ0θ1nyn1dy=(θ0θ)nα+(1(θ0θ)n)=1(θ0θ)n(1α).\begin{aligned} \rho _W\left( \theta \right) &=P_{\theta}\left( -X_{\left( 1 \right)}<\theta _0\alpha ^{\frac{1}{n}} \right) +P_{\theta}\left( -X_{\left( 1 \right)}>\theta _0 \right) \\ &=P_{\theta}\left( \frac{Y_{\left( n \right)}}{\theta}<\frac{\theta _0\alpha ^{\frac{1}{n}}}{\theta} \right) +P_{\theta}\left( \frac{Y_{\left( n \right)}}{\theta}>\frac{\theta _0}{\theta} \right) \\ &=\int_0^{\frac{\theta _0\alpha ^{\frac{1}{n}}}{\theta}}{ny^{n-1}\text{d}y}+\int_{\frac{\theta _0}{\theta}}^1{ny^{n-1}\text{d}y} \\ &=\left( \frac{\theta _0}{\theta} \right) ^n\alpha +\left( 1-\left( \frac{\theta _0}{\theta} \right) ^n \right) =1-\left( \frac{\theta _0}{\theta} \right) ^n\left( 1-\alpha \right) . \end{aligned}