中山大学-432统计学-2016年

一、选择题(每小题3分, 共60分)

随机事件 $A, B, C$ 中恰有两个事件发生的复合事件为()
(A) $(A \cap B) \cup(A \cap C) \cup(B \cap C)$
(B) $\overline{A \cup B \cup C}$
(C) $(A \cap B \cap \bar{C}) \cup(A \cap \bar{B} \cap C) \cup(\bar{A} \cap B \cap C)$
(D) $(A \cap \bar{B} \cap \bar{C}) \cup(\bar{A} \cap \bar{B} \cap C) \cup(\bar{A} \cap B \cap \bar{C})$

Solution: C
$\mathrm{A} 、 \mathrm{~B} 、 \mathrm{C}$ 中恰有两个不发生也就是 $\mathrm{AB}$ 发生 $\mathrm{C}$ 不发生或者 $\mathrm{AC}$ 发生 $\mathrm{B}$ 不发生或者 $\mathrm{BC}$ 发生 A 不发生, 因此选项 C 正确.
选项 A 表示: 三个事件至少有两个发生.
选项 B 表示: 三个事件都不发生
选项 D 表示: 三个事件中恰有一个事件发生

假设随机事件 $A, B$ 都既不是不可能事件也不是必然事件, 并且 $A \neq B, \bar{A} \neq B$ 。包含随机事件 $A, B$ 的最小的 $\sigma$ 域中元素的个数为()
(A) 4
(B) 8
(C) 16
(D) 32

Solution: 无答案
考虑 $A B \neq \phi$ , 则将 $\mathrm{A}, \mathrm{B}$ 两个事件分解为互不相交的子事件 $\{A B, A \bar{B}, \bar{A} B, \bar{A} \bar{B}\}$ , 它们是完备事件组, 只需考虑该四个事件的并运算, 分别取其中 $0,1,2,3,4$ 个进行并集运算, 共有 $C_{4}^{0}+C_{4}^{1}+C_{4}^{2}+C_{4}^{3}+C_{4}^{4}=2^{4}=16$ 种情况.
若 $A B=\phi$ , 则此时的完备事件组是 $\{A, B, \overline{A \cup B}\}$ , 所以最小事件域中共有 $2^{3}=8$ 个元素.

以下哪条是概率的公理化定义中要求的? ()
(A) 有限可加性
(B) 可列可加性
(C) 上连续性
(D) 下连续性

Solution: B
概率的公理性定义为非负性、规范性和可列可加性. 故选项 B 正确

从 $(0,1)$ 中独立随机地取两个数 $b, c$ , 则方程 $x^{2}+b x+c=0$ 有实根的概率为( )
(A) $1 / 24$
(B) $1 / 12$
(C) $1 / 6$
(D) $1 / 4$

Solution: B
方程有实根的充要条件为: $b^{2}-4 a c \geqslant 0$ , 该不等式成立的概率为函数 $y=\frac{x^{2}}{4}$ 与正方形 $[0,1] \times[0,1]$ 相交的下半部分面积, 该面积 $S=\int_{0}^{1} \frac{x^{2}}{4} \mathrm{~d} x=\frac{1}{12}$ , 故选项 B 正确

下面哪个选项不是随机事件 $A, B(0<P(A), P(B)<1)$ 相互独立的充要条件 ( )
(A) $P(A \mid B)=P(A \mid \bar{B})$
(B) $P(A \mid B)+P(\bar{A} \mid \bar{B})=1$
(C) $P(A \cap \bar{B})=P(A) P(\bar{B})$
(D) $P(A \mid B)+P(A \mid \bar{B})=1$

Solution: D
$\mathrm{A}$ 与 $\mathrm{B}$ 相互独立有 $P(A B)=P(A) P(B)$
选项 A:

\begin{aligned} \frac{P(A B)}{P(B)} &=\frac{P(A \bar{B})}{P(\bar{B})} \\ \Leftrightarrow P(A B) P(\bar{B}) &=P(A \bar{B}) \cdot P(B) \\ \Leftrightarrow P(A B) \cdot[1-P(B)] &=[P(A)-P(A B)] \cdot P(B) \\ \Leftrightarrow P(A B)-P(A B) P(B) &=P(A) P(B)-P(A B) P(B) \\ \Leftrightarrow P(A B) &=P(A) P(B) \end{aligned}

选项 $\mathrm{B}$ :

\begin{aligned} P(A \mid B)+P(\bar{A} \mid \bar{B}) &=P(A \mid B)+1-P(A \mid \bar{B})=1 \\ P(A \mid B) &=P(A \mid \bar{B}) \end{aligned}

由选项 A 可知它是相互独立的充分必要条件
选项 C：由独立的定义显然成立
选项 $\mathrm{D}$ :

\begin{aligned} P(A \mid B)+P(A \mid \bar{B}) &=P(A \mid B)+1-P(\bar{A} \mid \bar{B})=1 \\ P(A \mid B) &=P(\bar{A} \mid \bar{B}) \\ P(\bar{A} \bar{B}) P(B) &=P(A B) \cdot P(\bar{B}) \end{aligned}

若 $\mathrm{AB}$ 独立, 上式化简得到: $P(A)=P(\bar{A})$ , 不恒成立. 故选项 $\mathrm{D}$ 错误

已知 $P(A)=0.4, P(B)=0.25, P(A-B)=0.25$ , 则 $P(A \cup B)=($ )
(A) $0.4$
(B) $0.5$
(C) $0.6$
(D) $0.65$

Solution: B

P(A-B)=P(A)-P(A B) \text {, 故 } P(A B)=P(A)-P(A-B)=0.15

得到: $P(A \cup B)=P(A)+P(B)-P(A B)=0.4+0.25-0.15=0.5$
选项 $\mathrm{B}$ 正确

到达银行的顾客分为两类, 一类是办理现金业务, 一类是办理非现金业务。假设在特定时间内这两类顾客的到达人数服从泊松分布, 并相互独立。已知平均每个小时 5 个人办理现金业务, 2 个人办理非现金业务, 则在一个小时内没有人到达银行的概率为 ()
(A) $e^{-2}$
(B) $e^{-5}$
(C) $e^{-7}$
(D) $e^{-14}$

Solution: C
参数为 $\lambda$ 的泊松分布的概率质量函数为: $P(X=k)=\frac{\lambda^{k}}{k !} e^{-\lambda}, k=0,1, \cdots$
由题可知一小时内办理现金业务和非现金业务的人数分别服从参数为 5 和 2 的泊松分布, 一小时内没人办理现金业务的概率为: $\frac{5^{0}}{0 !} e^{-5}=e^{-5}$ , 一小时内没人办理非现金业务的概率为: $\frac{2^{0}}{0 !} e^{-2}=e^{-2}$ , 且两件事件相互独立, 所以一小时内没有人到达银行的概率为 $e^{-5} \cdot e^{-2}=e^{-7}$ , 选项 $\mathrm{C}$ 正确

选择题有四个答案, 只有一个是正确的。懂的学生能够准确回答, 不懂的学生从中四个答案中随机选择。假定一个学生懂与不懂的概率都是 $0.5$ , 则答对的学生对该题不懂的概率为()
(A) $0.1$
(B) $0.2$
(C) $0.4$
(D) $0.5$

Solution: B

P(\text { 答对 })=P(\text { 懂 })+P(\text { (答对且不懂 })=0.5+0.5 \cdot 0.25=0.625

所以 $P($ 不懂 $\mid$ 答对 $)=\frac{P(\text { 答对且不懂 })}{P(\text { 答对 })}=\frac{0.125}{0.625}=0.2$ , 选项 B 正确

设 $X \sim B(100,0.2)$ , 设 $\Phi(x)$ 为标准正态分布的累积分布函数, 则 $X>28$ 的概率大约是 ()
(A) $1-\Phi(2)$
(B) $1-\Phi(1)$
(C) $\Phi(2)$
(D) $2 \Phi(2)-1$

Solution: A
根据中心极限定理

P(\mathrm{X}>28)=P\left(\frac{X-20}{4}>\frac{28-20}{4}\right)=P\left(\frac{X-20}{4}>2\right) \approx 1-\Phi(2)

设 $(X, Y)$ 服从三角形区域 $D=\{(x, y): 0<x<y<1\}$ 上的均匀分布, 则
(A) $Y \mid X$ 服从区间 $(0,1)$ 上的均匀分布
(B) $Y$ 服从区间 $(0,1)$ 上的均匀分布
(C) $Y \mid X$ 服从区间 $(X, 1)$ 上的均匀分布
(D) $Y$ 服从区间 $(X, 1)$ 上的均匀分布

Solution: C
依题意可得: $(X, Y)$ 的联合概率密度函数为:

f(x, y)= \begin{cases}2, & (x, y) \in D \\ 0, & \text { else }\end{cases}

则 $X$ 的边际密度:

f_{X}(x)=\left\{\begin{array}{cc} \int_{x}^{1} 2 d y=2(1-x) & (x, y) \in D \\ 0 & \text { 其他 } \end{array}\right.

$Y$ 的边际密度为: $f_{Y}(y)=\left\{\begin{array}{cc}\int_{0}^{y} 2 d x=2 y & (x, y) \in D \\ 0 & \text { 其他 }\end{array}\right.$ 所以 $f_{Y \mid X}(y \mid x)=\frac{f(x, y)}{f_{X}(x)}=\frac{1}{1-x}, x<y<1$ , 故选项 C 正确

设 $X_{1}, \cdots, X_{10}$ 来自正态分布 $N\left(\mu, \sigma^{2}\right)$ 的样本, $\bar{X}=\left(X_{1}+\cdots+X_{10}\right) / 10$ , 若 $Y=a \bar{X}+b \sim N(0,1)$ , 则 ()
(A) $a=0, b=1$
(B) $a=\sqrt{10} / \sigma, b=-\sqrt{10} \mu / \sigma$
(C) $a=10 / \sigma^{2}, b=-10 \mu / \sigma^{2}$
(D) $a=1 / \sigma, b=-\mu$

Solution: B
依题意, $\bar{X} \sim N\left(\mu, \frac{\sigma^{2}}{10}\right), Y \sim N\left(a \mu+b, \frac{a^{2} \sigma^{2}}{10}\right)$ , 所以有:

\left\{\begin{array}{l} a \mu+b=0 \\ \frac{a^{2} \sigma^{2}}{10}=1 \end{array}\right.

解得: $a=\sqrt{10} / \sigma, b=-\sqrt{10} \mu / \sigma$ , 选项 B 正确

若 $X \sim N(0,1), Y \sim \chi^{2}(n)$ , 则 $t=X / \sqrt{Y / n}$ 的分布是 ()
(A) $t(n)$
(B) $N(0,1)$
(C) $t(n-1)$
(D) 不能确定

Solution: D
根据题目条件无法得知 $X$ 与 $Y$ 是否独立, 因此无法判断 $t$ 的分布.

设 $X_{i} \sim N(i-1, i), i=1,2,3$ , 且 $X_{1}, X_{2}, X_{3}$ 之间相互独立。令 $\bar{X}=\left(X_{1}+X_{2}+X_{3}\right) / 3, S^{2}=$ $\sum_{i=1}^{3}\left(X_{i}-\bar{X}\right)^{2} / 2$ , 则 ()
(A) $2 S^{2} \sum_{i=1}^{3} \frac{1}{i} \sim \chi^{2}(2)$
(B) $\sum_{i=1}^{3} \frac{\left(X_{i}-\bar{X}\right)^{2}}{i} \sim \chi^{2}(2)$
(C) $\frac{X_{1}}{\sqrt{\frac{\left(X_{2}-1\right)^{2}}{4}+\frac{\left(X_{3}-2\right)^{2}}{6}}} \sim t(2)$
(D) $\frac{\bar{X}}{S / \sqrt{3}} \sim t(2)$

Solution: C
依题意得 $X_{1} \sim N(0,1), X_{2} \sim N(1,2), X_{3} \sim N(2,3)$
所以 $\frac{X_{2}-1}{\sqrt{2}} \sim N(0,1), \frac{X_{3}-2}{\sqrt{3}} \sim N(0,1)$ , 由 $X_{1} 、 X_{2} 、 X_{3}$ 相互独立可知, $\frac{\left(X_{2}-1\right)^{2}}{2}+\frac{\left(X_{3}-2\right)^{2}}{3} \sim \chi^{2}(2)$
则 $\frac{X_{1}}{\sqrt{\frac{\left(X_{2}-1\right)^{2}}{4}+\frac{\left(X_{3}-2\right)^{2}}{6}}} \sim t(2)$ , 选项 $\mathrm{C}$ 正确

设 $X_{1}, \cdots, X_{n}$ 来自正态分布 $N\left(0, \sigma^{2}\right)$ 的简单随机样本, 则 $\sigma^{2}$ 的最大似然估计为 ()
(A) $\sum_{i=1}^{n} X_{i}^{2} / n$
(B) $\sum_{i=1}^{n}\left(X_{i}-\bar{X}\right)^{2} / n$
(C) $\sum_{i=1}^{n} X_{i}^{2} /(n-1)$
(D) $\sum_{i=1}^{n}\left(X_{i}-\bar{X}\right)^{2} /(n-1)$

Solution: A
似然函数为 $L\left(\sigma^{2}\right)=\left(2 \pi \sigma^{2}\right)^{-\frac{n}{2}} \exp \left\{-\frac{\sum_{i=1}^{n} x_{i}^{2}}{2 \sigma^{2}}\right\}$ , 将其取对数, 关于 $\sigma^{2}$ 求导并置 0 , 得到似然方程

\frac{\partial \ln L\left(\sigma^{2}\right)}{\partial \sigma^{2}}=-\frac{n}{2 \sigma^{2}}+\frac{\sum_{i=1}^{n} x_{i}^{2}}{2 \sigma^{4}}=0

解得 $\hat{\sigma}^{2}=\frac{\sum_{i=1}^{n} x_{i}^{2}}{n}$ 是 $\sigma^{2}$ 的 MLE. 故选项 A 正确

设 $\mathrm{X}_{1}, \cdots, \mathrm{X}_{25}$ 为来自均匀分布 $\mathrm{U}(\theta-1, \theta+1)$ 的简单随机样本, 其顺序统计量记为 $X_{(1)}, X_{(2)}, \cdots, X_{(25)}$ , 则下列统计量是 $\theta$ 的充分统计量的是 ()
(A) $X_{(1)}$
(B) $X_{(25)}$
(C) $\left(X_{(1)}, X_{(25)}\right)$
(D) $X_{(13)}$

Solution: C
样本的联合密度函数为:

f\left(x_{1}, x_{2}, \cdots x_{25} ; \theta\right)=\frac{1}{2^{n}} \mathbf{I}_{\left\{x_{(1)}>\theta-1\right\}} \mathbf{I}_{\left\{x_{22)}<\theta+1\right\}}

根据因子分解定理, 可知 $\theta$ 的充分统计量为 $\left(x_{(1)}, x_{(25)}\right)$ , 故选项 $\mathrm{C}$ 正确

$X_{1}, \cdots, X_{n}$ 为来自正态分布 $N(\mu, 1)$ 的简单随机样本。记 $Z_{\alpha}$ 为标准正态分布的 $100 \alpha \%$ 分位数, 则由此样本所构造的置信水平分别为 $95 \%$ 与 $90 \%$ 的双侧置信区间长度之比为()
(A) $2 \times \frac{z_{0.975}}{Z_{0.95}}$
(B) $\frac{z_{0.975}}{z_{0.95}}$
(C) $2 \times \frac{z_{0.95}}{z_{0.90}}$
(D) $\frac{z_{0.95}}{z_{0.90}}$

Solution: B
依题意得 $\sqrt{n}(\bar{x}-\mu) \sim N(0,1)$ , 所以令 $P(|\sqrt{n}(\bar{x}-\mu)| \leqslant d)=1-\alpha$ 可得置信区间的长度为: $2 d=\frac{2 z_{1-\frac{\alpha}{2}}}{\sqrt{n}}$
因此 $95 \%$ 与 $90 \%$ 双侧置信区间长度之比为 $\frac{z_{0.975}}{z_{0.95}}$ . 选项 B 正确

$X_{1}, \cdots, X_{n}$ 为来自正态分布 $N(\mu, 1)$ 的简单随机样本。令 $\bar{X}$ 为其样本均值, 若 $\left(\bar{X}-C_{\alpha}, \bar{X}+C_{\alpha}\right)$ 为 $\mu$ 的 1- $\alpha$ 水平的置信区间, 其中 $0<\alpha<1, C_{\alpha}>0$ 为常数。若从总体 $N(\mu, 1)$ 中新增一独立样品 $X_{n+1}$ , 则 $X_{n+1}$ 落在此置信区间的概率()
(A) 等于 $1-\alpha$
(B) 小于 $1-\alpha$
(C) 大于 $1-\alpha$
(D) 与1- $\alpha$ 的大小关系不能确定

Solution: B
我们知道 $\frac{\bar{X}-\mu}{\sqrt{\frac{1}{n}}} \sim N(0,1)$ , 因此有 $C_{\alpha}=\sqrt{\frac{1}{n}} z_{1-\alpha}$ , 其中 $z_{1-\alpha}$ 是标准正态
上 $\alpha$ 分位数. 而 $\frac{\bar{X}-X_{n+1}}{\sqrt{1+\frac{1}{n}}} \sim N(0,1)$ , 因此 $X_{n+1}$ 的预测区间是

X_{n+1} \in\left(\bar{X}-\sqrt{1+\frac{1}{n}} z_{1-\alpha}, \bar{X}+\sqrt{1+\frac{1}{n}} z_{1-\alpha}\right),

可以看出, $X_{n+1}$ 落入上面的区间的概率是 $1-\alpha$ , 而题设区间比这个区间窄的多, 故选择 B.

$X_{1}, X_{2}, X_{3}$ 为来自正态分布 $N\left(0, \sigma^{2}\right)$ 的简单随机样本。记 $Q_{1}=\sum_{i=1}^{3} X_{i}^{2}, Q_{2}=\sum_{i=1}^{3}\left(X_{i}-\bar{X}\right)^{2}, \chi_{\alpha}^{2}(r)$ 为自由度为 $r$ 的 $\chi^{2}$ 分布的 $100 \alpha \%$ 分位数，则下面哪个不是 $\sigma^{2}$ 的 95%的置信区间()
(A) $\left(\frac{Q_{1}}{\chi_{0.975}^{2}(3)}, \frac{Q_{1}}{\chi_{0.025}^{2}(3)}\right)$
(B) $\left(\frac{n \bar{X}^{2}}{\chi_{0.975}^{2}(1)}, \frac{n \bar{X}^{2}}{\chi_{0.025}^{2}(1)}\right)$
(C) $\left(\frac{Q_{2}}{\chi_{0.975}^{2}(2)}, \frac{Q_{2}}{\chi_{0.025}^{2}(2)}\right)$
(D) $\left(0, \frac{Q_{2}}{\chi_{0.95}^{2}(2)}\right)$

Solution: D
注意这里 $\chi_{\alpha}^{2}$ 指的是上分位数.
选项 $\mathrm{A}: \frac{Q_{1}}{\sigma^{2}} \sim \chi^{2}(3), \mathrm{A}$ 正确
选项 B: 由于 $\frac{\sqrt{n} \bar{x}}{\sigma} \sim N(0,1)$ , 则 $\frac{n \bar{x}^{2}}{\sigma^{2}} \sim \chi^{2}(1)$ . B 正确
选项 $\mathrm{C}: \frac{Q_{2}}{\sigma^{2}} \sim \chi^{2}(2), \mathrm{C}$ 正确
选项 $\mathrm{D}$ 为 $\sigma^{2}$ 的 $5 \%$ 的置信区间, 错误

在单因素方差中, $X_{k 1}, X_{k 2}, \cdots, X_{k n} \sim N\left(\mu_{k}, \sigma^{2}\right), k=1,2,3$ , 且 $X_{11}, \cdots, X_{1 n}, X_{21}, \cdots, X_{2 n}$ , $X_{31}, \cdots, X_{3 n}$ 之间相互独立, 令 $\bar{X}_{k \cdot}=\frac{1}{n} \sum_{i=1}^{n} X_{k i}, k=1,2,3, \bar{X}=\frac{1}{3 n} \sum_{k=1}^{3} \sum_{i=1}^{n} X_{k i}$ 。若 $\sigma^{2}=1$ , 则 ()
(A) $\sum_{k=1}^{3} \sum_{i=1}^{n}\left(X_{k i}-\bar{X}\right)^{2} \sim \chi^{2}(3 n-1)$
(B) $\sum_{k=1}^{3}\left(\bar{X}_{k \cdot}-\bar{X}\right)^{2} \sim \chi^{2}(2)$
(C) $\sum_{k=1}^{3} n\left(\bar{X}_{k}-\bar{X}\right)^{2} \sim \chi^{2}(2)$
(D) $\sum_{k=1}^{3} \sum_{i=1}^{n}\left(X_{k i}-\bar{X}_{k}\right)^{2} \sim \chi^{2}(3 n-3)$

Solution: D

\sum_{i=1}^{n}\left(x_{k i}-\bar{x}_{k}\right)^{2} \sim \chi^{2}(n-1)

又由卡方分布的可加性知 $\sum_{k=1}^{3} \sum_{i=1}^{n}\left(x_{k i}-\bar{x}_{k}\right)^{2} \sim \chi^{2}(3 n-3)$ , 故选 D.

在简单线性回归中, 以下关于回归系数最小二乘估计叙述错误的是()
(A) 求解最小二乘估计并不需要误差项服从正态分布
(B) 最小二乘估计是无偏估计
(C) 最小二乘估计是最优线性无偏估计 (BLUE)
(D) 最小二乘估计是最小方差无偏估计 (MVUE)

Solution: D
当给定误差项的正态假设后，最小二乘估计必定是最小方差无偏估计, 否则它只能是最优线性无偏估计.

二、(共 24 分) 设二维随机向量 $(X, Y)$ 有密度

f(x, y)=\left\{\begin{array}{cc} (1+x y) / 4, & |x|<1,|y|<1 ； \\ 0, & \text { 其他. } \end{array}\right.

(1) (8 分) 判断 $X$ 和 $Y$ 是否相互独立。
(2) (8 分) 求在 $Y=0.5$ 的条件下随机变量 $X$ 的条件密度。
(3) (8 分) 求 $Z=X+Y$ 的密度函数。

Solution: (1)

f_{X}(x)=\int_{-1}^{1} f(x, y) d y=\int_{-1}^{1} \frac{1+x y}{4} d y=\left\{\begin{array}{cc} \frac{1}{2} & |x|<1 \\ 0 & \text { 其他 } \end{array}\right.

同理 $f_{Y}(y)=\left\{\begin{array}{lc}\frac{1}{2} & |y|<1 \\ 0 & \text { 其他 }\end{array}\right.$ 由于 $f_{X}(x) f_{Y}(y) \neq f(x, y)$ , 故 $X$ 与 $Y$ 不独立.
(2) $X$ 关于的 $Y$ 条件密度函数 $f_{X \mid Y}(x \mid y)=\frac{f(x, y)}{f_{X}(x)}=\frac{1+x y}{2},-1<x<1$ 则 $f_{X \mid Y}(x \mid y=0.5)=\frac{1}{2}+\frac{x}{4},-1<x<1$
(3) 当 $z<-2$ 或 $z \geqslant 2$ 时, $f(z)=0$ .
当 $-2 \leqslant z<0$ 时,

f(z)=\int_{-1}^{z+1} f(x, z-x) d x=\int_{-1}^{z+1} \frac{1+x(z-x)}{4} d x=\frac{1}{3}+\frac{z^{3}}{24}

当 $0 \leqslant z<2$ 时,

f(z)=\int_{z-1}^{1} f(x, z-x) d x=\int_{z-1}^{1} \frac{1+x(z-x)}{4} d x=\frac{1}{3}-\frac{z^{3}}{24}

综上，

f(z)= \begin{cases}\frac{1}{3}+\frac{z^{3}}{24}, & -2 \leqslant z<0 \\ \frac{1}{3}-\frac{z^{3}}{24}, & 0 \leqslant z<2 \\ 0, & \text { 其他 }\end{cases}

三、(共 22 分) 设总体 $X$ 的密度函数 $f(x)=2 \theta^{-2} x,(0<x<\theta), X_{1}, \cdots, X_{n}(n>3)$ 为其简单随机样本。
(1) (6 分) 求 $\theta$ 的最大似然估计量 $\hat{\theta}_{1}$ 。
(2) (6 分) 求 $\theta$ 的矩法估计量 $\hat{\theta}_{2}$ 。
(3) (10 分) 据 MSE (mean squared error) 准则, 请计算比较 $\hat{\theta}_{1}$ 与 $\hat{\theta}_{2}$ 的优劣。

Solution: (1) 似然函数为 $L(\theta)=2^{n} \theta^{-2 n}\left(\prod_{i=1}^{n} x_{i}\right) I_{\left\{\theta \geq x_{(n)}\right\}}$ ,
该函数是 $\theta$ 在 $\left[x_{(n)},+\infty\right)$ 上的单调减函数, 故 $\theta$ 的 MLE 为 $\hat{\theta}_{1}=x_{(n)}$ .
(2)

E(X)=\int_{0}^{\theta} x f(x) d x=\int_{0}^{\theta} 2 \theta^{-2} x^{2} d x=\frac{2}{3} \theta

即 $\theta=\frac{3}{2} E(X)$ , 由替换原理得 $\theta$ 的矩估计为 $\hat{\theta}_{2}=\frac{3}{2} \bar{x}$ .
(3)
对任意 $t \in(0, \theta), P\left(x_{(n)}<t\right)=[P(X<t)]^{n}=\frac{t^{2 n}}{\theta^{2 n}}$ .
故可求得 $x_{(n)}$ 的密度函数为 $f_{n}(t)=\left\{\begin{array}{ll}\frac{2 n t^{2 n-1}}{\theta^{2 n}}, & 0<t<\theta \\ 0, & \text { 其他 }\end{array}\right.$ , 由此可计算得

\begin{aligned} E\left(\hat{\theta}_{1}\right) &=\int_{0}^{\theta} \frac{2 n t^{2 n}}{\theta^{2 n}} d t=\frac{2 n \theta}{2 n+1} \\ E\left(\hat{\theta}_{1}^{2}\right) &=\int_{0}^{\theta} \frac{2 n t^{2 n+1}}{\theta^{2 n}} d t=\frac{n \theta^{2}}{n+1} \end{aligned}

故

\begin{aligned} \operatorname{MSE}\left(\hat{\theta}_{1}\right) &=E\left(\hat{\theta}_{1}-\theta\right)^{2}=E\left(\hat{\theta}_{1}^{2}\right)-2 \theta E\left(\hat{\theta}_{1}\right)+\theta^{2} \\ &=\frac{\theta^{2}}{(2 n+1)(n+1)} \end{aligned}

而

\begin{aligned} &E\left(X^{2}\right)=\int_{0}^{\theta} 2 \theta^{-2} x^{3} d x=\frac{\theta^{2}}{2} \\ &\operatorname{Var}(X)=E\left(X^{2}\right)-E^{2}(X)=\frac{\theta^{2}}{18} \end{aligned}

又因为 $E\left(\hat{\theta}_{2}\right)=\frac{3}{2} E(\bar{x})=\frac{3}{2} E(X)=\theta$ , 所以 $\hat{\theta}_{2}$ 是 $\theta$ 的无偏估计, 故

\begin{aligned} \operatorname{MSE}\left(\hat{\theta}_{2}\right) &=\operatorname{Var}\left(\hat{\theta}_{2}\right) \\ &=\frac{9}{4} \operatorname{Var}(\bar{x})=\frac{9}{4 n} \operatorname{Var}(X)=\frac{\theta^{2}}{8 n} \end{aligned}

题设中 $n>3$ , 所以 $\frac{1}{(2 n+1)(n+1)}-\frac{1}{8 n}=\frac{-2 n^{2}+5 n-1}{8 n(n+1)(2 n+1)}<0$ , 故 $\operatorname{MSE}\left(\hat{\theta}_{1}\right)<\operatorname{MSE}\left(\hat{\theta}_{2}\right)$ , 所以根据 MSE 准则 $\hat{\theta}_{1}$ 更优. 实际上, 也可以从阶数上直接判断出 $\hat{\theta}_{1}$ 更优.

四、(22 分) 设 $X_{1}, \cdots, X_{n}(n \geq 3)$ 为来自伯努利分布 $B(1, p)$ 的样本, 已知 $T=X_{1}+\cdots+X_{n}$ 为参数 $p$ 的充分统计量。
(1) (8 分) 求 $p^{2}$ 的最大似然估计, 并说明该估计不是 $p^{2}$ 的无偏估计。(需要写出详细推导过程)。
(2) (6 分) 令 $M=X_{1} X_{2}$ , 证明 $M$ 是 $p^{2}$ 的无偏估计。
(3) (8 分) 寻找 $p^{2}$ 的最小方差无偏估计 (需要写出具体形式)。

Solution: (1) 似然函数 $L(p)=\prod_{i=1}^{n} p^{x_{i}}(1-p)^{1-x_{i}}=p^{\sum_{i=1}^{n} x_{i}}(1-p)^{n-\sum_{i=1}^{n} x_{i}}$ , 取对数得

\ln L=\sum_{i=1}^{n} x_{i} \ln p+\left(n-\sum_{i=1}^{n} x_{i}\right) \ln (1-p)

令 $\frac{\mathrm{d} \ln L}{\mathrm{~d} p}=\frac{\sum_{i=1}^{n} x_{i}}{p}-\frac{n-\sum_{i=1}^{n} x_{i}}{1-p}=0$ , 解得驻点 $\hat{p}=\frac{\sum_{i=1}^{n} x_{i}}{n}=\bar{x}$ , 由最大似然估计的不变性知 $\widehat{p}^{2}=\bar{x}^{2}$ 是 $p^{2}$ 的 MLE.
因为

\begin{aligned} E\left(\bar{x}^{2}\right) &=\operatorname{Var}(\bar{x})+E^{2}(\bar{x}) \\ &=\frac{\operatorname{Var}(X)}{n}+E^{2}(X) \\ &=\frac{p(1-p)}{n}+p^{2} \\ & \neq p^{2} \end{aligned}

故 $\widehat{p}^{2}$ 不是 $p^{2}$ 的无偏估计.
(2)
由于 $X_{1} 、 X_{2}$ 相互独立, 故 $E\left(X_{1} X_{2}\right)=E\left(X_{1}\right) E\left(X_{2}\right)=p^{2}$ , 所以 $M$ 是 $p^{2}$ 的无偏估计.
(3) 取 $T=n \bar{x}$ , 则

\begin{aligned} E(M \mid T=t) &=P\left(X_{1} X_{2}=1 \mid T=t\right) \\ =& \frac{P\left(x_{1}=1, x_{2}=1, \sum_{i=3}^{n} x_{i}=t-\right.}{P\left(\sum_{i=1}^{n} x_{i}=t\right)} \\ &=\frac{p \cdot p \cdot\left(\begin{array}{c} n-2 \\ t-2 \end{array}\right) p^{t-2}(1-p)^{n-t}}{\left(\begin{array}{c} n \\ t \end{array}\right) p^{t}(1-p)^{n-t}} \\ &=\frac{t(t-1)}{n(n-1)} \end{aligned}

由指数族性质知 $T$ 是充分完全统计量, 根据重期望公式可知 $\hat{\theta}=\frac{T(T-1)}{n(n-1)}$ 是 $p^{2}$ 的无偏估计, 由 Lehmann-Scheffe 定理, $\hat{\theta}$ 是 $p^{2}$ 的 UMVUE.

五、(22 分) 总体 $X$ 服从如下分布。 $X_{1}, \cdots, X_{4}$ 为其样本量为 4 的简单随机样本。

$X$	$-1$	$0$	$1$
$P$	$\theta$	$1-2 \theta$	$\theta$

令 $\mathrm{T}\left(X_{1}, \cdots, X_{4}\right)=\sum_{i=1}^{4} I\left(X_{i}=0\right)$ , 其中 $I$ 为示性函数。针对假设

\mathrm{H}_{0}: \theta=\frac{1}{3} \quad \text { v.s. } \mathrm{H}_{1}: \theta=\frac{1}{4}

构建拒绝域C $\left\{\left(x_{1}, x_{2}, x_{3}, x_{4}\right): T\left(x_{1}, x_{2}, x_{3}, x_{4}\right)>2\right\}$ 。
(1) (12 分) 求此检验的第一类错误概率 $\alpha$ 与第二类错误概率 $\beta_{0}$
(2) (10 分) 请判断此检验是否为显著性水平为 $\alpha$ 时的最优检验 (most powerful test)。

Solution: (1)

\begin{aligned} \alpha &=P\left(T>2 \mid \theta=\frac{1}{3}\right) \\ &=P\left(T=3 \mid \theta=\frac{1}{3}\right)+P\left(T=4 \mid \theta=\frac{1}{3}\right) \\ &=C_{4}^{3} \cdot\left(1-2 \cdot \frac{1}{3}\right)^{3} \cdot \frac{2}{3}+C_{4}^{4} \cdot\left(1-2 \cdot \frac{1}{3}\right)^{4}=\frac{1}{9} \\ \beta=& 1-P\left(T>2 \mid \theta=\frac{1}{4}\right) \\ &=1-P\left(T=3 \mid \theta=\frac{1}{4}\right)-P\left(T=4 \mid \theta=\frac{1}{4}\right)^{4} \\ &=1-C_{4}^{3} \cdot\left(1-2 \cdot \frac{1}{4}\right)^{3} \cdot \frac{2}{4}+C_{4}^{4} \cdot\left(1-2 \cdot \frac{1}{4}\right)^{4}=\frac{11}{16} \end{aligned}

(2) 利用N-P引理, 总体对应的密度函数是

f\left( x;\theta \right) =\left( 1-2\theta \right) ^{I_{\left\{ x=0 \right\}}}\theta ^{1-I_{\left\{ x=0 \right\}}},

则样本对应的似然函数是

L(\theta)=\theta^4 e^{T[\ln (1-2 \theta)-\ln \theta]},

其中 $T=\sum_{i=1}^{4} I_{\left\{X_{i}=0\right\}}$ 是充分统计量. 则似然比是

\Lambda =\frac{L\left( \frac{1}{4} \right)}{L\left( \frac{1}{3} \right)}=\frac{\left(\frac{1}{4}\right)^4e^{T\left( \ln \frac{1}{2}-\ln \frac{1}{4} \right)}}{\left(\frac{1}{3}\right)^4e^{T\left( \ln \frac{1}{3}-\ln \frac{1}{3} \right)}}=\left(\frac{3}{4}\right)^4e^{T\left( \ln \frac{1}{2}-\ln \frac{1}{4} \right)},

其中考虑到 $\left(\frac{3}{4}\right)^4e^{T\left( \ln \frac{1}{2}-\ln \frac{1}{4} \right)}$ 是 $T$ 的单调增函数, 又根据NP引理, UMP检验的形式是

\left\{ \Lambda >\lambda _0 \right\} \Leftrightarrow \left\{ T>c \right\},

其中令检验的显著性水平为 $\alpha$ , 可解得 $C = 2$ . 故结论得证.