上海交通大学-432统计学-2018年

一.选择题 (10小题,每小题 6 分,共60分)

  1. 某医生为写论文收集数据, 使用了他自己过往的病情经历, 这种抽样方式称为( ).
    A. 整群抽样
    B. 非随机的方便抽样
    C. 系统抽样
    D. 简单随机抽样

Solution: B.

  1. XXYY 均服从标准正态分布, 则 ()
    (A) XYX-Y 服从正态分布
    (B) X2+Y2X^{2}+Y^{2} 服从卡方分布
    (C) YXY \mid X 服从正态分布
    (D) X2X^{2} 服从卡方分布

Solution: D
X=YX=Y 时, 易知 ABC\mathrm{ABC} 都不正确, 由卡方分布的定义可知, X2χ2(1),DX^{2} \sim \chi^{2}(1), \mathrm{D} 正确.

  1. 某个班男生的平均身高标准差为 6 cm6 \mathrm{~cm}, 为估计全校男生的平均身高, 置信水平 95%95 \%, 允许误差为 1 , 请问所需要的样本个数至少为( ).
    A. 138
    B. 139
    C. 140
    D. 141

Solution: B. 考虑样本均值xˉ\bar{x}是近似正态分布, 则置信区间为μ[xˉz0.025σn,xˉ+z0.025σn]\mu \in [\bar{x}-z_{0.025}\frac{\sigma}{\sqrt{n}},\bar{x}+z_{0.025}\frac{\sigma}{\sqrt{n}}], 令误差z0.025σn1z_{0.025}\frac{\sigma}{\sqrt{n}}\le 1, 代入σ=6\sigma =6, z0.025=1.96z_{0.025}=1.96, 解得n138.3n \ge 138.3.

  1. 在线性回归模型 yi=a+bxi+εi,i=1,,ny_i = a +b x_i +\varepsilon_i, i=1,\cdots,n 中, 正确的是( ).
    A. (a,b)(a,b) 的最小二乘估计与最大似然估计等价
    B. 最小二乘法中的残差和为 00
    C. 参数显著性 tt 检验不需要假设正态分布
    D. 以上均错误

Solution: D. 如果不给定分布, 无法求得最大似然估计, A错, 且只有在 ε\varepsilon 是正态分布时两者等价(高斯-马尔可夫定理). 最小二乘法需求残差平方和最小, 与残差和无关, B错. 如果没有正态假设, 无法导出检验统计量服从 tt 分布, C错.

  1. XB(100,0.2)X \sim B(100,0.2), 设 Φ(x)\Phi(x) 为标准正态分布的累积分布函数, 则 X>28X>28 的概率大约是 ()
    (A) 1Φ(2)1-\Phi(2)
    (B) 1Φ(1)1-\Phi(1)
    (C) Φ(2)\Phi(2)
    (D) 2Φ(2)12 \Phi(2)-1

Solution: A
根据中心极限定理

P(X>28)=P(X204>28204)=P(X204>2)1Φ(2)P(\mathrm{X}>28)=P\left(\frac{X-20}{4}>\frac{28-20}{4}\right)=P\left(\frac{X-20}{4}>2\right) \approx 1-\Phi(2)

  1. 已知总体 XX 服从 N(μ1,σ2)N\left(\mu_1, \sigma^2\right), 总体 YY 服从 N(μ2,σ2)N\left(\mu_2, \sigma^2\right) 。现从总体 XX 中抽取 n1n_1 个观测值, 其样本方差记为 S12S_1^2; 从总体 YY 中抽取 n2n_2 个观测值, 其样本方差记为 S22S_2^2 。已知两组样本相互独立, σ2\sigma^2 末知, 那么 μ12μ2\mu_1-2 \mu_2 的置信度为 1α1-\alpha 的区间估计的长度应 为: ( ).
    A. 2t1α/2(n1+n22)Sw1/n1+4/n22 t_{1-\alpha / 2}\left(n_1+n_2-2\right) S_w \sqrt{1 / n_1+4 / n_2}, 其中 Sw=(n11)S12+(n21)S22n1+n22S_w=\frac{\left(n_1-1\right) S_1^2+\left(n_2-1\right) S_2^2}{n_1+n_2-2}
    B. 2t1α/1(n1+n22)Sw1/n1+1/n22 t_{1-\alpha / 1}\left(n_1+n_2-2\right) S_w \sqrt{1 / n_1+1 / n_2}, 其中 Sw=(n11)S12+(n21)S22n1+n22S_w=\frac{\left(n_1-1\right) S_1^2+\left(n_2-1\right) S_2^2}{n_1+n_2-2}
    C. 2t1α/2(n1+n22)Sw1/n1+1/n22 t_{1-\alpha / 2}\left(n_1+n_2-2\right) S_w \sqrt{1 / n_1+1 / n_2}, 其中 Sw=(n11)S12+4(n21)S22n1+n22S_w=\frac{\left(n_1-1\right) S_1^2+4\left(n_2-1\right) S_2^2}{n_1+n_2-2}
    D. 2t1α/2(n1+n21)Sw1/n1+1/n22 t_{1-\alpha / 2}\left(n_1+n_2-1\right) S_w \sqrt{1 / n_1+1 / n_2}, 其中 Sw=(n11)S12+4(n21)S22n1+n22S_w=\frac{\left(n_1-1\right) S_1^2+4\left(n_2-1\right) S_2^2}{n_1+n_2-2}

Solution: A
枢轴量是

[(xˉ2yˉ)(μ12μ2)]/(1/n1+4/n2σ)((n11)S12+(n21)S22)/(σ2(n1+n22))t(n1+n22)\frac{\left[(\bar{x}-2 \bar{y})-\left(\mu_1-2 \mu_2\right)\right] /\left(\sqrt{1 / n_1+4 / n_2} * \sigma\right)}{\sqrt{\left(\left(n_1-1\right) S_1^2+\left(n_2-1\right) S_2^2\right) /\left(\sigma^2 *\left(n_1+n_2-2\right)\right)}} \sim t\left(n_1+n_2-2\right)

所以区间长度为: 2t1α/2(n1+n22)Sw1/n1+4/n22 t_{1-\alpha / 2}\left(n_1+n_2-2\right) S_w \sqrt{1 / n_1+4 / n_2}, 其中 Sw2=(n11)S12+(n21)S22n1+n22S_w^2=\frac{\left(n_1-1\right) S_1^2+\left(n_2-1\right) S_2^2}{n_1+n_2-2}

  1. 交警部门发布报告称: 在被怀疑酒驾司机中, 72%72 \% 的司机被要求采用呼 吸仪测量, 36%36 \% 的司机被要求采用血液仪测量, 18%18 \% 的司机被要求既采用呼吸仪测量又采用血液仪 测量, 那么一个被怀疑酒驾的司机, 不用这两种仪器测量的比例是 ( )
    A. 0.50.5
    B. 0.250.25
    C. 0.20.2
    D. 0.10.1

Solution: D
记事件 AA “被怀疑酒驾司机中, 被要求采用呼吸机测量”, 事件 BB “被怀疑酒驾司机中, 被要求采用血液仪测量”, 则 P(A)=0.72,P(B)=0.36,P(AB)=0.18\mathbb{P}(A)=0.72, \mathbb{P}(B)=0.36, \mathbb{P}(A B)=0.18. 则 P(AˉBˉ)=1P(AB)=1(0.72+0.360.18)=0.1\mathbb{P}(\bar{A} \bar{B})=1-\mathbb{P}(A \cup B)=1-(0.72+0.36-0.18)=0.1

  1. 以下哪项不是 (强) 大数定律的应用? ()
    (A) 观测值的算术平均值估计期望值
    (B)事件发生的频率估计概率
    (C)期望值的置信区间估计
    (D)用蒙特卡洛法计算定积分

Solution: C
大数定律是指样本数量越多, 它的算术平均值就越接近于其期望值, 选项 ABD\mathrm{ABD} 均为其运用. 选项 C\mathrm{C} 的期望值的置信区间是通过构造适当的区间来估计对 应参数的真值所在范围,属于中心极限定理的应用用,故选项 C\mathrm{C} 错误

  1. X1,,XnX_{1}, \cdots, X_{n} 为来自均匀分布 U(θ1,θ+1)U(\theta-1, \theta+1) 的简单随机样本, 其顺序统计量记为 X(1),,X(n)X_{(1)}, \cdots, X_{(n)}, 则 θ\theta 的充分统计量为 ()
    (A) X(1)X_{(1)}
    (B) X(n)X_{(n)}
    (C) {X(1),X(n)}\left\{X_{(1)}, X_{(n)}\right\}
    (D) X(n)X(1)X_{(n)}-X_{(1)}

Solution: C
密度函数为 f(x)=12I(θ1xθ+1)f(x)=\frac{1}{2} I_{(\theta-1 \leqslant x \leqslant \theta+1)}, 其联合分布函数为

f(x1,x2,,x2)=i=1n12I(θ1xθ+1)=12nI(θX(ω)1)I(θXωj+1)f\left(x_{1}, x_{2}, \cdots, x_{2}\right)=\prod_{i=1}^{n} \frac{1}{2} I_{(\theta-1 \leqslant x \leqslant \theta+1)}=\frac{1}{2^{n}} I_{\left(\theta \geqslant X_{(\omega)}-1\right)} I_{\left(\theta \leqslant X_{\omega j}+1\right)}

故由因子分解定理知, 充分统计量为 (X(1),X(n))\left(X_{(1)}, X_{(n)}\right), 选项 C 正确.

  1. 某领导有 3 个顾问, 假定每个顾问贡献正确意见的概率是 0.5。现为某事可行与否而个别征求各 顾问意见, 并按多数人的意见做出决策, 则做出正确决策的概率是( )
    (A) 0.50.5
    (B) 0.60.6
    (C) 2/32 / 3
    (D) 0.70.7

Solution: A
当有两个以上的顾问做出正确决策的时候, 最终做出正确决策 P=0.53+C32×0.52×(10.5)=0.5P=0.5^{3}+C_{3}^{2} \times 0.5^{2} \times(1-0.5)=0.5 选项 A 正确

二、简答题

  1. 有来自 U(0,θ)U(0, \theta) 的简单随机样本, 试求样本极差 Rn=x(n)x(1)R_n=x_{(n)}-x_{(1)} 的分布.

Solution: 总体的密度函数是 f(x)=1θI(0,θ)f(x)=\frac{1}{\theta} \mathrm{I}_{(0, \theta)}, 分布函数是 F(x)={0,x<0;xθ,0x<θ1,xθ.F(x)= \begin{cases}0, & x<0 ; \\ \frac{x}{\theta}, & 0 \leq x<\theta \\ 1, & x \geq \theta .\end{cases}
(x(1),x(n))\left(x_{(1)}, x_{(n)}\right) 有联合密度函数

f1,n(x1,xn)=n(n1)1θ(xnx1θ)n21θ,0<x1<xn<θf_{1, n}\left(x_1, x_n\right)=n(n-1) \frac{1}{\theta}\left(\frac{x_n-x_1}{\theta}\right)^{n-2} \frac{1}{\theta}, 0<x_1<x_n<\theta

作变换 {U=x(n)V=x(n)x(1)\left\{\begin{array}{l}U=x_{(n)} \\ V=x_{(n)}-x_{(1)}\end{array}\right., 则反解有 {x(1)=UVx(n)=U\left\{\begin{array}{l}x_{(1)}=U-V \\ x_{(n)}=U\end{array}\right., 雅各比行列式 J=1110=1J=\left|\begin{array}{cc}1 & -1 \\ 1 & 0\end{array}\right|=1, 因此 (U,V)(U, V) 有联合密度函数

fU,V(u,v)=f1,n(u,uv)J=n(n1)1θnvn2.0<v<u<θ,f_{U, V}(u, v)=f_{1, n}(u, u-v)|J|=n(n-1) \frac{1}{\theta^n} v^{n-2} .0<v<u<\theta,

uu 积分, 得 VV 的边际密度函数

fV(v)=vθn(n1)1θnvn2 du=n(n1)1θnvn2(θv),0<v<θf_V(v)=\int_v^\theta n(n-1) \frac{1}{\theta^n} v^{n-2} \mathrm{~d} u=n(n-1) \frac{1}{\theta^n} v^{n-2}(\theta-v), 0<v<\theta

特别地, 当 θ=1\theta=1 时, RnBe(n1,2)R_n \sim B e(n-1,2), 这与 x(n1)x_{(n-1)} 是同分布的.

  1. N(μ,1)N(\mu,1) 总体抽取 100 个随机样本 x1,,x100x_1,\cdots,x_{100}, 为讨论假设检验问题

H0:μ=0vsH1:μ0H_0:\mu = 0 \quad \mathrm{vs} \quad H_1:\mu \neq 0

构造拒绝域 W={xˉ<0.001}W=\{|\bar{x}|<0.001\}.

(1)(8分) 已知 Φ(0.01)<0.505\Phi(0.01)<0.505, 证明犯第一类错误概率 α<0.01\alpha <0.01;
(2)(8分) WW 是一个合适的拒绝域吗? 为什么?

Solution: (1) 样本均值 xˉN(μ,1100)\bar{x}\sim N\left( \mu ,\frac{1}{100} \right), 故有

α=Pμ=0(Xˉ<0.001)=Pμ=0(10Xˉ<0.01)=2Φ(0.01)1<0.01.\alpha =P_{\mu =0}\left( \left| \bar{X} \right|<0.001 \right) =P_{\mu =0}\left( \left| 10\bar{X} \right|<0.01 \right) =2\Phi \left( 0.01 \right) -1<0.01.

(2) 不是, xˉ<0.001|\bar{x}|<0.001 实际正反应了 μ|\mu| 比较小, 接近于 0, 正确的拒绝域形式应是形如 {xˉ>c}\{|\bar{x}|>c\}, 其中 cc 可由显著性水平确定.

  1. 什么叫指标体系? 设计指标体系时应注意哪些问题?

Solution:

指标体系是指由若干个反映社会经济现象总体数量特征的相对独立又相互联系的统计指标所组成的有机 整体。在统计研究中, 如果要说明总体全貌, 那么只使用一个指标往往是不够的, 因为它只能反映总体 某一方面的数量特征。这个时候就需要同时使用多个相关指标了, 而这多个相关的又相互独立的指标所 构成的统一整体, 即为指标体系。
为了使指标体系科学化、规范化, 在构建指标体系时, 应遵循以下原则:

(1)系统性原则。各指标之间要有一定的逻辑关系, 它们不但要从不同的侧面反映出生态、经济、社会子 系统的主要特征和状态, 而且还要反映生态一经济一社会系统之间的内在联系。每一个子系统由一组指 标构成, 各指标之间相互独立, 又彼此联系, 共同构成一个有机统一体。指标体系的构建具有层次性, 自上而下, 从宏观到微观层层深入, 形成一个不可分割的评价体系。
(2)典型性原则。务必确保评价指标具有一定的典型代表性, 尽可能准确反映出特定区域一一高西沟的环 境、经济、社会变化的综合特征, 即使在减少指标数量的情况下, 也要便于数据计算和提高结果的可靠 性。另外,评价指标体系的设置、权重在各指标问的分配及评价标准的划分都应该与高西沟的自然和社 会经济条件相适应。
(3)动态性原则。生态一经济一社会效益的互动发展需要通过一定时间尺度的指标才能反映出来。因此, 指标的选择要充分考虑到动态的变西北典型区生态脱贫途径研究化特点, 应该收集若干年度的变化数 值。
(4)简明科学性原则。各指标体系的设计及评价指标的选择必须以科学性为原则, 能客观真实地反映高西 沟环境、经济、社会发展的特点和状况,能客观全面反映出各指标之间的真实关系。各评价指标应该具 有典型代表性, 不能过多过细, 使指标过于繁琐, 相互重叠, 指标又不能过少过简, 避免指标信息遗 漏, 出现错误、不真实现象, 并且数据易获且计算方法简明易懂。
(5)可比、可操作、可量化原则。指标选择上, 特别注意在总体范围内的一致性, 指标体系的构建是为区 域政策制定和科学管理服务的, 指标选取的计算量度和计算方法必须一致统一, 各指标尽量简单明了、 微观性强、便于收集, 各指标应该要具有很强的现实可操作性和可比性。而且, 选择指标时也要考虑能 否进行定量处理, 以便于进行数学计算和分析。
(6)综合性原则。生态一经济一社会的互动“双赢”是生态经济建设的最终目标, 也是综合评价的重点。在 相应的评价层次上, 全面考虑影响环境、经济、社会系统的诸多因素, 并进行综合分析和评价。

  1. 简述逐步回归的作用, 向前选择与向后选择的差别.

Solution:
逐步回归分析方法的基本思路是自动从大量可供选择的变量中选取最重要的变量,建立回归分析的预测或者解释模型。其基本思想是:将自变量逐个引入,引入的条件是其偏回归平方和经检验后是显著的。同时,每引入一个新的自变量后,要对旧的自变量逐个检验,剔除偏回归平方和不显著的自变量。这样一直边引入边剔除,直到既无新变量引入也无旧变量删除为止。它的实质是建立“最优”的多元线性回归方程。

依据上述思想,可利用逐步回归筛选并剔除引起多重共线性的变量,其具体步骤如下:先用被解释变量对每一个所考虑的解释变量做简单回归,然后以对被解释变量贡献最大的解释变量所对应的回归方程为基础,再逐步引入其余解释变量。经过逐步回归,使得最后保留在模型中的解释变量既是重要的,又没有严重多重共线性。

向前法: 向前法的思想是变量由少到多,每次增加一个,直至没有可引入的变量为止。具体步喪如下。
步1:对 pp 个回归自变量 X1,X2,,XpX_1, X_2, \ldots, X_p, 分别同因变量 YY 建立一元回归楦型

Y=β0+βiXi+ϵ,i=1,,pY=\beta_0+\beta_i X_i+\epsilon, i=1, \ldots, p

计算变量 XiX_i ,相应的回归系数的 FF 检验统计量的值,记为 F1(1),,Fp(1)F_1^{(1)}, \ldots, F_p^{(1)} ,取其中的最大值 Fi1(1)F_{i_1}^{(1)} ,即

Fi1(1)=max{F1(1),,Fp(1)}F_{i_1}^{(1)}=\max \left\{F_1^{(1)}, \ldots, F_p^{(1)}\right\}

对给定的显著性水平 α\alpha ,记相应的临界值为 F(1)Fi1(1)F(1)F^{(1)} , F_{i_1}^{(1)} \geq F^{(1)} ,则将 Xi1X_{i_1} 引入回归模型,记 I1I_1 为选入变量指标集合。

步2:建立因变量 YY 与自变量子集 {Xi1,X1},,{Xi1,Xi11},{Xi1,Xi1+1},,{Xi1,Xp}\left\{X_{i_1}, X_1\right\}, \ldots,\left\{X_{i_1}, X_{i_1-1}\right\},\left\{X_{i_1}, X_{i_1+1}\right\}, \ldots,\left\{X_{i_1}, X_p\right\} 的二元回归模型 (即 此回归模型的回归元为二元的),共有 p1p-1 个。计算变量的回归系数 FF 检验的统计量值,记为 Fk(2)(kI1)F_k^{(2)}\left(k \notin I_1\right) ,选其中最大 者,记为 Fi2(2)F_{i_2}^{(2)} ,对应目变量脚标记为 i2i_2 ,即

Fi2(2)=max{F1(2),,Fi11(2),Fi1+1(2),,Fp(2)}F_{i_2}^{(2)}=\max \left\{F_1^{(2)}, \ldots, F_{i_1-1}^{(2)}, F_{i_1+1}^{(2)}, \ldots, F_p^{(2)}\right\} 。

对给定的显著性水平 α\alpha ,记相应的临界值为 F(2)Fi2(1)F(2)F^{(2)} , F_{i_2}^{(1)} \geq F^{(2)} 则变量 Xi2X_{i_2} 引入回归模型。否则,终止变量引入过程。
依此方法重复进行,每次从末引入回归模型的自变量中选取一个,直到经检验没有变量引入为止。

向后法与向前法正好相反,它事先将全部自变量选入回归模型,然后逐个易除对残差平方和贡献较小的自变量。
后退法: 与前进法相反,开始时先拟合包含所有自变量的回归方程, 并预先指定留在回归方程中而不被剔除的目变量的假设检 验标准。然后按自变量对应变量Y的贡献大小从小到大进行检验,对无统计学意义的自变量依次剔除。每易除一个自变量都要重新 计算并检验尚末被䐇除自变量对应变量Y的贡献并决定是否剔除对模型贡献最小的自变量。重复上述过程,直到回归方程中的自变 量均符合留在方程中的给定标准,没有自变量可被暘除为止。在整个过程中只考慮剔除自变量,自变量一旦被剔除,则不再考虑引入 回归方程。

三. 计算题

  1. 为发展我国机械化养鸡, 某研究所根据我国的资源情况, 研究用槐树粉、苜蓿粉等原料代替国外用鱼粉做鸡饲料的办法. 他们研究了三种饲料配方: 第一种, 以鱼粉为主的鸡饲料; 第二种以塊树粉、苜蓿粉为主加少量鱼粉; 第三种, 以槐树粉、苜蓿粉为主加少量化学药品. 后两种是他们研制的新配方. 为比较三种饲料在养鸡增肥上的效果, 各喂养10 只母雏鸡, 于60 天后观测它们的重量. 如下表所示:

 第一种 1073105810711037106610261053104910651051 第二种 1016105810381042102010451044106110341049 第三种 1084106911061078107510901079109411111092\begin{array}{|c|c|c|c|c|c|c|c|c|c|c|} \hline \text { 第一种 } & 1073 & 1058 & 1071 & 1037 & 1066 & 1026 & 1053 & 1049 & 1065 & 1051 \\ \hline \text { 第二种 } & 1016 & 1058 & 1038 & 1042 & 1020 & 1045 & 1044 & 1061 & 1034 & 1049 \\ \hline \text { 第三种 } & 1084 & 1069 & 1106 & 1078 & 1075 & 1090 & 1079 & 1094 & 1111 & 1092 \\ \hline \end{array}

请对本例进行方差分析, 在 α=0.05\alpha = 0.05 的前提下给出你的结论. 注: F0.95(2,27)=3.35F_{0.95}(2,27)=3.35.

Solution:

列出计算过程表,

 来源  数据量 j=1riyijj=1riyij2Ti2ri 水平 1105493217130140.1 水平 2104071846716564.9 水平 3108787872477088.4 总和 3031841129362123793.4\begin{array}{ccccc} \text { 来源 } & \text { 数据量 } & \sum_{j=1}^{r_i} y_{i j} & \sum_{j=1}^{r_i} y_{i j}^2 & \frac{T_i^2}{r_i} \\ \hline \text { 水平 } 1 & 10 & 549 & 32171 & 30140.1 \\ \text { 水平 } 2 & 10 & 407 & 18467 & 16564.9 \\ \text { 水平 } 3 & 10 & 878 & 78724 & 77088.4 \\ \hline \text { 总和 } & 30 & 31841 & 129362 & 123793.4 \end{array}

于是,

SST=3379736231841230=17243SSA=33791793.431841230=11675SSe=1724311675=5568\begin{aligned} &S S_T=33797362-\frac{31841^2}{30}=17243 \\ &S S_A=33791793.4-\frac{31841^2}{30}=11675 \\ &S S_e=17243-11675=5568 \end{aligned}

据此给出方差分析表,

 来源  平方和  自由度  均方 F 统计量 p 值  因子 1167525837.528.3<106 误差 556827206.2 总和 1724329\begin{array}{cccccc} \hline \text { 来源 } & \text { 平方和 } & \text { 自由度 } & \text { 均方 } & F \text { 统计量 } & p \text { 值 } \\ \hline \text { 因子 } & 11675 & 2 & 5837.5 & 28.3 & <10^{-6} \\ \text { 误差 } & 5568 & 27 & 206.2 & & \\ \text { 总和 } & 17243 & 29 & & & \\ \hline \end{array}

p\mathrm{p} 值极小, 说明当原假设成立时, 发生比当前情况还要极端的事件的可能性非常小, 因此我们应该拒 绝原假设. 或通过查表的方式, 给定显著性水平 0.050.05, 而 F0.95(2,27)=3.35F_{0.95}(2,27)=3.35, 由于 28.3>3.3528.3>3.35, 所以我们 拒绝原假设, 也就是说三种不同饲料是会对鸡的体重产生显著影响的.

  1. rr 个人相互传球, 每传一次时, 传球者等可能地传给其余 r1r-1 人中之一. 试求第 nn 次传球时, 此 球由最初发球者传出的概率 pnp_n (发球那一次算作第 0 次).

Solution:

由全概率公式得

pn=pn10+(1pn1)1r1pn=1r1pn1+1r1,n1,p0=1\begin{gathered} p_n=p_{n-1} \cdot 0+\left(1-p_{n-1}\right) \frac{1}{r-1} \\ p_n=-\frac{1}{r-1} p_{n-1}+\frac{1}{r-1}, \quad n \geqslant 1, \quad p_0=1 \end{gathered}

代人差分方程的递推公式得

pn=(1r1)n(11r)+1r=1r[1(1r1)n1],n1p_n=\left(\frac{-1}{r-1}\right)^n\left(1-\frac{1}{r}\right)+\frac{1}{r}=\frac{1}{r}\left[1-\left(\frac{-1}{r-1}\right)^{n-1}\right], \quad n \geqslant 1

四. 证明题

  1. X1,X2,,XnX_1, X_2, \cdots, X_n 是来自密度为

f(x;θ)=12exθf(x ; \theta)=\frac{1}{2} \mathrm{e}^{-|x-\theta|}

的总体的样本, <θ<+-\infty<\theta<+\infty, 试求出 θ\theta 的最大似然估计 θ^n\hat{\theta}_n.

Solution:

似然函数是 L(θ)=12nei=1nxiθL(\theta)=\frac{1}{2^n} e^{-\sum_{i=1}^n\left|x_i-\theta\right|}, 为使似然函数最大, 考虑使 h(θ)=i=1nxiθh(\theta)=\sum_{i=1}^n\left|x_i-\theta\right| 最小.

h(θ)=i=1nx(i)θ={j=1n/2(x(j)θ+x(n+1j)θ),n 是偶数 j=1(n1)/2(x(j)θ+x(n+1j)θ)+x(n+12)θ,n 是奇数 h(\theta)=\sum_{i=1}^n\left|x_{(i)}-\theta\right|= \begin{cases}\sum_{j=1}^{n / 2}\left(\left|x_{(j)}-\theta\right|+\left|x_{(n+1-j)}-\theta\right|\right), & n \text { 是偶数 } \\ \sum_{j=1}^{(n-1) / 2}\left(\left|x_{(j)}-\theta\right|+\left|x_{(n+1-j)}-\theta\right|\right)+\left|x_{\left(\frac{n+1}{2}\right)}-\theta\right|, & n \text { 是奇数 }\end{cases}

j\forall j, 当 θ[x(j),x(nj+1)]\theta \in\left[x_{(j)}, x_{(n-j+1)}\right] 时, (x(j)θ+x(n+1j)θ)\left(\left|x_{(j)}-\theta\right|+\left|x_{(n+1-j)}-\theta\right|\right) 取到最小值; 而当 nn 是奇数时, 当 θ=x(n+12)\theta=x_{\left(\frac{n+1}{2}\right)} 时, x(n+12)θ\left|x_{\left(\frac{n+1}{2}\right)}-\theta\right| 达到最小.
nn 为偶数, 则当 θj=1n/2[x(j),x(nj+1)]=[x(n2),x(n2+1)]\theta \in \bigcap_{j=1}^{n / 2}\left[x_{(j)}, x_{(n-j+1)}\right]=\left[x_{\left(\frac{n}{2}\right)}, x_{\left(\frac{n}{2}+1\right)}\right] 时, 所有的 (x(j)θ+x(n+1j)θ)\left(\left|x_{(j)}-\theta\right|+\left|x_{(n+1-j)}-\theta\right|\right) 均取最小值, 则此时 h(θ)h(\theta) 取最小值.
nn 为奇数, 则当 θ{x(n+12)}j=1n12[x(j),x(nj+1)]={x(n+12)}\theta \in\left\{x_{\left(\frac{n+1}{2}\right)}\right\} \cap \bigcap_{j=1}^{\frac{n-1}{2}}\left[x_{(j)}, x_{(n-j+1)}\right]=\left\{x_{\left(\frac{n+1}{2}\right)}\right\} 时, 所有的 (x(j)θ+x(n+1j)θ)\left(\left|x_{(j)}-\theta\right|+\left|x_{(n+1-j)}-\theta\right|\right) 以及 x(n+12)θ\left|x_{\left(\frac{n+1}{2}\right)}-\theta\right| 均取最小值, 则此时 h(θ)h(\theta) 取最小值.
所以当 nn 是奇数时, 样本中位数 θ^n=x(n+12)\hat{\theta}_n=x_{\left(\frac{n+1}{2}\right)}θ\theta 的 MLE; 当 nn 是偶数时, θ^n[x(n2),x(n2+1)]\forall \hat{\theta}_n \in\left[x_{\left(\frac{n}{2}\right)}, x_{\left(\frac{n}{2}+1\right)}\right] 都 是 θ\theta 的 MLE.