中国科学技术大学-432统计学-2023年

一、填空题(每题5分,共50分)

  1. 投掷硬币 nn 次, 已知正面出现了 kk 次, 则前两次是正面的概率是 \underline{\qquad}.

Solution: k(k1)n(n1)\frac{k(k-1)}{n(n-1)}.

P(X1=1,X2=1i=1nXi=k)=P(X1=1,X2=1,i=3nXi=k2)Cnk(12)n=1212Cn2k2(12)n2Cnk(12)n=k(k1)n(n1).\begin{aligned} P\left( X_1=1,X_2=1\left| \sum_{i=1}^n{X_i}=k \right. \right) &=\frac{P\left( X_1=1,X_2=1,\sum_{i=3}^n{X_i}=k-2 \right)}{C_{n}^{k}\left( \frac{1}{2} \right) ^n}\\ &=\frac{\frac{1}{2}\cdot \frac{1}{2}\cdot C_{n-2}^{k-2}\left( \frac{1}{2} \right) ^{n-2}}{C_{n}^{k}\left( \frac{1}{2} \right) ^n}=\frac{k\left( k-1 \right)}{n\left( n-1 \right)}.\\ \end{aligned}


  1. 设有三角形 ABCABC, 某人最开始站在 AA 点, 随机的向另外两个点走去, 随后每次如此, 问第 nn 次他走向 AA 点的概率是 \underline{\qquad}.

Solution: 13(1(12)n1)\frac{1}{3}\left( 1-\left( -\frac{1}{2} \right) ^{n-1} \right).

考虑状态法, 设 an,bn,cna_n,b_n,c_n 分别是它第 nn 次之后位于三点的概率, 有 a0=1,b0=0,c0=0a_0=1,b_0=0,c_0=0, 以及 a1=0,b1=12,c1=12a_1=0,b_1=\frac{1}{2},c_1=\frac{1}{2}. 显然所求概率应为 pn=1an12p_n = \frac{1-a_{n-1}}{2}, 即它上一次之后不在 AA 点的概率, 再等分给他可以前往的两点.

用全概率公式有

{an+1=0an+12bn+12cn,bn+1=12an+0bn+12cn,an+1=12an+12bn+0cn,(an+1bn+1cn+1)=(012121201212120)(anbncn),\begin{cases} a_{n+1}=0\cdot a_n+\frac{1}{2}\cdot b_n+\frac{1}{2}\cdot c_n,\\ b_{n+1}=\frac{1}{2}\cdot a_n+0\cdot b_n+\frac{1}{2}\cdot c_n,\\ a_{n+1}=\frac{1}{2}\cdot a_n+\frac{1}{2}\cdot b_n+0\cdot c_n,\\ \end{cases}\quad \Rightarrow \quad \left( \begin{array}{c} a_{n+1}\\ b_{n+1}\\ c_{n+1}\\ \end{array} \right) =\left( \begin{matrix} 0& \frac{1}{2}& \frac{1}{2}\\ \frac{1}{2}& 0& \frac{1}{2}\\ \frac{1}{2}& \frac{1}{2}& 0\\ \end{matrix} \right) \left( \begin{array}{c} a_n\\ b_n\\ c_n\\ \end{array} \right) ,

可以用这个矩阵 nn 次方去算, 该方法称为马尔科夫链. 但是根据对称性, 我们知道 bn=cnb_n=c_n, 故 bn=cn=1an2b_n=c_n=\frac{1-a_n}{2}, 到最后只剩 ana_n 一个序列了, 我们反表示出 an=12pn+1a_n=1-2p_{n+1}, bn=cn=pn+1b_n=c_n=p_{n+1}, 代入第一个全概率公式即为

12pn+2=pn+1,pn+113=12(pn13),1-2p_{n+2}=p_{n+1},\quad \Rightarrow \quad p_{n+1}-\frac{1}{3}=-\frac{1}{2}\left( p_{n}-\frac{1}{3} \right) ,

代入 p0=0p_0=0, 解得

pn=13+(12)n1(013)=13(1(12)n1).p_n=\frac{1}{3}+\left( -\frac{1}{2} \right) ^{n-1}\left( 0-\frac{1}{3} \right) =\frac{1}{3}\left( 1-\left( -\frac{1}{2} \right) ^{n-1} \right) .


  1. 已知将 A,B,CA,B,C 三个子母输入信道, 输出正确的概率是 0.80.8, 输出为其他字母的概率是 0.1,0.10.1,0.1. 现在, 等概率地输入 AAAA,BBBB,CCCCAAAA,BBBB,CCCC, 且观测到 ACBAACBA, 问输入是 AAAAAAAA 的概率为 \underline{\qquad}.

Solution: 0.80.8.

利用全概率公式得

P(out:ACBA)=13(0.820.12)+13(0.130.8)+13(0.130.8)=0.00266667,P\left( \mathrm{out}:ACBA \right) =\frac{1}{3}\cdot \left( 0.8^2\cdot 0.1^2 \right) +\frac{1}{3}\cdot \left( 0.1^3\cdot 0.8 \right) +\frac{1}{3}\cdot \left( 0.1^3\cdot 0.8 \right) =0.00266667,

利用贝叶斯公式得

P(in:AAAA)=13(0.820.12)P(out:ACBA)=0.8.P\left( \mathrm{in}:AAAA \right) =\frac{\frac{1}{3}\cdot \left( 0.8^2\cdot 0.1^2 \right)}{P\left( \mathrm{out}:ACBA \right)}=0.8.


  1. 检验的 pp 值是否为统计量? \underline{\qquad}.

Solution: 是.

pp 值依赖于观测到的样本, 属于统计量.


  1. 下列说法正确的个数是 \underline{\qquad}.
    (1) R2R^2 越小说明方程的拟合越好;
    (2) R2R^2 越大说明方程的拟合越好;
    (3) 残差 e=y^ye=\hat{y}-y 越大说明方程的拟合越好;
    (4) 残差分析图中, 点的分布越平稳说明方程的拟合越好, 且点分布带状图越窄, 说明拟合精度越高.

Solution: 2.

(1) (3) 显然错误, (2) (4) 正确.


  1. 对任意三角形 ABCABC 内部取一点 PP, 在 BCBC 上取 QQ, 则直线 PQPQABAB 相交的概率是 \underline{\qquad}.
    A. 12\frac{1}{2}
    B. BCAB+BC\frac{|BC|}{|AB|+|BC|}
    C. BC2AB+BC\frac{|BC|^2}{|AB|+|BC|}
    D. AB+AC+BC2AB+AC+BC\frac{|AB|+|AC|+\frac{|BC|}{2}}{|AB|+|AC|+|BC|} 不确定

Solution: A.

设三角形的边 BC=aBC=a, BB 为原点, BCBCxx 轴, 则 QU(0,a)Q\sim U(0,a), PU(ΔABC)P\sim U(\Delta ABC). 先取定 Q=(q,0)Q=(q,0), 连接 AQAQ, PP 要落在 ΔABQ\Delta ABQ 里才能满足题设条件, 故有

Pr(PΔABQQ=q)=SΔABQSΔABC=qa,\mathrm{Pr}\left( P\in \Delta ABQ|Q=q \right) =\frac{S_{\Delta ABQ}}{S_{\Delta ABC}}=\frac{q}{a},

再让 qq 动起来, 有

Pr(PQAB)=0aqa1adq=12.\mathrm{Pr}\left( PQ\cap AB \right) =\int_0^a{\frac{q}{a}\cdot \frac{1}{a}}dq=\frac{1}{2}.


  1. X1,,X9X_1,\cdots,X_9 是 i.i.d. 的 N(0,1)N(0,1) 随机变量, 下列正确的是 \underline{\qquad}.
    A. X12+X22+X32X42++X92F(3,6)\frac{X_1^2+X_2^2+X_3^2}{X_4^2+\cdots+X_9^2}\sim F(3,6)
    B. 2X12+X22+X32X42++X92F(3,6)2\frac{X_1^2+X_2^2+X_3^2}{X_4^2+\cdots+X_9^2}\sim F(3,6)
    C. X12X12+X22F(1,2)\frac{X_1^2}{X_1^2+X_2^2} \sim F(1,2)
    D. 2X12X12+X22F(1,2)\frac{2X_1^2}{X_1^2+X_2^2} \sim F(1,2)

Solution: B.

注意 C, D 并不满足分子分母的独立性.


  1. 已知 XP(λ)X\sim \mathcal{P}(\lambda), YP(μ)Y\sim \mathcal{P}(\mu), 且它们独立, 求 E(XX+Y=n)=E(X|X+Y=n)=\underline{\qquad}.

Solution: λnλ+μ\frac{\lambda n}{\lambda+\mu}.

P(X=kX+Y=n)=P(X=k,Y=nk)P(X+Y=n)=λkk!eλμnk(nk)!eμ(λ+μ)nn!e(λ+μ)=Cnk(λλ+μ)k(μλ+μ)nk,P\left( X=k|X+Y=n \right) =\frac{P\left( X=k,Y=n-k \right)}{P\left( X+Y=n \right)}=\frac{\frac{\lambda ^k}{k!}e^{-\lambda}\frac{\mu ^{n-k}}{\left( n-k \right) !}e^{-\mu}}{\frac{\left( \lambda +\mu \right) ^n}{n!}e^{-\left( \lambda +\mu \right)}}=C_{n}^{k}\left( \frac{\lambda}{\lambda +\mu} \right) ^k\left( \frac{\mu}{\lambda +\mu} \right) ^{n-k},

因此 X+Y=nX+Y=n 时, XX 的条件分布是 B(n,λλ+μ)B(n,\frac{\lambda}{\lambda +\mu}), 故期望是 λnλ+μ\frac{\lambda n}{\lambda+\mu}.


  1. CLT,忘了,比较简单

  2. 忘了


二、计算分析题

  1. (25分) 已知 Xf(x)=12e12x,x>0X\sim f(x)=\frac{1}{2}e^{-\frac{1}{2}x},x>0, YU(0,1)Y\sim U(0,1), 且它们独立.
    (1) 求联合密度 f(x,y)f(x,y);
    (2) 求 Z=X+YZ=X+Y 的密度函数;
    (3) 求 t2+2Xt+Y=0t^2+2Xt+Y=0 有实根的概率, 保留 3 位小数.

Solution: (1) 根据独立性, 有

f(x,y)=12e12x,x>0,0<1<y.f(x,y)=\frac{1}{2}e^{-\frac{1}{2}x},\quad x>0,\quad 0<1<y.

(2) 作变量变换, 有

{Z=X+Y,W=Y,{z=x+y,w=y,{x=zw,y=w,J=1101=1,\begin{cases} Z=X+Y,\\ W=Y,\\ \end{cases}\Rightarrow \begin{cases} z=x+y,\\ w=y,\\ \end{cases}\Rightarrow \begin{cases} x=z-w,\\ y=w,\\ \end{cases}\Rightarrow J=\left| \begin{matrix} 1& -1\\ 0& 1\\ \end{matrix} \right|=1,

因此有

fZ,W(z,w)=f(zw,w)=12ez2+w2,z>w,0<w<1,f_{Z,W}\left( z,w \right) =f\left( z-w,w \right) =\frac{1}{2}e^{-\frac{z}{2}+\frac{w}{2}},\quad z>w,0<w<1,

积掉 WW, 得

fZ(z)=12ez20min{z,1}ew2dw=ez2(emin{z,1}21)={ez2(e121),z>1,1ez2,0<z<1.f_Z\left( z \right) =\frac{1}{2}e^{-\frac{z}{2}}\int_0^{\min \left\{ z,1 \right\}}{e^{\frac{w}{2}}dw}=e^{-\frac{z}{2}}\left( e^{\frac{\min \left\{ z,1 \right\}}{2}}-1 \right) =\begin{cases} e^{-\frac{z}{2}}\left( e^{\frac{1}{2}}-1 \right) ,& z>1,\\ 1-e^{-\frac{z}{2}},& 0<z<1.\\ \end{cases}

(3) Δ=4X24Y\Delta = 4X^2 -4Y, 故所求概率为 P(X2Y)P(X^2\ge Y), 有

P(X2Y)=01P(Xy)fY(y)dy=01ey2dy=8(132e12)=0.721632.P\left( X^2\ge Y \right) =\int_0^1{P\left( X\ge \sqrt{y} \right) f_Y\left( y \right) dy}=\int_0^1{e^{-\frac{\sqrt{y}}{2}}dy}=8\left( 1-\frac{3}{2}e^{-\frac{1}{2}} \right) =0.721632.


  1. (10分) 假设检验问题: 给出两组正态总体数据 X,YX,Y.
    (1) 检验 H0:σ12=σ22H_0:\sigma_1^2 =\sigma_2^2;
    (2) 检验 H0:μ1=μ2H_0:\mu_1=\mu_2.

  1. (25分) 有来自总体 f(x,a)=2xa2,0<x<af(x,a)=\frac{2x}{a^2},0<x<a 的 i.i.d. 样本 x1,,xnx_1,\cdots,x_n, 已知 a>1a>1.
    (1) 求 aa 的矩估计 a^1\hat{a}_1, 最大似然估计 a^2\hat{a}_2, 以及 P(0<X<a)P(0<X<\sqrt{a}) 的MLE;
    (2) a^1\hat{a}_1, a^2\hat{a}_2 是否为无偏估计, 若不是请修正;
    (3) 求 n(aa^2)n(a-\hat{a}_2)nn\to \infty 的渐近分布.

Solution: (1) 求总体期望 E(X)E(X), 利用 XaBeta(2,1)\frac{X}{a}\sim Beta(2,1) 或直接积分有 E(X)=23aE(X)=\frac{2}{3}a, 由替换原理, 得 a^1=32xˉ\hat{a}_1=\frac{3}{2}\bar{x}.

再写似然函数, 有

L(a)=2ni=1nxia2n,a>max{x(n),1},L\left( a \right) =\frac{2^n\prod_{i=1}^n{x_i}}{a^{2n}},\quad a>\max \left\{ x_{\left( n \right)},1 \right\} ,

可以看出似然函数关于 aa 递减, 故有

a^2=max{x(n),1}={1,x(n)<1,x(n),x(n)1.\hat{a}_2=\max \{x_{(n)},1\}=\begin{cases} 1,& x_{\left( n \right)}<1,\\ x_{\left( n \right)},& x_{\left( n \right)}\ge 1.\\ \end{cases}

(2) 由于 E(xˉ)=23aE(\bar{x})=\frac{2}{3}a, 显然 a^1\hat{a}_1 无偏.

对于 a^2\hat{a}_2, 先求 x(n)x_{(n)} 的分布, 有

P(x(n)t)=Pn(Xt)=(ta)2n,fn(t)=2nt2n1a2n,0<t<a,P\left( x_{\left( n \right)}\le t \right) =P^n\left( X\le t \right) =\left( \frac{t}{a} \right) ^{2n},\quad f_n\left( t \right) =\frac{2nt^{2n-1}}{a^{2n}},\quad 0<t<a,

实际上即为 x(n)aBe(2n,1)\frac{x_{(n)}}{a}\sim Be(2n,1), 故有

E(a^2)=01fn(t)dt+1atfn(t)dt=1a2n+2n2n+1(a1a2n)=2n2n+1a+12n+11a2n,E\left( \hat{a}_2 \right) =\int_0^1{f_n\left( t \right) dt}+\int_1^a{tf_n\left( t \right) dt}=\frac{1}{a^{2n}}+\frac{2n}{2n+1}\left( a-\frac{1}{a^{2n}} \right) =\frac{2n}{2n+1}\cdot a+\frac{1}{2n+1}\cdot \frac{1}{a^{2n}},

由于 a>1a>1, 故 1a2n<1\frac{1}{a^{2n}}<1, 因此

2n2n+1a+12n+11a2n<2n2n+1a+12n+1<a.\frac{2n}{2n+1}\cdot a+\frac{1}{2n+1}\cdot \frac{1}{a^{2n}}<\frac{2n}{2n+1}\cdot a+\frac{1}{2n+1}<a.

a^2\hat{a}_2 不无偏. 直接乘一个不含 aa 的数不可能修正为无偏估计, 但我们发现在求期望的过程中, 如果写成

01fn(t)dt+2n+12n1atfn(t)dt=1a2n+(a1a2n)=a,\int_0^1{f_n\left( t \right) dt}+\frac{2n+1}{2n}\int_1^a{tf_n\left( t \right) dt}=\frac{1}{a^{2n}}+\left( a-\frac{1}{a^{2n}} \right) =a,

则恰好是无偏估计, 这对应的估计量是

a~2={1,x(n)<1,2n+12nx(n),x(n)1.\tilde{a}_2=\begin{cases} 1,& x_{\left( n \right)}<1,\\ \frac{2n+1}{2n}x_{\left( n \right)},& x_{\left( n \right)}\ge 1.\\ \end{cases}

(3) 记 Tn=n(aa^2)T_n = n(a-\hat{a}_2), 则有

P(Tnt)=P(n(aa^2)t)=P(aa^2tn)=P(a^2atn),P\left( T_n\le t \right) =P\left( n\left( a-\hat{a}_2 \right) \le t \right) =P\left( a-\hat{a}_2\le \frac{t}{n} \right) =P\left( \hat{a}_2\ge a-\frac{t}{n} \right) ,

对于 t>0t>0, 总有 nn 足够大使得 atn>1a-\frac{t}{n}>1, 因此

P(a^2atn)=P(x(n)atn)=1(1tan)2n1e2ta,t>0,P\left( \hat{a}_2\ge a-\frac{t}{n} \right) =P\left( x_{\left( n \right)}\ge a-\frac{t}{n} \right) =1-\left( 1-\frac{t}{an} \right) ^{2n}\rightarrow 1-e^{-\frac{2t}{a}},\quad t>0,

这说明 n(aa^2)dExp(2a)n(a-\hat{a}_2)\xrightarrow{d}Exp(\frac{2}{a}).


  1. (15分) 叙述题:(1) 叙述多重共线性的定义;
    (2) 如何判断多重共线性:
    (3) 如何消除多重共线性:
    (4) 叙述自变量的选择标准.

Solution: (1) 在回归分析中,如果两个或两个以上自变量之间存在相关性,这种自变量之间的相关性,就称作多重共线性,也称作自变量间的相关性。多重共线性的存在违背了线性回归模型的基本假设,变量之间的线性相关性将会导致矩阵 XTXX^TX 不满秩,进而导致最小二乘估计不唯一。

(2) 可以借助方差膨胀因子 VIF 来判断共线性,计算公式是

VIFj=11Rj2,VIF_j = \frac{1}{1-R_j^2},

一般我们认为 VIF > 10 时,存在多重共线性,该特征需要删除。

我们也可以分析矩阵 XTXX^TX 的特征值,如果该矩阵的最小特征值非常接近于 0,我们也认为存在多重共线性。

(3) 可利用逐步回归筛选并剔除引起多重共线性的变量,其具体步骤如下:先用被解释变量对每一个所考虑的解释变量做简单回归,然后以对被解释变量贡献最大的解释变量所对应的回归方程为基础,再逐步引入其余解释变量。经过逐步回归,使得最后保留在模型中的解释变量既是重要的,又没有严重多重共线性。

(4) 在模型中加入自变量时,要尽量使得:残差平方和缩小或决定系数增大,若某一自变量被引入模型后 SSE 减小很多,说明该变量对反映变量 yy 的作用大,可被引入;反之,说明其对 yy 的作用小,不应该被引入。此外,还可以根据赤池信息准则(AIC)、贝叶斯信息准则(BIC)、对数似然函数值(LLH)等方法判断。


  1. (25分) 设有来自 f(x;λ)=λeλxf(x;\lambda)=\lambda e^{-\lambda x} 指数分布的 i.i.d. 样本 x1,,xnx_1,\cdots,x_n, 但由于某种原因只能观测到 Ai=I{ai<xi<bi}A_i=I_{\{a_i<x_i<b_i\}}, 其中 ai,bia_i,b_i 是给定常数, i=1,2,,ni=1,2,\cdots,n.
    (1) 写出 (A1,,An)(A_1,\cdots,A_n) 对应的对数似然函数 A(λ)\ell_A(\lambda), 同时写出完整样本 (x1,,xn)(x_1,\cdots,x_n) 对应的对数似然函数 X(λ)\ell_X(\lambda);
    (2) 写出基于 A(λ)\ell_A(\lambda) 所求 MLE 满足的等式;
    (3) 分别考虑两个步骤:
    (i) E 步: 考虑 XExp(λk)X\sim Exp(\lambda_k), 求条件期望

Q(λλk)=E[X(λ)A,λk],Q(\lambda|\lambda_k) = E[\ell_X(\lambda)|A,\lambda_k],

(ii) M 步: 极大化 Q(λ)Q(\lambda), 即

λk+1=argmaxλQ(λλk).\lambda_{k+1} =\underset{\lambda}{\mathrm{argmax}} Q(\lambda|\lambda_k).

(4) 证明: 通过两个步骤迭代得到的序列 λnλ^\lambda_n \to \hat{\lambda}, 其中 λ^\hat{\lambda} 是基于 A(λ)\ell_A(\lambda) 求得的 MLE. (提示:和 ai,bi,λk,λ0a_i,b_i,\lambda_k,\lambda_0 有关)

Solution: (1) 每个 AiA_i 都是两点分布, 其参数是

pi(λ)=P(ai<xi<bi)=eλaieλbi,p_i(\lambda) = P(a_i<x_i<b_i)= e^{-\lambda a_i}-e^{-\lambda b_i},

因此有

LA(λ)=i=1npiAi(1pi)1Ai=i=1npiAii=1n(1pi)1Ai,L_A\left( \lambda \right) =\prod_{i=1}^n{p_{i}^{A_i}\left( 1-p_i \right) ^{1-A_i}}=\prod_{i=1}^n{p_{i}^{A_i}}\cdot \prod_{i=1}^n{\left( 1-p_i \right) ^{1-A_i}},

故有

A(λ)=i=1nAilnpi+i=1n(1Ai)ln(1pi).\ell _A\left( \lambda \right) =\sum_{i=1}^n{A_i\ln p_i}+\sum_{i=1}^n{\left( 1-A_i \right) \ln \left( 1-p_i \right)}.

而全样本对应的对数似然函数是指数分布的联合密度取对数, 即

X(λ)=nlnλλi=1nxi.\ell _X\left( \lambda \right) =n\ln \lambda -\lambda \sum_{i=1}^n{x_i}.

(2) 记 qi(λ)=aieλaibieλbiq_i(\lambda) = a_ie^{-\lambda a_i} - b_ie^{-\lambda b_i}, 实际上即 qi=piλq_i = -\frac{\partial p_i}{\partial \lambda}, 求导有

Aλ=i=1nAiqipi+i=1n(1Ai)qi1pi=i=1nqi(Aipi1Ai1pi)=i=1nqiAipipi(1pi),\begin{aligned} \frac{\partial \ell _A}{\partial \lambda}&=\sum_{i=1}^n{A_i\frac{-q_i}{p_i}}+\sum_{i=1}^n{\left( 1-A_i \right) \frac{q_i}{1-p_i}}\\ &=-\sum_{i=1}^n{q_i\left( \frac{A_i}{p_i}-\frac{1-A_i}{1-p_i} \right)}=-\sum_{i=1}^n{q_i\frac{A_i-p_i}{p_i\left( 1-p_i \right)},}\\ \end{aligned}

因此 MLE λ^\hat{\lambda} 满足

i=1nqi(λ^)Aipi(λ^)pi(λ^)(1pi(λ^))=0.\sum_{i=1}^n{q_i\left( \hat{\lambda} \right) \frac{A_i-p_i\left( \hat{\lambda} \right)}{p_i\left( \hat{\lambda} \right) \left( 1-p_i\left( \hat{\lambda} \right) \right)}}=0.

(3) 先求 E[xkAk]E[x_k|A_k], 有

E[xiAi=1]=E[xiI{ai<xi<bi}]P(ai<xi<bi)=1λ+qipi,E\left[ x_i\mid A_i=1 \right] =\frac{E\left[ x_iI_{\left\{ a_i<x_i<b_i \right\}} \right]}{P\left( a_i<x_i<b_i \right)}=\frac{1}{\lambda}+\frac{q_i}{p_i},

其中分子利用了

aibiλxeλxdx=1λλaiλbiueudu=1λ[(λai+1)eλai(λbi+1)eλbi]=qi+piλ.\int_{a_i}^{b_i}{\lambda xe^{-\lambda x}dx}=\frac{1}{\lambda}\int_{\lambda a_i}^{\lambda b_i}{ue^{-u}du}=\frac{1}{\lambda}\left[ \left( \lambda a_i+1 \right) e^{-\lambda a_i}-\left( \lambda b_i+1 \right) e^{-\lambda b_i} \right] =q_i+\frac{p_i}{\lambda}.

同理用 E[xiI{x(ai,bi)}]=E[xi]E[xiI{xi(ai,bi)}]E[x_iI_{\{x\notin (a_i,b_i)\}}]=E[x_i]-E[x_iI_{\{x_i\in(a_i,b_i)\}}], 有

E[xiAi=0]=1piλqi1pi=1λqi1pi.E\left[ x_i\mid A_i=0 \right] =\frac{\frac{1-p_i}{\lambda}-q_i}{1-p_i}=\frac{1}{\lambda}-\frac{q_i}{1-p_i}.

因此有 E 步是:

Q(λλk)=E[X(λ)A,λk]=nlnλλi=1nE[xiAi,λk]=nlnλλi=1n(1λk+qi(λk)(Aipi(λk)1Ai1pi(λk)))=nlnλnλλkλi=1nqi(λk)Aipi(λk)pi(λk)(1pi(λk)).\begin{aligned} Q\left( \lambda |\lambda _k \right) &=E\left[ \ell _X\left( \lambda \right) |A,\lambda _k \right]\\ &=n\ln \lambda -\lambda \sum_{i=1}^n{E\left[ x_i\mid A_i,\lambda _k \right]}\\ &=n\ln \lambda -\lambda \sum_{i=1}^n{\left( \frac{1}{\lambda _k}+q_i\left( \lambda _k \right) \left( \frac{A_i}{p_i\left( \lambda _k \right)}-\frac{1-A_i}{1-p_i\left( \lambda _k \right)} \right) \right)}\\ &=n\ln \lambda -\frac{n\lambda}{\lambda _k}-\lambda \sum_{i=1}^n{q_i\left( \lambda _k \right)}\frac{A_i-p_i\left( \lambda _k \right)}{p_i\left( \lambda _k \right) \left( 1-p_i\left( \lambda _k \right) \right)}.\\ \end{aligned}

再考虑 M 步: 对 Q(λλk)Q(\lambda|\lambda_k) 求极大化(注意 λk\lambda_k 是常数, 只有 λ\lambda 是变量), 可以求导得

Qλ=nλnλki=1nqi(λk)Aipi(λk)pi(λk)(1pi(λk)),\frac{\partial Q}{\partial \lambda}=\frac{n}{\lambda}-\frac{n}{\lambda _k}-\sum_{i=1}^n{q_i\left( \lambda _k \right)}\frac{A_i-p_i\left( \lambda _k \right)}{p_i\left( \lambda _k \right) \left( 1-p_i\left( \lambda _k \right) \right)},

解得极值点满足

1λ=1λk+1ni=1nqi(λk)Aipi(λk)pi(λk)(1pi(λk)),\frac{1}{\lambda}=\frac{1}{\lambda _k}+\frac{1}{n}\sum_{i=1}^n{q_i\left( \lambda _k \right)}\frac{A_i-p_i\left( \lambda _k \right)}{p_i\left( \lambda _k \right) \left( 1-p_i\left( \lambda _k \right) \right)},

故有

λk+1=11λk+1ni=1nqi(λk)Aipi(λk)pi(λk)(1pi(λk)).\lambda _{k+1}=\frac{1}{\frac{1}{\lambda _k}+\frac{1}{n}\sum_{i=1}^n{q_i\left( \lambda _k \right)}\frac{A_i-p_i\left( \lambda _k \right)}{p_i\left( \lambda _k \right) \left( 1-p_i\left( \lambda _k \right) \right)}}.

(4) 该序列满足

1λk+1=1λk+1ni=1nqi(λk)Aipi(λk)pi(λk)(1pi(λk)),\frac{1}{\lambda _{k+1}}= \frac{1}{\lambda_k} + \frac{1}{n}\sum_{i=1}^n{q_i\left( \lambda _k \right)}\frac{A_i-p_i\left( \lambda _k \right)}{p_i\left( \lambda _k \right) \left( 1-p_i\left( \lambda _k \right) \right)},

D(λk)=i=1nqi(λk)Aipi(λk)pi(λk)(1pi(λk))D(\lambda_k) =- \sum_{i=1}^n{q_i\left( \lambda _k \right)}\frac{A_i-p_i\left( \lambda _k \right)}{p_i\left( \lambda _k \right) \left( 1-p_i\left( \lambda _k \right) \right)}, 这恰好是 A\ell_Aλk\lambda_k 点的导数, 而

1λk+1=1λk1nD(λk),\frac{1}{\lambda_{k+1}} = \frac{1}{\lambda_k} - \frac{1}{n} \cdot D(\lambda_k),

该序列保证了 λk\lambda_k 在导数的同方向迭代, 即保证了函数值 A\ell_A 的上升, 因此 {λn}\{\lambda_n\} 一定收敛到 A\ell_A 的某个驻点, 即导数为 0 的点, 即 λ^\hat{\lambda}.