北京师范大学-432统计学-2024年

一、(30分) 试卷中给出了一组数据.

(1) 求该组数据α\alpha分位数的表达式.

(2) 用两种盒形图描述以上数据, 并说明主要数值的具体含义.

(3) 设wi(0,1)w_i \in (0,1), 且i=1nwi=1\sum_{i=1}^n w_i = 1, 定义Xˉw=i=1nwiXi\bar{X}_w = \sum_{i=1}^n w_i X_i, 证明:

i=1n(XiXˉw)2=12i=1nwiwj(XiXj)2\sum_{i=1}^n \left( X_i - \bar{X}_w \right)^2 = \frac{1}{2} \sum_{i=1}^n w_iw_j \left(X_i-X_j\right)^2

并解释该等式的含义.

Solution: (1) 样本α\alpha分位数mαm_{\alpha}指的是在nn个样本X1,,XnX_1,\cdots,X_n中, 小于等于mαm_{\alpha}的比例1ni=1nI{Ximα}=α\frac{1}{n}\sum_{i=1}^n I_{\{X_i \le m_{\alpha}\}}= \alpha, 这个定义来源于总体分位数P(Xxα)=αP(X\le x_{\alpha}) = \alpha.

(2) 盒形图(Boxplot)是一种用于显示一组数据分布情况的图表。通常,盒形图包括以下部分:

中位数:数据的中位数,表示为盒子中的一条线。

四分位数:数据的第一四分位数(Q1)和第三四分位数(Q3),分别表示数据分布的25%和75%位置。这两个值定义了盒子的边界。

“胡须”(Whiskers):从盒子外延伸出的线,通常延伸到1.5倍的四分位距(即Q3 - Q1)之外的最近的数据点。

异常值:通常使用点来表示,这些点位于胡须之外。

盒形图的两种常见变体是:(a) 标准盒形图:使用上述标准定义的元素。(b) 调整后的盒形图:可能有不同的方法来计算“胡须”的长度,例如,它们可能延伸到所有非异常值数据点,或者使用不同的倍数来计算四分位距。

随机生成了20个数据, 画图作为示例:

(3) 从右侧出发:

2RHS:=i=1nj=1nwiwj(XiXj)2=i=1nwij=1nwj(Xi2+Xj22XiXj)=i=1nwi(Xi2+j=1nwjXj22XiXˉw)=i=1nwiXi2+j=1nwjXj22Xˉw2=2(i=1nwiXi2Xˉw2)=i=1nwi(XiXˉw)2\begin{aligned} 2\mathrm{RHS}:&=\sum_{i=1}^n{\sum_{j=1}^n{w_iw_j\left( X_i-X_j \right) ^2}}=\sum_{i=1}^n{w_i\sum_{j=1}^n{w_j\left( X_{i}^{2}+X_{j}^{2}-2X_iX_j \right)}}\\ &=\sum_{i=1}^n{w_i\left( X_{i}^{2}+\sum_{j=1}^n{w_jX_{j}^{2}}-2X_i\bar{X}_w \right)}\\ &=\sum_{i=1}^n{w_iX_{i}^{2}}+\sum_{j=1}^n{w_jX_{j}^{2}}-2{\bar{X}_w}^2\\ &=2\left( \sum_{i=1}^n{w_iX_{i}^{2}}-{\bar{X}_w}^2 \right) =\sum_{i=1}^n{w_i\left( X_i-\bar{X}_w \right) ^2}\\ \end{aligned}

原问题中, 等式左侧表示加权计算的方差, 表达了离散程度, 等式右侧则表示两两样本离差平方的加权组合, 也表示了离散程度.

Remark: 第(3)问是九阳神功-北师大432统计学-2023年大题第2题变式.

二、(30分) 袋中有nn个编号为1,2,,n1,2,\cdots,n的小球, 随机取11个.

(1) 写出该问题的概率空间.

(2) 设n=4n=4, 举例分别满足以下的事件A,B,CA, B, C:

(a)P(BA)<P(B)P(B|A)<P(B);

(b)P(BA)=P(B)P(B|A) = P(B);

(c)P(BA)>P(B)P(B|A) > P(B);

(d) 两两独立, 但不相互独立.

(3) 设袋中有aa个红球,bb个白球, 假设每次从袋中有放回去取一个球, 直到摸到第rr个红球停止, 此时次数为XX, 求XX的分布列和期望.

Solution: (1)
样本空间是所有可能结果的集合。在这个实验中,每次实验的结果是取出一个具有特定编号的小球。因此,样本空间Ω\Omega可以定义为:
Ω={1,2,,n}\Omega = \{1, 2, \cdots, n\}.

事件域F\mathcal{F}是样本空间的所有子集,包括空集和样本空间本身, 可以写作F={A:AΩ}\mathcal{F}=\{A: A\subset \Omega\}.

概率测度: 在这个实验中,由于我们是随机取出一个小球,每个小球被取出可以被视作样本点ωi=i\omega_i = i, 它们的概率都是相等的,都是1n\frac{1}{n}, 即P({i})=1nP\left(\{i\}\right) = \frac{1}{n}.

结合之,(Ω,F,P)\left(\Omega,\mathcal{F},P\right)是该问题的概率空间.

(2) (a)A={1,2}A=\{1,2\},B={3}B=\{3\}; (b)A={1,2,3,4}A=\{1,2,3,4\},B={1}B=\{1\}; (c)A={1,2}A=\{1,2\},B={1}B=\{1\}; (d)A={1,2}A=\{1,2\},B={2,3}B=\{2,3\},C={3,4}C=\{3,4\}.

(3)XX是负二项分布Nb(p,r)Nb(p,r), 其中p=aa+bp = \frac{a}{a+b}, 故分布列是

P(X=k)=Ck1r1pr(1p)kr,k=r,r+1,,P\left( X = k \right) = C_{k-1}^{r-1} p^{r}\left(1-p\right)^{k-r}, k = r,r+1,\cdots,

期望是E(X)=rp=a+barE(X) = \frac{r}{p} = \frac{a+b}{a}r.

三、(30分) 有来自U(a,b)U(a,b)的随机样本X1,,XnX_1,\cdots,X_n.

(1) 求bab-a的 MLE, 判断其无偏性.

(2) 求bab-a的矩估计.

(3) 在某次拍卖会, 甲、乙、丙对一件物品竞拍, 每人出价一次, 价高者得. 且已知甲如果买下该商品, 将以 8 万元转卖. 现在甲知道乙、丙的出价均独立服从U(5,10)U(5,10), 请问甲如何出价使得期望收益最大?

Solution: (1) 联合概率密度函数为:
L(a,b)=i=1n1baL(a, b) = \prod_{i=1}^n \frac{1}{b-a}

最大化L(a,b)L(a, b)相当于最小化bab-a。在样本中,bb的最大似然估计是样本的最大值X(n)X_{(n)}aa的最大似然估计是样本的最小值X(1)X_{(1)}。因此,bab-a的最大似然估计是X(n)X(1)X_{(n)} - X_{(1)}.

接着我们判断无偏性. 我们考虑Yi=XiabaU(0,1)Y_i = \frac{X_i-a}{b-a} \sim U(0,1), 则有次序统计量分布Y(k)Be(k,n+1k)Y_{(k)} \sim Be(k,n+1-k), 因此E(Y(1))=1n+1E(Y_{(1)}) = \frac{1}{n+1},E(Y(n))=nn+1E(Y_{(n)})=\frac{n}{n+1}, 故E(X(1))=a+(ba)1n+1E(X_{(1)}) = a + (b-a) \frac{1}{n+1},E(X(n))=a+(ba)nn+1E(X_{(n)}) = a + (b-a) \frac{n}{n+1}, 因此E(X(n)X(1))=n1n+1(ba)baE(X_{(n)} - X_{(1)}) = \frac{n-1}{n+1}(b-a)\neq b-a, 所以这个估计量是有偏的.

(2) 均匀分布U(a,b)U(a, b)的均值和方差分别为μ=a+b2\mu = \frac{a + b}{2}σ2=(ba)212\sigma^2 = \frac{(b - a)^2}{12}。使用样本均值Xˉ\bar{X}和样本方差S2S^2来估计这两个参数,我们得到:b^a^=23s\hat{b} - \hat{a} = 2\sqrt{3} s.

(3) 设甲出价x[5,8]x \in [5,8], 乙、丙出价为YY,ZZ, 则甲的收益是

f(x,Y,Z)=(8x)I{xY,xZ},f\left(x, Y, Z\right) = \left(8-x\right) I_{\{x\ge Y,x\ge Z\}},

求期望有g(x)=Ef(x,Y,Z)=(8x)(x5)225g\left(x\right) = Ef\left(x, Y, Z\right) = \frac{\left(8-x\right)\left(x-5\right)^2}{25}, 用高数方法找其最大值在x=7x=7取到.

Remark: 前两问与九阳神功-北大849统计学-2021年第七题一致.

四、(30分) (1) 作出原假设的依据是什么? 原假设和备择假设的地位是否等同?

(2) 以正态分布为例, 简述置信区间和假设检验的区别和联系.

(3) 现有 81 个学生的成绩, 假设其来自于正态分布N(μ,σ2)N(\mu,\sigma^2), 且样本均值Xˉ=69.8\bar{X} = 69.8, 样本标准差s=10s = 10,α=0.05\alpha =0.05. (可能用到的分位数:t0.975(80)=1.99t_{0.975}(80)=1.99,u0.975=1.96u_{0.975} = 1.96,χ0.9752(80)=106.63\chi_{0.975}^2(80)=106.63) 请回答下述问题:

(a) 能否认为μ=72\mu = 72?

(b) 求μ\mu的置信区间.

(c) 能否认为σ=8.8\sigma = 8.8?

Solution: (1) 作出原假设(通常表示为H0H_0)的依据通常是以下几点:(i) 现有理论或知识:原假设往往基于现有的理论或广泛接受的知识。例如,如果现有理论表明两种药物效果相同,那么原假设可能就是“这两种药物的效果没有差异”。(ii) 简单性或保守性:在统计学中,原假设通常是一个简单假设,它提出了最简单、最保守的情况。例如,“新药与安慰剂效果无差别”是一个比“新药比安慰剂效果好”更简单、更保守的假设。(iii) 研究目的:研究者可能会根据研究目的来确定原假设。如果研究目的是证明某种新的干预措施有效,那么原假设可能就是“新干预措施与现有措施效果相同”。

此外, 原假设和备择假设(通常表示为H1H_1)在统计假设检验中的地位并不等同。原假设是被默认为真的假设,直到有足够的证据来拒绝它。备择假设则是与原假设相对立的假设,通常是研究者试图证明的假设。当统计证据不足以拒绝原假设时,我们并不接受备择假设,而是说没有足够的证据支持备择假设。这表明,在假设检验中,原假设具有一定的“优先权”。这种方法有助于控制做出错误结论的风险,特别是避免第一类错误。

(2) 区别: 置信区间是针对参数设立的集合, 拒绝域是针对样本的集合. 联系: 在形式上, 置信区间和拒绝域存在互补的关系(或说置信区间与接受域在形式上是等同的).

以正态分布为例, 正态分布N(μ,1)N(\mu,1)μ\mu的 0.95 置信区间是

xˉz0.975nμxˉ+z0.975n.\bar{x} - \frac{z_{0.975}}{\sqrt{n}}\le \mu \le \bar{x} + \frac{z_{0.975}}{\sqrt{n}}.

同时,H0:μ=μ0vsH1:μμ0H_0: \mu = \mu_0 \quad \mathrm{vs} \quad H_1: \mu \neq \mu_0的拒绝域是

W={xˉμ0>z0.975n},W=\{\left|\bar{x} - \mu_0\right| >\frac{z_{0.975}}{\sqrt{n}} \},

接受域可以写成W={x:xˉz0.975nμ0xˉ+z0.975n}W=\{x: \bar{x} - \frac{z_{0.975}}{\sqrt{n}}\le \mu_0 \le \bar{x} + \frac{z_{0.975}}{\sqrt{n}}\}. 显然, 置信区间与接受域在形式上是等同的, 但置信区间中,μ\mu是未知参数, 接受域中,μ0\mu_0是已知的, 且接受域和拒绝域中, 元素是样本, 而置信区间则是参数的集合.

(3) (a) 使用单样本t检验来确定是否可以拒绝原假设μ=72\mu = 72。检验统计量tt的计算公式为:
t=Xˉμ0s/nt = \frac{\bar{X} - \mu_0}{s / \sqrt{n}}
其中,Xˉ=69.8\bar{X} = 69.8,μ0=72\mu_0 = 72,s=10s = 10,n=81n = 81。计算得到的tt值为1.98-1.98,而在α=0.05\alpha = 0.05的显著性水平下的临界t值为 ±1.99(双尾检验)。因为计算出的t值在临界值的范围内,所以没有足够的证据拒绝原假设μ=72\mu = 72

(b) 对于μ\mu的95%置信区间,计算公式为:
Xˉ±t0.975×sn\bar{X} \pm t_{0.975} \times \frac{s}{\sqrt{n}}
其中,t0.975t_{0.975}为t分布在0.9750.975处的临界值。计算得到的置信区间为(67.59,72.01)(67.59, 72.01)

(c) 使用卡方检验来确定是否可以拒绝原假设σ=8.8\sigma = 8.8。检验统计量χ2\chi^2的计算公式为:
χ2=(n1)s2σ02\chi^2 = \frac{(n - 1)s^2}{\sigma_0^2}
其中,σ0=8.8\sigma_0 = 8.8。计算得到的χ2\chi^2值为 103.31,而卡方分布的临界值为 57.15(下限)和 106.63(上限)。因为卡方值在这个范围内,所以没有足够的证据拒绝原假设σ=8.8\sigma = 8.8

注意: 题干没有给出χ0.0252(80)=57.15\chi^2_{0.025}(80)=57.15. 但可以推断出它大概率比χ2(80)\chi^2(80)的均值 80 要小.

Remark: 《考前一天20个知识点》让同学们前去复习接受域和置信区间的对偶关系, 《考前知识点清单》专门陈述了应如何选择原假设和备择假设.

五、(20分) 现有回归模型yi=β0+βixi+εiy_i = \beta_0 + \beta_i x_i + \varepsilon_i.

(1) 写出判定系数R2R^2的表达式并解释含义.

(2) 请画出方差分析表. (表中写出各种量的公式)

(3) 对于给定的第ii组数据(xi,yi)(x_i,y_i), 如何判断它对模型的影响力?

(4) 对于样本(xi,yi)(x_i,y_i)(xj,yj)(x_j,y_j), 这两点连成的斜率是aija_{ij}, 其中i=1,,ni=1,\cdots,n,j=1,,nj=1,\cdots,n, 证明:{aij}\{a_{ij}\}的某一线性组合是β1\beta_1的最小二乘估?

Solution: (1)R2=SSregSStot=(y^iyˉ)2(yiyˉ)2R^2 = \frac{\mathrm{SS}_{\mathrm{reg}}}{\mathrm{SS}_{\mathrm{tot}}} = \frac{\sum (\hat{y}_i-\bar{y})^2}{\sum (y_i -\bar{y})^2 }, 它指的是回归平方和占总平方和的比重, 表示自变量对因变量随机性的解释比例, 同时也反映了自变量和因变量的线性相关性强弱.

(2) 方差分析表通常包括以下部分:

来源平方和自由度均方F统计量回归SSR=(y^iyˉ)2n1MSR=SSR/1F=MSR/MSE残差SSE==(yiy^i)2n2MSE=SSE/(n2)总计SST=(yiyˉ)21\begin{array}{c|c|c|c|c} \hline \text{来源} & \text{平方和} & \text{自由度} & \text{均方} & F\text{统计量} \\ \hline \text{回归} & SSR = \sum (\hat{y}_i - \bar{y})^2&n-1 & MSR = SSR/1 & F = MSR/MSE \\ \text{残差} & SSE = = \sum (y_i - \hat{y}_i)^2 &n-2 & MSE = SSE/(n-2) & \\ \text{总计} & SST = \sum (y_i - \bar{y})^2 & 1 & & \\ \hline \end{array}

(3) 对于给定的第ii组数据(xi,yi)(x_i, y_i),其对模型的影响力可以通过杠杆值、学生化残差和Cook’s Distance等方法评估。

(i) 杠杆值 (Leverage)

定义:杠杆值反映了数据点相对于所有数据点在“预测空间”中的位置,表明数据点对模型预测的影响程度。

计算公式:
hii=1n+(xixˉ)2j=1n(xjxˉ)2h_{ii} = \frac{1}{n} + \frac{(x_i - \bar{x})^2}{\sum_{j=1}^n (x_j - \bar{x})^2}
其中,hiih_{ii}是第ii个观测值的杠杆值,xix_i是该观测值,xˉ\bar{x}是所有观测值xx的均值。

影响:高杠杆值的数据点可能对回归线的斜率有较大影响,可能导致模型过度适应这些特定点。

(ii) 学生化残差 (Studentized Residuals)

定义:学生化残差是标准化后的残差,用于识别离群值。

计算公式:
ri=yiy^is1hiir_i = \frac{y_i - \hat{y}_i}{s \sqrt{1 - h_{ii}}}
其中,rir_i是第ii个数据点的学生化残差,yiy_i是观测值,y^i\hat{y}_i是模型预测值,ss是残差的标准差。

影响:绝对值大的学生化残差表明数据点与模型预测值相差较大,可能指示该点为异常值。

(iii) Cook’s Distance

定义:Cook’s Distance 是一个综合指标,结合了杠杆值和残差大小,用来评估数据点对回归系数估计的整体影响。

计算公式:
Di=j=1n(y^jy^j(i))2pMSED_i = \frac{\sum_{j=1}^n (\hat{y}_j - \hat{y}_{j(i)})^2}{p \cdot \text{MSE}}
其中,DiD_i是第ii个观测值的 Cook’s Distance,y^j\hat{y}_j是包含所有观测值的回归预测,y^j(i)\hat{y}_{j(i)}是排除第ii个观测值后的回归预测,pp是模型参数的数量,MSE\text{MSE}是均方误差。

影响:较大的 Cook’s Distance 表明移除或更改该数据点会显著改变回归模型。

(4) 根据aija_{ij}的定义, 我们有yiyj=aij(xixj)y_i - y_j = a_{ij} \left(x_i -x_j \right), 而β^1=lxylxx=1lxxi=1n(xixˉ)(yiyˉ)\widehat{\beta}_1 = \frac{l_{xy}}{l_{xx}} = \frac{1}{l_{xx}} \sum_{i=1}^{n} \left(x_i-\bar{x}\right)\left(y_i-\bar{y}\right), 由于lxxl_{xx}已是常数, 只需将i=1n(xixˉ)(yiyˉ)\sum_{i=1}^{n} \left(x_i-\bar{x}\right)\left(y_i-\bar{y}\right)表为aija_{ij}的线性组合即可. 我们有

yiyˉ=1nj=1n(yiyj)=1nj=1n(xixj)aij,y_i - \bar{y} = \frac{1}{n} \sum_{j=1}^n \left(y_i - y_j\right) = \frac{1}{n} \sum_{j=1}^n \left(x_i - x_j\right)a_{ij},

因此直接得到

β^1=1nlxxi=1nj=1n(xixj)(xixˉ)aij.\widehat{\beta}_1 = \frac{1}{nl_{xx}}\sum_{i=1}^n \sum_{j=1}^n \left(x_i-x_j\right)\left(x_i-\bar{x}\right)a_{ij}.

六、(10分) 设U1,U2U_1, U_2独立, 且期望都是00, 方差是σ2\sigma^2, 定义

Xt=U1sin(2πω0t)+U2cos(2πω0t).X_t = U_1 \sin \left(2\pi \omega_0 t\right) + U_2 \cos \left(2\pi \omega_0 t \right).

(1) 求{Xt}\{X_t\}的自协方差函数;

(2) 对于自协方差函数{gk,kZ}\{g_{k},k\in Z\}, 如果对任意nn, 对任意序列α=(a1,a2)\alpha^{\top} =\left(a_1,a_2\cdots\right), 有k=1nj=1nakajg(kj)0\sum_{k=1}^{n}\sum_{j=1}^n a_k a_j g\left(k-j\right) \ge 0, 则称自协方差函数非负定, 证明: (1) 中的自协方差函数非负定.

(3) 样本自协方差函数是

{γ^(h)=1nt=1nh(Xt+hXˉ)(XtXˉ),0hn1.γ^(h)=γ^(h),n1h<0,\begin{cases} \widehat{\gamma }(h)=\frac{1}{n}\sum_{t=1}^{n-h}{\left( X_{t+h}-\bar{X} \right)}\left( X_t-\bar{X} \right) ,& 0\le h\le n-1.\\ \widehat{\gamma }(h)=\widehat{\gamma }(-h),& n-1\le h<0,\\ \end{cases}

证明样本自协方差矩阵

Γ^n=[γ^0γ^1γ^n1γ^1γ^0γ^n2γ^(n1)γ^(n2)γ^0]\widehat{\Gamma }_n=\left[ \begin{matrix} \widehat{\gamma }_0& \widehat{\gamma }_1& \cdots& \widehat{\gamma }_{n-1}\\ \widehat{\gamma }_{-1}& \widehat{\gamma }_0& \cdots& \widehat{\gamma }_{n-2}\\ \vdots& \vdots& & \vdots\\ \widehat{\gamma }_{-(n-1)}& \widehat{\gamma }_{-(n-2)}& \cdots& \widehat{\gamma }_0\\ \end{matrix} \right]

是非负定的.

Solution: (1) 增加一个条件: ω00\omega_0 \neq 0. 容易看出E(Xt)=0E(X_t)=0,γ0=Var(Xt)=σ2\gamma_0 = Var(X_t)=\sigma^2, 再求自协方差, 利用和差化积, 有

γj,k=E[XjXk]=E(U12sin(2πω0j)sin(2πω0k))+E(U22cos(2πω0j)cos(2πω0k))=σ2cos(2πω0(jk))\begin{aligned} \gamma _{j,k}&=E\left[ X_jX_k \right]\\ &=E\left( U_{1}^{2}\sin \left( 2\pi \omega _0j \right) \sin \left( 2\pi \omega _0k \right) \right) +E\left( U_{2}^{2}\cos \left( 2\pi \omega _0j \right) \cos \left( 2\pi \omega _0k \right) \right)\\ &=\sigma ^2\cos \left( 2\pi \omega _0\left( j-k \right) \right)\\ \end{aligned}

只和jkj-k有关, 因此XtX_t平稳,γt,t+h=γh=σ2cos(2πω0h)\gamma_{t,t+h}=\gamma_h = \sigma ^2\cos \left( 2\pi \omega _0h\right), 其中hZh\in Z, 恰好也包含了γ0=Var(Xt)=σ2\gamma_0 = Var(X_t)=\sigma^2.

(2) 这等价于证明: 对任意nn, 矩阵

Γn=[γ0γ1γn1γ1γ0γn2γ(n1)γ(n2)γ0]\Gamma _n=\left[ \begin{matrix} \gamma _0& \gamma _1& \cdots& \gamma _{n-1}\\ \gamma _{-1}& \gamma _0& \cdots& \gamma _{n-2}\\ \vdots& \vdots& & \vdots\\ \gamma _{-(n-1)}& \gamma _{-(n-2)}& \cdots& \gamma _0\\ \end{matrix} \right]

是非负定的. 简单的方法是考虑任意αn\alpha_n, 由于Γn\Gamma_n(X1,,Xn)\left(X_1,\cdots,X_n\right)的协方差矩阵, 有

αnΓnαn=k=1nj=1nakajγ(kj)=k=1nj=1nakajCov(Xk,Xj)=Var(k=1nakXk)0.\alpha _{n}^{\top}\Gamma _n\alpha _n=\sum_{k=1}^n{\sum_{j=1}^n{a_ka_j\gamma \left( k-j \right)}}=\sum_{k=1}^n{\sum_{j=1}^n{a_ka_jCov\left( X_k,X_j \right)}}=Var\left( \sum_{k=1}^n{a_kX_k} \right) \ge 0.

这和证明普通协方差矩阵非负定并没有什么区别.

上述方法没有用到第 (1) 问求出来的结果, 如果要利用之, 即需证明:k=1nj=1nakajcos(2πω0(kj))0\sum_{k=1}^n{\sum_{j=1}^n{a_ka_j\cos \left( 2\pi \omega _0\left( k-j \right) \right)}}\ge 0, 利用欧拉公式,

k=1nj=1nakajcos(2πω0(kj))=k=1nj=1nakajRe{ei2πω0(kj)}=Re{k=1nj=1nakajei2πω0(kj)},\sum_{k=1}^n{\sum_{j=1}^n{a_ka_j\cos \left( 2\pi \omega _0\left( k-j \right) \right)}}=\sum_{k=1}^n{\sum_{j=1}^n{a_ka_j\mathcal{R} e\left\{ e^{i2\pi \omega _0\left( k-j \right)} \right\}}}=\mathcal{R} e\left\{ \sum_{k=1}^n{\sum_{j=1}^n{a_ka_je^{i2\pi \omega _0\left( k-j \right)}}} \right\} ,

其中Re{}\mathcal{R}e\left\{\cdot\right\}表示取实部. 进一步有

k=1nj=1nakajei2πω0(kj)=k=1nj=1nakajei2πω0kei2πω0j=k=1nj=1nakajei2πω0kei2πω0j=(k=1nakei2πω0k)(j=1najei2πω0j)=(k=1nakei2πω0k)(k=1nakei2πω0k)=(k=1nakei2πω0k)(k=1nakei2πω0k)=k=1nakei2πω0k2,\begin{aligned} \sum_{k=1}^n{\sum_{j=1}^n{a_ka_je^{i2\pi \omega _0\left( k-j \right)}}}&=\sum_{k=1}^n{\sum_{j=1}^n{a_ka_je^{i2\pi \omega _0k}}e^{-i2\pi \omega _0j}}=\sum_{k=1}^n{\sum_{j=1}^n{a_ka_je^{i2\pi \omega _0k}}\overline{e^{i2\pi \omega _0j}}}\\ &=\left( \sum_{k=1}^n{a_ke^{i2\pi \omega _0k}} \right) \left( \sum_{j=1}^n{a_j\overline{e^{i2\pi \omega _0j}}} \right) =\left( \sum_{k=1}^n{a_ke^{i2\pi \omega _0k}} \right) \left( \sum_{k=1}^n{a_k\overline{e^{i2\pi \omega _0k}}} \right)\\ &=\left( \sum_{k=1}^n{a_ke^{i2\pi \omega _0k}} \right) \overline{\left( \sum_{k=1}^n{a_ke^{i2\pi \omega _0k}} \right) }=\left| \sum_{k=1}^n{a_ke^{i2\pi \omega _0k}} \right|^2, \end{aligned}

已经只是实数, 因此有

k=1nj=1nakajcos(2πω0(kj))=Re{k=1nakei2πω0k2}=k=1nakei2πω0k20.\sum_{k=1}^n{\sum_{j=1}^n{a_ka_j\cos \left( 2\pi \omega _0\left( k-j \right) \right)}}= \mathcal{R} e\left\{\left| \sum_{k=1}^n{a_ke^{i2\pi \omega _0k}} \right|^2\right\} = \left| \sum_{k=1}^n{a_ke^{i2\pi \omega _0k}} \right|^2 \ge 0.

(3) 先假设 X1,,XnX_1,\cdots,X_n 并不全相等, 令 Yj=XjXˉY_j = X_j - \bar{X}, 并记

An×(2n1)=(00Y1Y2Yn1Yn0Y1Y2Y3Yn0Y1Yn1Yn000),A_{n\times (2n-1)}=\left( \begin{matrix} 0& \cdots& 0& Y_1& Y_2& \cdots& Y_{n-1}& Y_n\\ 0& \cdots& Y_1& Y_2& Y_3& \cdots& Y_n& 0\\ \vdots& \ddots& \vdots& \vdots& \vdots& \ddots& \vdots& \vdots\\ Y_1& \cdots& Y_{n-1}& Y_n& 0& \cdots& 0& 0\\ \end{matrix} \right) ,

可以验证, 恰有 Γ^n=1nAA\widehat{\Gamma}_n = \frac{1}{n}AA^{\top}, 只需验证 AA 是行满秩矩阵即可, 这是显然的, 因为只要有一个 YkY_k 不是 0, 就会出现非 0 元素在各行不同列出现的情况, 同时我们考虑 ω00\omega_0 \neq 0, 因此 Γ^n\widehat{\Gamma}_n 是正定的.