跳到正文

夕阳无限好,只是近黄昏。

附录

A:估计量的常见理论性质

在统计推断中,我们常常需要评估一个估计量的好坏。通常使用以下几个标准:

无偏性 (Unbiasedness)

  • 定义:若估计量 θ^\hat{\theta} 满足

    E[θ^]=θ,\mathbb{E}[\hat{\theta}] = \theta,

    则称它是 θ\theta 的无偏估计。

  • 解释:在平均意义上,它不会系统性偏离真值。

  • 备注:如果 E[θ^]θ\mathbb{E}[\hat{\theta}] \neq \theta,则称为有偏估计,但有时适度的偏差能换取更小的方差,这类估计仍可能在应用中更优(如岭回归)。

一致性 (Consistency)

  • 定义:若当样本量 nn \to \infty 时,估计量收敛到真值:

    θ^nPθθ^na.s.θ,\hat{\theta}_n \xrightarrow{P} \theta \quad \text{或} \quad \hat{\theta}_n \xrightarrow{a.s.} \theta,

    则称 θ^n\hat{\theta}_n 是一致估计量。

  • 解释:样本越大,估计越可靠。

  • 备注:一致性通常需要借助大数定律来证明。

这里简单补充一下上述两种收敛方式的概念:

note

  1. 依概率收敛 (P\xrightarrow{P})

  • 定义:

    ϵ>0,limnP(θ^nθ>ϵ)=0.\forall \epsilon > 0, \quad \lim_{n\to\infty} P(|\hat{\theta}_n - \theta| > \epsilon) = 0.
  • 意义:当样本越来越大时,估计量与真值相差超过 ϵ\epsilon 的概率趋近于零。

  • 直观比喻:大样本下,估计“通常”离真值很近,但偶尔会偏离。

  1. 几乎必然收敛 (a.s.\xrightarrow{a.s.})

  • 定义:

    P ⁣(limnθ^n=θ)=1.P\!\left(\lim_{n\to\infty} \hat{\theta}_n = \theta\right) = 1.
  • 意义:以概率 1 的保证,随着样本增加,估计量必然收敛到真值。

  • 直观比喻:如果你在一条轨迹上一直观察样本量增加的过程,那么“几乎所有”轨迹都会收敛到真值。

📌 区别:

  • a.s.\xrightarrow{a.s.}P\xrightarrow{P} 要强,几乎必然收敛     \implies 依概率收敛,但反之不一定成立。

有效性 / 相合性 (Efficiency)

  • 定义(参数情形):在所有无偏估计量中,若某个估计量达到了 Cramér–Rao 下界,则称它是有效的。

  • 非参数情形:我们一般用“方差随 nn 的变化”来衡量效率:

    Var(θ^n)0当 n.\mathrm{Var}(\hat{\theta}_n) \to 0 \quad \text{当 } n \to \infty.
  • 解释:在有限样本下,方差越小,估计越稳定。

这里我们简单补充一下上述CR下界的概念:

note

一般定义

  • 如果一个无偏估计量在所有无偏估计量中具有最小的方差,就称它是 有效估计量

  • 衡量效率的经典工具是 Cramér–Rao 不等式

Var(θ^)1I(θ),\mathrm{Var}(\hat{\theta}) \geq \frac{1}{I(\theta)},

其中 I(θ)I(\theta)Fisher 信息量

Fisher 信息量

  • 定义:若总体密度为 f(x;θ)f(x;\theta),则
I(θ)=E ⁣[(θlogf(X;θ))2].I(\theta) = \mathbb{E}\!\left[\left(\frac{\partial}{\partial \theta} \log f(X;\theta)\right)^2\right].
  • 直观意义:描述样本对参数 θ\theta 的“信息含量”。信息越多,估计越精确。

Cramér–Rao 下界 (CRLB)

  • 结论:任何无偏估计量的方差不可能小于 1/I(θ)1/I(\theta)
  • 若某估计量达到了这个下界,则称其为 有效的

在非参数统计中的对应

  • 在经验分布函数 (EDF) 的情形下,我们也能看到:
Var(F^n(x))=F(x)(1F(x))n.\mathrm{Var}(\hat{F}_n(x)) = \frac{F(x)(1-F(x))}{n}.
  • 虽然这里没有直接用到 CRLB,但可以理解为:方差随 nn 增大而下降,说明 F^n(x)\hat{F}_n(x) 在有限样本下是“效率合理的”。

本栏其他文章

  1. 归一之问 · 样式全览(测试)
  2. 驭势之舵
  3. 链式之行