跳到正文

此中有真意,欲辨已忘言。

贝叶斯分析1

[TOC]

第一部分:非贝叶斯推断

概率的基本解释

我们先简单回顾有关概率基本的数学表达:

Kolmogorov 概率公理(1933)

给定一个随机试验,其样本空间记为 Ω\Omega,事件空间记为 A\mathcal{A}(通常为一个 σ-代数)。 一个函数

P:A[0,1]P:\mathcal{A}\to[0,1]

称为一个概率测度(probability measure),如果它满足以下三个公理:

(1)非负性(Non-negativity)

对任何事件 AAA\in\mathcal{A}

P(A)0.P(A)\ge 0.

(2)规范性(Normalization)

样本空间的概率为 1:

P(Ω)=1.P(\Omega)=1.

(3)可列可加性(Countable Additivity)

{Aj:jJ}\{A_j : j\in J\} 是一族两两不相容(pairwise disjoint)的事件,则

P(jJAj)=jJP(Aj).P\left(\bigcup_{j\in J} A_j\right) = \sum_{j\in J} P(A_j).

其中 JJ 可以是有限或可数的指标集。

有关的概率定律都可以通过上述公理导出,但是其仅为纯粹的数学表达,未赋予概率相对实用解释。

note

广义地说,概率的含义可以从三种角度理解。其一是认识论意义上的概率,它衡量的是当前证据对某一命题的支持程度,强调信息的充分性并允许随着新证据出现而更新,这是贝叶斯思想的核心。其二是物理意义上的概率,它被视为自然界随机现象的客观属性,与人的知识无关,体现了经典频率学派将概率理解为长期频率的立场。其三是主观信念度的概率,它反映个体在不确定情境下的主观判断与信心强弱,更偏向主观贝叶斯主义的观点。三种解释共同构成了概率在现代统计学中的多重角色,也为后续的贝叶斯推断提供了哲学与方法论基础。

下面我们介绍历史中关于概率的常见解释:

古典解释

概率最早期的系统化解释来自 Jacob Bernoulli(1713)Laplace(1814)。 他们试图将概率理解为一种“理性推断的度量”,认为:

tip

在没有任何理由区分各结果时,应将所有可能结果视为等可能。

这就是著名的 不充分理由原理(Principle of Insufficient Reason),也称 无差别原则(Principle of Indifference)

在有限、对称、可枚举的情形下,可以自然地定义:

P(A)=事件 A 的有利结果数所有等可能结果数P(A)=\frac{\text{事件 A 的有利结果数}}{\text{所有等可能结果数}}

常见例子:

  • 掷一个公平骰子
  • 从洗好的牌中抽一张
  • 抛掷均匀硬币

这些情形的特点是:

  • 样本空间有限
  • 每个结果对称、无偏
  • 没有先验信息区分结果

因此假设“等可能”是合理且直观的。

古典解释的优点:

  • 概念直观
  • 易于计算(数一数即可)
  • 适合离散、有限、对称的情境

然而它有明显局限:

(1)无法处理连续样本空间

例如区间 [0,1][0,1] 的点有无穷多,无法简单计数。

(2)无法处理无限样本空间

如果“所有自然数等可能”,概率无法定义。

(3)会导致悖论(Bertrand Paradox)

对于一个几何问题,不同的等分方式会给出不同答案,说明“等可能”本身并不唯一。

(4)依赖主观假设(等可能性 = 无偏性)

现实世界并非总是对称的。

因此——

古典解释只能用于极少数结构简单的问题,是概率发展早期的特殊情况,而不是现代概率论的基础。

这也就是为什么后来需要 Kolmogorov 的“测度论概率”。

tip

补充说明:

Bertrand 悖论(Bertrand’s Paradox)

问题: 在一个单位圆中随机选取一条弦(随机 chord), 问:

“这条弦的长度大于等边三角形的边长的概率是多少?”

听起来这是一个非常明确的概率问题,但神奇的是:

根据不同的“随机选法”,你可以得到 1/4、1/3 或 1/2,甚至无穷多个不同答案。

也就是说,“等可能”本身是不确定的,导致概率不唯一。

悖论的核心:什么是“随机画一条弦”?

在古典解释中,我们说: “所有弦等可能。”

但 —— 什么叫等可能?等可能的度量是什么?

不同的“等可能”方式会产生不同的结果。

下面给有三个最常见的版本:

① 方法一:固定圆心,随机选端点(等角度) → 结果 = 1/3

用“随机选两个圆周上的点”来定义随机弦。

结果:

P(弦长 > 三角形边长)=13P(\text{弦长 > 三角形边长}) = \frac{1}{3}

② 方法二:随机选弦的中点(均匀选中点) → 结果 = 1/4

如果假设弦的“中点”在圆内均匀分布。

结果:

P=14P = \frac{1}{4}

③ 方法三:随机选弦的倾斜角度及距离(等几何参数) → 结果 = 1/2

如果假设弦的方向均匀,距离圆心的垂直距离也均匀。

结果:

P=12P = \frac{1}{2}

🧨 这就是悖论:同一个问题得到不同概率

因为在“等可能”定义依赖于你对随机性的参数化方式。 而不同的参数化方式是不等价的。

换句话说:

古典解释的核心——“无差别原则”——是不稳定且不唯一的。

这直接暴露出:

  • 古典解释对“等可能”的定义依赖 人为选择
  • 而不是可检验的数学结构
  • 因此不适合建立普适的概率论框架

这也是为什么后来要用 Kolmogorov 的测度论概率取代古典概率。

Bertrand 悖论并不是因为人类无法刻画连续情形,而是因为在连续样本空间中,“等可能性”本身没有唯一自然的定义。具体来说,“端点均匀”代表一种“等可能”、“中点均匀”代表另一种“等可能”、“距离均匀”代表第三种“等可能”。这些不是等价的。它们赋予同一个集合(弦集合)三套不同的概率测度

进而言之,有限空间:等可能 = 唯一。 连续空间:等可能 = 无数种,依赖坐标选择。

可以把弦集合写成一个抽象的空间:

Ω={圆内所有弦}.\Omega = \{\text{圆内所有弦}\}.

表述如下:

(Ω,F,μ1),(Ω,F,μ2),(Ω,F,μ3)(\Omega,\mathcal{F},\mu_1),\quad (\Omega,\mathcal{F},\mu_2),\quad (\Omega,\mathcal{F},\mu_3)

其中:

μ₁:端点角度均匀

体积元素 ~ dθd\theta

μ₂:中点在圆盘内均匀

体积元素 ~ rdrdϕr\,dr\,d\phi

μ₃:到圆心距离均匀

体积元素 ~ dddd

它们是三个 不同的测度(probability measure),而不是三个不同的空间。

这就是为什么:

Pμ1(A)Pμ2(A)Pμ3(A)P_{\mu_1}(A)\ne P_{\mu_2}(A)\ne P_{\mu_3}(A)

尽管事件 A(例如 d < 1/2)是同一个。

频率解释

频率学派的概率观强调:概率是长期频率的极限

这一观点最早由 Venn(1876) 提出,并在 von Mises(1919) 的工作中被系统化。它认为:

给定一个可以重复、独立且条件稳定的随机试验,一个事件的概率被定义为该事件发生的相对频率在实验次数趋向无穷时的极限。

形式化为:

P(A)=limnNn(A)n,P(A)=\lim_{n\to\infty}\frac{N_n(A)}{n},

其中 Nn(A)N_n(A) 表示在前 nn 次试验中事件 AA 发生的次数。

✦ 核心思想

  1. 概率不是主观信念,也不依赖模型假设,而是客观的、可在无限重复试验中观察到的“稳定频率”。
  2. 若某事件在重复试验中长期频率稳定收敛,则此极限即为概率。
  3. 因此,概率是一个关于“无穷次可重复试验”的理想化定义。

✦ 频率解释的局限性

频率学派定义概率需要满足两个前提:

  1. 试验必须可重复(repeatable) 例如抛硬币、掷骰子等。
  2. 试验条件必须保持稳定(homogeneous) 即每次试验都在相同条件下进行。

因此对于许多 现实中的不可重复事件(one-off events),如:

  • 某次战争是否会爆发
  • 某个特定人寿命超过 90 岁的“概率”
  • 某台设备在一次性发射任务中失败的“概率”

在频率主义视角下 是无法赋予概率的,因为这些事件无法进行“无限多次的相同试验”。

主观概率解释

概率 = 信念强度(degree of belief)

这一思想由以下学者提出:

  • de Finetti(1928/1937)
  • Ramsey(1926/1931)
  • Savage(1954)

他们认为: 概率不是关于客观物理世界,而是关于我们对世界的主观信念。

所以:

主观概率 = 一个理性个体对某事件发生的信念强度。

虽然现实中大部分人是“不理性”的(例如 Kahneman 所研究的偏差与启发式), 但如果我们要给主观概率赋予数学含义,就必须仅讨论理性主体的信念系统。

即:只研究那些逻辑上自洽、一致、不矛盾的信念系统。

所以下面我们先从逻辑的角度切入来推导其必须满足的规范:

逻辑一致性

Cox(1946)提出的两个公理

Cox 的目标是:

把“不确定性推理”形式化,构造数学框架,使主观信念能像逻辑一样一致。

他给出了两个基础公理:

公理 1:信念可量化(Quantification of Plausibility)

对任何命题,其可信度可以用一个实数表示,记为:

P(A)P(A)

这一步非常关键: 它允许我们用“数学”来操作信念,使得信念不是模糊的,而是可计算的。

公理 2:逻辑一致性(Consistency)

这包括两个层面:

●(1)逻辑等价性应保留信念等价性

如果命题 AABB 在逻辑上等价,则应有:

P(A)=P(B)P(A)=P(B)

●(2)复合命题应保持逻辑一致的组合规则

“与” (A ∧ B) 的信念应该是:

P(AB)=P(A)P(BA)P(A\land B)=P(A)\cdot P(B\mid A)

这个形式与我们熟悉的概率乘法公式一致,但这里并不是假设它是“客观”概率,而是从“逻辑一致性”推出来的。

Cox 强调:

信念的组合必须满足某些必须条件,否则就逻辑矛盾。

例如:

  • P(AB)P(A\land B)
  • P(A)P(A)
  • P(BA)P(B|A)

三者之间必须同时满足一致的关系,否则这个“信念系统”就无法进行推理。

Cox 的结论非常重要:

所有满足这些一致性公理的推理系统,形式上必然等价于概率论。\textbf{所有满足这些一致性公理的推理系统,形式上必然等价于概率论。}

换句话说:

只要你希望你的信念推理是逻辑上严格的,那么你就必须使用概率规则(包括贝叶斯定理)。

于是:

P(HE)=P(EH)P(H)P(E)P(H\mid E)=\frac{P(E\mid H)\cdot P(H)}{P(E)}

不是“假设来的概率公式”, 而是“不确定性推理必须满足的唯一可能形式”。

行为一致性

Cox 的方法是非构造性的,他展示了概率推理的逻辑结构,但并未说明如何对某一具体事件赋予数值概率。

也就是说:

  • Cox 解决“信念如何推理”
  • Cox 并没有给出“信念如何量化”

因此,我们需要一个“可操作”的定义,来告诉你: 怎么给一个事件赋上一个具体数字?

这就是 De Finetti 的切入点。

De Finetti 的行为学定义:公平价格(betting interpretation)

这段内容是主观概率中最核心最经典的东西。

De Finetti 说:

一个主体对事件 A 的主观概率,就定义为 他愿意支付购买“发生则付 1 元”彩票的最高公平价格。

形式化为:

  • 定义主观概率为: PE(A)=购买 1 元彩票的最高公平价格P_E(A) = \text{购买 1 元彩票的最高公平价格}

这一步非常重要,它把“概率”变成一个实际可观测的行为:你愿意为事件付多少钱

这就让“概率”不再抽象,而是与现实选择绑定。

下面我们由公平价格如何推出主观概率

考虑一个简单的赌博票:

  • 若事件 AA 发生 → 得到 1 元
  • 若不发生 → 得到 0 元
  • 买票花费:pp

期望收益:

期望收益=PE(A)1+(1PE(A))0=PE(A)\text{期望收益}=P_E(A)\cdot 1+(1-P_E(A))\cdot 0=P_E(A)

于是:

  • 若价格 p = P_E(A) → 期望收益 = 0 → 公平(fair)
  • 若价格 p > P_E(A) → 买票亏 → 偏高
  • 若价格 p < P_E(A) → 买票赢 → 偏低

于是得到行为学结论:

PE(A)=个体认为公平的最高价格\boxed{P_E(A)=\text{个体认为公平的最高价格}}

这就是主观概率的“行为定义”。

下面我们可以在上述行为定义验证一个著名的结论:

note

荷兰赌局:

如果你的主观概率不满足概率公理,则存在一组赌局使你必亏。

例子:

P(A)=0.6,P(Aˉ)=0.5P(A)=0.6,\quad P(\bar A)=0.5

显然违反概率公理:

P(A)+P(Aˉ)=1P(A)+P(\bar A)=1

庄家构造两个交易:

  • 卖一张 A 的彩票(价格 0.6)
  • 卖一张 Aˉ\bar A 的彩票(价格 0.5)

不论 A 是否发生:

  • 要么获得 A 的 1 元
  • 要么获得 Aˉ\bar A 的 1 元

但买票总支出:

0.6+0.5=1.10.6+0.5=1.1

必亏 0.1

这就是一个 Dutch Book。

为了避免必然亏损:

主观概率必须满足概率公理(非负性、规范性、可加性)

也就是说:

  • Cox:逻辑一致性 → 必须 obey 概率形式
  • De Finetti:行为一致性 → 必须 obey 概率公理

两条路径都指向同一结论:

⭐ 理性的主观概率 = 概率论

⭐ 理性的信念更新 = 贝叶斯法则

这就构成了贝叶斯学派的基础。

逻辑解释

逻辑解释是一种非常古典的概率哲学观,由:

  • Keynes(1921)
  • Carnap(1950)

发展而来。

核心思想一句话:⭐ 概率 = 证据 E 对命题 H 的逻辑支持程度(degree of logical support)

不是频率、不是主观信念,而是:

给定证据 E,从逻辑角度看,E 支持 H 的强弱是多少?

它实际上是在尝试把“概率”变成一种 逻辑学概念 而不是统计学概念。


我们先看一下当时逻辑解释的发展动机:

当时的数学家和哲学家感到:

  • 频率解释要求无限次重复试验,解释不了 一次性事件
  • 主观解释太依赖主体,感觉“太主观”

于是 Keynes 想做的是:

用逻辑推理的方法来定义概率,使概率成为“证据与结论之间的客观关系”。

这种思想非常接近科学推理、法庭推理、哲学推理中的“理由 → 结论”。

那么逻辑解释是如何定义概率的呢?

逻辑解释认为:

一个命题 H 在证据 E 下的概率 P(HE)P(H\mid E) 就是证据 E 逻辑上支持 H 的程度。

tip

“恐龙灭绝(H)可能是因为陨石撞击地球(E)造成的” 那么陨石撞击(E)对灭绝假设(H)的支持程度就是 P(HE)P(H\mid E)

由此强调几点:

⭐(1)概率是“命题与命题之间”的关系

不是事件之间,也不是“随机试验结果之间”。

概率是:

P(HE)P(H\mid E)

是关于:

  • E:证据
  • H:假设(命题)

之间的逻辑关联强弱。

⭐(2)概率是“客观的”

不是个人信念(不同于主观派)。

也就是说:

  • 不管是谁评估
  • 不管你是否相信
  • E 对 H 的支持强度是客观存在的

Keynes 认为: 逻辑支持度就像数学真理一样,是一种客观关系。

⭐(3)概率不依赖实验频率

这才是最重要区别:

逻辑解释讨论的是:

  • 流星明天是否会撞地球的概率?
  • 进化论在当前证据下的概率?
  • A 证词与 B 证词是否“支持”某个事件?

这些都不能通过重复试验,因此频率解释无法处理。


下一步的任务就是进行形式化的尝试:

Carnap 试图把这个思想形式化,提出了:

P(HE)P(H\mid E)

应该是一个逻辑函数,取决于:

  • 语义
  • 句法
  • 逻辑关系结构

他想构建一种“逻辑概率计算系统”。

但最终困难巨大:

● 难点 1:如何量化证据支持度?

逻辑关系通常是“有效/无效”两值的,不容易扩展为 0~1 的刻度。

● 难点 2:不同命题语言下如何保持一致?

命题逻辑太贫乏,谓词逻辑太复杂,难以系统定义。

● 难点 3:经验证据如何进入逻辑系统?

逻辑概率不能自然处理“统计证据”。


逻辑解释的优点与局限

⭐ 优点

  1. 解释 一次性事件(频率解释做不到)
  2. 强调科学推理中的“证据—假设”关系
  3. 为后来的贝叶斯解释提供桥梁: P(HE)P(H\mid E) 的形式非常接近贝叶斯后验概率

很多贝叶斯派(如 Carnap 后期)试图结合逻辑概率与主观概率。

⭐ 局限

  1. “逻辑支持度”无法定义清楚,也无法量化
  2. 无法与经验统计数据自然结合
  3. 不满足 Kolmogorov(1933)建立的概率公理体系
  4. 在复杂命题结构中很难计算
  5. 实际应用性几乎为零

因此:

逻辑解释是概率哲学史上的重要分支,但没有成为统计学的主流基础。

倾向性解释

倾向性解释(Popper 1957)

其核心的内在思考在于:

⭐ 概率是事物或物理系统的一种“内在倾向性”(propensity)

不是频率 不是主观信念 也不是逻辑支持度 而是物理系统自身的属性。

比如:

  • 盐在水里有“倾向”溶解
  • 硬币被抛后有“倾向”落向某一面
  • 放射性原子有“倾向”在一定时间内衰变
  • 天气系统有“倾向”产生风暴

Popper 的观点是:

概率是世界本身的因果结构,具有“倾向性”的力量。

这是一种 客观的、属于物理系统本身的概率,不依赖观察者


那么在这种观点下,倾向性解释具体能解决什么问题呢?

频率解释和主观解释都存在很大的局限:

⭐(1)频率派最大的问题:无法处理一次性事件

例如:

  • 恐龙灭绝的概率是多少?(无法重复实验)
  • 某个火箭发射的失败概率?
  • 量子粒子在某通道中出现的概率?

频率派无法处理这种非重复、不可复现的事件。

但倾向性解释可以说:

这是系统的一种内在倾向,而不是实际频率。

⭐(2)主观派的问题:太主观

主观派(de Finetti)认为概率完全来自个人信念。 但 Popper 不满意:

科学不是主观的,物理定律应当是客观的。

所以他提出倾向性解释作为替代。


下面我们具体了解其逻辑关系

Popper 认为:

概率必须是物理过程的因果属性,这种属性导致某些结果更“倾向”发生。

例如:

  • 不稳定原子“倾向”于衰变
  • 一枚不对称的硬币“倾向”落向某一面
  • 气象系统“倾向”在当前条件下产生风暴

它是一种“因果力量”,而不是频率。

因此:

倾向性解释从物理学出发,而不是从逻辑或主观角度出发。


最后我们分析上述解释的优缺点:

🍎 倾向性解释的优点

可以把它的优势列为三条:

  1. ✔ 可以解释一次性事件(解决频率派难题)
  2. ✔ 认为概率是物理系统的客观属性(解决主观派争议)
  3. ✔ 与量子力学中“概率幅”非常契合(哲学层面)

特别是在现代量子物理背景下,“世界本身就是概率性的”这个观点非常有吸引力。

🍎 倾向性解释的局限

  1. ❌ 很难给出明确、可计算的数学定义
  2. ❌ 概率的“倾向”是什么?如何测量?没有统一答案
  3. ❌ 难以与 Kolmogorov 公理体系自然结合
  4. ❌ 难以为统计推断提供正式工具(不像贝叶斯和频率派那样可操作)
  5. ❌ 本质上偏哲学,在统计学中应用有限

因此倾向性解释更像:

一种哲学解释,而不是数学概率框架。

最后我们将上述解释简单的总结如下:

概率解释方式核心假设概念基础概念方式能否处理单次事件是否精确主要问题
经典解释 Classical无差异原则对称性假设推测性无差异原则含糊
频率解释 Frequentist长期频率历史数据、参考类经验性循环定义、参考类问题
主观解释 Subjective信念强度知识、直觉主观性参考类问题、主观性争议
倾向性解释 Propensity因果倾向系统状态形而上学是(理论上)倾向性难以定义、具哲学争议

统计推断

在第一部分中,我们围绕“概率”本身展开讨论,从频率解释、主观解释到逻辑与倾向性解释,旨在回答一个根本性问题:概率究竟在描述怎样的不确定性,它的含义是什么? 这一部分构建的是概率论的概念基础,使我们能够理解概率这一工具的语义和哲学定位。

然而,在实际的数据分析与科学研究中,我们并不只是关心概率的意义本身,而是更关注一个更实际的问题: 当我们观察到数据时,如何利用概率去推断未知的量、未知的机制以及背后的总体模型?

这便自然地引出了**统计推断(statistical inference)**的讨论。

统计推断的核心任务,是在不确定环境下,结合概率模型与样本信息,对未知参数、未知结构或未来观察进行合理的推断。 与概率论“已知模型推数据”不同,统计推断处理的是“已知数据推模型”的逆向问题。

古典推断

古典统计推断源自 Fisher(1920s)与 Neyman–Pearson(1933)体系,其基本出发点是:

概率具有频率含义,而未知参数是固定常数。 数据的随机性全部来自样本 X 的抽样机制。

在古典推断中,概率永远是“重复抽样行为的极限比例”,而不包含主观成分。 因此,对于未知参数 θ,我们无法为其赋予概率,只能根据样本的分布特性,构建“估计量”“置信区间”“检验规则”等工具。我们下面具体看一下其核心依赖与解释:

频率派把概率定义为:

在相同条件下重复实验无穷次,事件出现的长期频率极限。

因此:

  • 未知参数 θ 是一个固定但未知的常数
  • 随机性全部来自样本 X
  • 不能为 θ 赋予概率(例如不能说 “P(θ∈A)=0.95”)

这与贝叶斯的最大不同点就在于: 概率不是信念,而是客观频率。

下面我们简单的回顾一下古典推断的相关内容。

note

本章介绍的逻辑顺序:

统计推断的发展可以看作是在两个思想体系中逐步成熟的过程: Neyman–Pearson 的抽样分布框架Fisher 的似然思想相互独立,却又在后期被数学化地统一。

在本章中,我们首先采用 Neyman–Pearson(NP)框架 作为整个古典推断的基础。 这是现代频率派统计推断最严格、最系统的语言:参数被视为固定常数,随机性来自样本 X,推断完全建立在统计量的抽样分布之上。在此框架下,我们介绍统计量、抽样分布、无偏性、方差、UMVUE、充分性与完备性等有限样本理论的核心结构

NP 框架建立后,统计学家才能用严格数学语言重新解释并形式化 Fisher 早期提出的若干极具洞见的思想,如似然、最大似然估计、Fisher 信息和有效性等概念。因此,Fisher 的“直觉理论”在 NP 体系中得到了补全,使之成为可严格分析的结果(例如 Cramér–Rao 下界、信息矩阵等)。

在完成这一“NP + Fisher(有限样本)”的理论体系后,我们才能进一步引入大样本理论。 大样本理论并不是脱离 NP 和 Fisher 的第三套体系,而是在 NP 的数学语言之中,对 Fisher 的似然思想做渐近化处理,从而得到一致性、渐近正态性、MLE 的渐近效率等现代统计推断的核心结论。

因此,本章的内容按照以下逻辑展开:

  1. 先建立 NP 的抽样分布框架:统计量 → 抽样分布 → 无偏性 → 有效性(UMVUE)
  2. 在该框架下形式化 Fisher 的直觉概念:似然 → 信息 → CR 下界
  3. 最后引入大样本理论,将 NP 的框架与 Fisher 的思想在渐近层面统一

这样,一个完整而连贯的古典推断体系才真正形成。


NP框架

在统计推断的早期(Laplace、Gauss、Bernoulli…),推断的基本思想是:

参数 θ 被视为固定常数,而概率只描述尚未观测到的随机样本 X。 统计推断必须完全基于样本所诱导的抽样分布。

这一思想最终被 Neyman–Pearson(NP)体系 数学化、严谨化,形成了今天教科书中“古典推断”的主流框架。

在 NP 框架下,古典推断的核心步骤是:

① 构造统计量 T(X)T(X)

如:

  • 样本均值 Xˉ\bar X
  • 样本方差 S2S^2
  • t 统计量
  • χ²、F 统计量等

统计量是从数据到数值的可测函数,它们决定了推断的全部内容。

② 写出 T(X)T(X) 的抽样分布

例如:

XˉN(θ,σ2/n),t=Xˉμ0S/ntn1.\bar X \sim N(\theta, \sigma^2/n),\qquad t = \frac{\bar X-\mu_0}{S/\sqrt n} \sim t_{n-1}.

所有推断均来自 T(X) 在不同 θ 下的分布结构

Lθ(T)=Pθ(T).\mathcal{L}_\theta(T) = P_\theta(T \in \cdot).

③ 基于抽样分布进行推断

 点估计(Point Estimation)

选择一个“好的”统计量作为 θ 的估计:

  • 无偏性
  • 最小方差(UMVUE)
  • 一致性

这一部分完全属于 NP 的抽样分布路线


区间估计(Interval Estimation)

通过反演统计量的分布:

Pθ(TAα)=1α置信区间.P_\theta(T\in A_\alpha)=1-\alpha \quad\Rightarrow\quad \text{置信区间}.

置信区间(confidence interval)本身就是 Neyman 的发明。


假设检验(Hypothesis Testing)

基于抽样分布计算 p-value 或构造最强力检验(Neyman–Pearson Lemma):

p=Pθ(TTobs).p = P_\theta(T\ge T_{\text{obs}}).

这是 NP 框架最成熟的部分。


下面我们开始介绍NP所确定的古典统计推断的基本框架:

定义(统计量 Statistic)

X=(X1,,Xn)X = (X_1, \ldots, X_n)

为来自分布族

{f(xθ):θΘ}\{ f(x \mid \theta) : \theta \in \Theta \}

的观测样本,其中 θ 为未知但固定的参数。

一个可测函数

T:XnRkT : \mathcal{X}^n \to \mathbb{R}^k

称为 统计量(statistic),如果它满足:

T=T(X1,,Xn)T = T(X_1,\ldots,X_n)

并且表达式中 不含未知参数 θ


定义(抽样分布 Sampling Distribution)

X=(X1,,Xn)X = (X_1,\ldots,X_n)

为来自分布族 {Pθ:θΘ}\{ P_\theta : \theta \in \Theta \} 的样本, T=T(X)T=T(X) 为一个统计量(即一个可测映射)

T:(Xn,Bn)(Rk,Bk)).T : (\mathcal{X}^n,\mathcal{B}^n) \to (\mathbb{R}^k,\mathcal{B}^k)).

对于每一个固定的参数值 θΘ\theta \in \Theta, 统计量 T(X)T(X) 在概率测度 PθP_\theta 下通过像测度(pushforward measure)

PθT=PθT1P_\theta^T = P_\theta \circ T^{-1}

所诱导出的分布称为 统计量的抽样分布(sampling distribution),记为

Lθ(T)TPθT.\mathcal{L}_\theta(T) \quad \text{或} \quad T \sim P_\theta^T.

即对所有 Borel 集 BB(Rk)B \in \mathcal{B}(\mathbb{R}^k) 有:

PθT(B)=Pθ(T(X)B).P_\theta^T(B) = P_\theta\big(T(X) \in B\big).

在频率派(古典)推断框架中,参数 θ 被视为未知但固定的常数,而样本 XX 是随机的。 因此统计量 T(X)T(X) 的随机性完全由 XX 在分布 PθP_\theta 下的行为决定。 统计量在 PθP_\theta 下诱导出的像测度 PθT=PθT1P_\theta^T = P_\theta \circ T^{-1},称为 T 的抽样分布(sampling distribution)。 随后的整个频率派推断理论,均是在分析统计量的抽样分布的基础上展开的。


估计量(Estimator)的定义


X=(X1,,Xn)PθX=(X_1,\ldots,X_n)\sim P_\theta

来自分布族 {Pθ:θΘ}\{P_\theta:\theta\in\Theta\},θ 为未知常数。

一个用于估计参数 θ 的 统计量

θ^=T(X1,,Xn)\hat\theta = T(X_1,\ldots,X_n)

称为 θ 的 估计量(estimator)


下面依次引入各项性质:

无偏性(Unbiasedness)

估计量 TT 称为 θ 的 无偏估计量,若对所有 θ:

Eθ[T]=θ.\mathbb E_\theta[T] = \theta.

这里的期望就是对抽样分布取期望:

Eθ[T]=T(x)d(PθT)(x).\mathbb E_\theta[T] = \int T(x)\, d(P_\theta^T)(x).

即严格使用推前测度来定义。

tip

在无偏估计量的讨论中中,经常使用如下两个数字特征(关于θ\theta的函数)对其加以描述:

方差(Variance of Estimator)

定义

估计量 TT 的方差定义为:

Varθ(T)=Eθ[(TEθ[T])2].\operatorname{Var}_\theta(T) = \mathbb{E}_\theta\big[(T - \mathbb{E}_\theta[T])^2\big].

解释

  • 描述重复抽样时 T 围绕其均值的波动大小。
  • 方差越小,估计量越“稳定”。

特别注意: 方差不关心 T 是否偏离 θ,它只看“抖不抖”。

均方误差(Mean Squared Error, MSE)

定义

MSEθ(T)=Eθ[(Tθ)2].\operatorname{MSE}_\theta(T) = \mathbb{E}_\theta[(T-\theta)^2].

这是衡量估计量整体误差的重要指标。

解释

  • 它直接衡量 T 与真实参数 θ 之间的平均平方距离。
  • 同时考虑了偏差与波动,是最综合的误差指标。

偏差–方差分解(Bias–Variance Decomposition)

定义偏差:

Biasθ(T)=Eθ[T]θ.\operatorname{Bias}_\theta(T) = \mathbb{E}_\theta[T] - \theta.

则:

MSEθ(T)=Varθ(T)+(Biasθ(T))2\boxed{ \operatorname{MSE}_\theta(T) = \operatorname{Var}_\theta(T) + \big(\operatorname{Bias}_\theta(T)\big)^2 }

这是估计理论中最重要的关系式之一。

特殊情况:无偏估计量的 MSE

TT 无偏,即:

Eθ[T]=θ,\mathbb E_\theta[T] = \theta,

则:

MSEθ(T)=Varθ(T).\operatorname{MSE}_\theta(T) = \operatorname{Var}_\theta(T).

即对无偏估计量而言,比较 MSE 等价于比较方差。


有效性(Efficiency)

在上部分中,我们已经知道:

  • 无偏性关注“估计平均是否等于 θ”
  • 方差关注“估计在重复采样中是否稳定”
  • 若估计量无偏,则 MSE = Var

所以有一个自然的问题:

在所有无偏估计量中,哪一个最稳定?(方差最小)

这就是**有效性(efficiency)**要解决的问题。

tip

讨论有效性之前的说明:

设:

  • 参数空间为 ΘR\Theta\subseteq\mathbb R
  • X=(X1,,Xn)PθX=(X_1,\ldots,X_n)\sim P_\theta 来自分布族 {Pθ:θΘ}\{P_\theta:\theta\in\Theta\}
  • T=T(X)T=T(X) 为 θ 的一个无偏估计量,即:
Eθ[T]=θ,θΘ.\mathbb{E}_\theta[T] = \theta ,\qquad \forall\,\theta\in\Theta.

在频率派框架中,估计量的稳定性通过其在参数值 θ\theta 下的方差衡量:

Varθ(T)=Eθ ⁣[(TEθ[T])2].\operatorname{Var}_\theta(T) = \mathbb{E}_\theta\!\left[(T - \mathbb{E}_\theta[T])^2\right].

需要强调的是:

对于每一个固定的 θ\theta,方差 Varθ(T)\operatorname{Var}_\theta(T) 是一个具体实数; 但从整体上看,它随参数 θ 变化,因此本质上是一个关于 θ 的函数:

fT(θ)=Varθ(T).f_T(\theta)=\operatorname{Var}_\theta(T).

因此,在比较无偏估计量优劣时,必须在整个参数空间 Θ\Theta 上逐点比较其方差函数。

下面我们正式给出有效估计量的定义:

若无偏估计量 T(X)T(X) 对任何其他无偏估计量 S(X)S(X) 都满足:

Varθ(T)    Varθ(S),θΘ,\operatorname{Var}_\theta(T) \;\le\; \operatorname{Var}_\theta(S), \qquad \forall \theta\in\Theta,

则称 TT 是 θ 的 有效估计量(efficient estimator), 或称 一致最小方差无偏估计量(UMVUE)


下面我们的思路将围绕如何寻找/构造UMVUE来展开:

为此,我们首先引入如下概念:

充分统计量(Sufficient Statistic)

  1. 数学定义(NP 的严格定义)

设样本 X=(X1,,Xn)X = (X_1,\dots,X_n) 的联合密度(或概率质量函数)为 f(xθ)f(x\mid\theta), 统计量为 T=T(X)T = T(X)

我们称 T 是关于参数 θ 的充分统计量,如果对于任意可测集合 AXA\subseteq \mathcal X

Pθ(XAT=t)P_\theta(X\in A \mid T=t)

与 θ 无关

更形式化地说:

Pθ(XAT=t)=P(XAT=t),θΘ.P_\theta(X\in A \mid T=t) = P(X\in A \mid T=t), \qquad \forall\theta\in\Theta.

即:

充分统计量实现了“信息因子化”—— 样本的联合分布 f(xθ)f(x|\theta) 可以写成只依赖 T(x)T(x) 和 θ 的部分,与 θ 无关的部分被分离出来。 于是关于 θ\theta 的全部依赖被浓缩在 TT 中。

这是现代充分性的完全数学定义。

例如:

  • 正态分布 X1,,XnN(μ,σ2)X_1,\dots,X_n \sim N(\mu,\sigma^2) 样本均值 Xˉ\bar X 就是关于 μ\mu 的充分统计量。
  • 伯努利模型中成功次数 T=XiT=\sum X_i 是关于 pp 的充分统计量。

下面定理给出了判断充分性的最强工具:

Neyman–Fisher 因子分解定理(Factorization Theorem)

X=(X1,,Xn)X=(X_1,\dots,X_n) 的联合密度(或概率质量函数)为

f(xθ),f(x\mid \theta),

统计量 T=T(X)T=T(X)

以下两条陈述等价:


(1) T 是关于 θ 的充分统计量。

即:

Pθ(XAT=t)P_\theta(X\in A \mid T=t)

对于所有 θ\theta 相同。


(2) 存在函数 gghh,使得联合密度可分解为:

f(xθ)=g(T(x),θ)h(x),f(x\mid\theta) = g(T(x),\theta)\, h(x),

其中:

  • 所有关于参数 θ 的依赖只出现在 g(T(x),θ)g(T(x), \theta)
  • h(x)h(x) 完全不含 θ

这个逻辑可以概括为:

  1. 如果 f(xθ)f(x|\theta) 可以因子分解 → X 的条件分布(给定 T)中剩余部分不含 θ → 所以 T 充分。
  2. 如果 T 充分 → 条件分布不依赖 θ → 一定可以把密度分成“(T, θ)”部分 × “θ 无关”部分 → 就有因子分解的形式。

所以两者完全等价。

在充分统计量的讨论中,我们已经将参数θ\theta信息全部抽离出来,下面我们要其中多余的冗余信息去除,即完全统计量的概念。

note

例子:

例如:T 是充分统计量,但不是完全的。

假设你发现了一个统计量 h(T),满足:

Eθ[h(T)]=0对所有 θ\mathbb{E}_\theta[h(T)] = 0 \quad \text{对所有 } \theta

但 h(T) ≠ 0(不是几乎处处零)。

那么你可以构造一族无偏估计量:

θ^a=θ^0+ah(T)\hat\theta_a = \hat\theta_0 + a \cdot h(T)

对所有 a:

  • θ^a\hat\theta_a 都是无偏的
  • 但它们的方差各不相同
  • 很多甚至更差或更乱

所以你遇到的问题是:

充分统计量保证无偏,但不能保证唯一。 可能出现一整个“无偏估计族”,没有谁天然最佳。

这就是统计学中的不可辨识自由度(uninformative directions)

所以此处我们引入完全统计量的目的正是将把所有“虚假自由度”彻底消灭。

完全统计量(Complete Statistic)

{Pθ:θΘ}\{P_\theta : \theta \in \Theta\} 为一族分布, T=T(X)T=T(X) 为一个统计量。称 T 为完全统计量,若满足:

g:RR 可测,(Eθ[g(T)]=0 对所有 θΘ)  g(T)=0 a.s.\boxed{ \forall g:\mathbb{R}\to\mathbb{R}\ \text{可测},\quad \Big(E_\theta[g(T)] = 0\ \text{对所有}\ \theta\in\Theta\Big) \ \Longrightarrow\ g(T)=0\ \text{a.s.} }

我们引入上述两个概念后,下面我们开始逐步考虑一致最小方差无偏估计问题:


在仅有无偏估计时,我们面临一个难题:

在所有无偏估计量中,是否存在某种结构,让我们能够系统性地改进任何给定的无偏估计?

充分统计量 TT 为这种改进提供了可能性: 既然关于参数 θ 的全部信息都集中在 TT 中,那么:

  • TT 无关的波动
  • 必然是“纯噪声”
  • 是无偏估计中方差的来源

这启发我们对估计量进行“投影”:

θ^(X)=Eθ[θ^(X)T].\hat\theta^{*} (X)=E_\theta[\hat\theta(X) \mid T].

设:

  • θ^(X)\hat\theta(X) 为任何一个无偏估计量:

    Eθ[θ^(X)]=θ,θE_\theta[\hat\theta(X)] = \theta,\quad \forall \theta
  • T(X)T(X) 是关于 θ 的充分统计量

定义新的估计量:

θ^(X)=Eθ[θ^(X)T].\hat\theta^{*}(X)=E_\theta[\hat\theta(X)\mid T].

定理:(Rao–Blackwell)

θ^ 是无偏估计,且  Varθ(θ^)Varθ(θ^),θ.\boxed{ \hat\theta \text{ 是无偏估计,且 }\ \operatorname{Var}_\theta(\hat\theta^*) \le \operatorname{Var}_\theta(\hat\theta),\quad \forall\theta. }

不等式取严格形式的充要条件是:

Pθ(θ^=E[θ^T])<1.P_\theta(\hat\theta = E[\hat\theta\mid T]) < 1.

即:若原估计包含与 T 不相关的噪声,则降噪有效。

本卷其他文章

  1. 混沌与起点
  2. 结构与边界
  3. 层级与系统
  4. 秩序的边界