For love is wiser than philosophy.

关于因果的讨论

[TOC]

早期因果认识

在早期的人类认识中，因果关系主要源于对经验世界的直观观察与反复对比。人们往往通过日常经验形成这样的判断：当某一行为或事件反复先于某一结果出现时，便自然地将其视为原因。例如，播种之后收获、服药之后病情缓解，这种“先后出现 + 稳定重复”的现象构成了最朴素的因果观念。

这一经验性理解在哲学中得到了系统化表达。David Hume 将因果关系概括为事件之间的“恒常联结”（constant conjunction），认为人们对因果的认知来源于对事件反复共现的经验归纳。在此基础上，John Stuart Mill 进一步提出了一系列用于识别因果关系的归纳方法（Mill’s Methods），包括“求同法”“求异法”“共变法”等。这些方法本质上通过比较不同情形下变量的变化，试图从经验数据中剥离出可能的因果因素。

从这些思想出发，早期人们对因果的理解可以概括为两点：其一，原因在时间上先于结果出现；其二，原因与结果之间存在某种稳定的对应关系，即在相似条件下重复发生。这种观点强调通过对比与归纳来建立因果认知，在方法上已经接近于后来的实验对照思想。

然而，这种基于经验归纳的因果观仍存在明显局限。一方面，它难以区分真正的因果关系与由潜在共同因素引起的表面关联；另一方面，它依赖于已有观察，缺乏对“如果采取不同选择会发生什么”的系统刻画。因此，早期的因果认识虽然为科学研究提供了重要启发，但整体上仍停留在经验层面，尚未形成严格的数学定义与统一的理论框架。

note

🥇 方法1：求同法（Method of Agreement）

👉 思路：

多个案例中，唯一共同出现的因素 → 可能是原因

例子：

情况	是否生病	是否喝了某水
A	✔	✔
B	✔	✔
C	✔	✔

👉 共同点：喝了水

➡️ 推测：水可能是原因

🥈 方法2：求异法（Method of Difference）

👉 思路：

两个几乎一样的情况，只有一个因素不同 → 这个因素就是原因

例子：

情况	是否生病	是否喝了某水
A	✔	✔
B	❌	❌

👉 唯一差别：水

➡️ 推测：水是原因

🥉 方法3：共变法（Method of Concomitant Variation）

👉 思路：

A变 → B也变 → 可能有因果关系

例子：

吸烟量 ↑ → 肺病概率 ↑

从实验差值到潜在结果：因果结构的隐含出现

潜在结果（potential outcomes）思想最早可以追溯到 Jerzy Neyman 在其关于农业试验的研究中提出的模型框架。在该研究中，Neyman并非从抽象的因果问题出发，而是试图解决一个具体问题：如何在随机实验设计下比较不同作物品种在不同地块上的产量差异，并进一步分析由此得到的比较结果的统计性质。在这一过程中，他提出每个实验单位（地块）在不同处理（作物品种）下均对应一个潜在的结果，即所谓“潜在产量”（potential yield）。

具体而言，Neyman将实验结构表示为一个双下标数组 $U_{ik}$ ，其中 $i$ 表示处理（品种）， $k$ 表示实验单位（地块）。这一表示隐含了一个关键思想：对于每一个单位，在所有可能的处理条件下都存在对应的结果，只是这些结果并不能同时被观测。现实中，每个地块只能接受一种处理，因此只能观测到其中一个结果，而其他结果则构成不可观测的反事实（counterfactual）。

在此基础上，不同处理之间的总体平均差异可以表示为

\frac{1}{N}\sum_{k=1}^{N}\bigl(U_{1k}-U_{2k}\bigr),

而在随机分配条件下，对应的样本均值差

\bar{Y}_1 - \bar{Y}_2

可以作为上述总体平均差异的无偏估计。这一结果使得“处理组与对照组的差异”不再仅仅是经验比较，而成为具有明确统计性质的估计量。

note

原文关键语句：

“a double-indexed array of unknown potential yields”
“The yield corresponding to only one variety will be observed on any given plot”

前者明确提出了“潜在结果”的结构性表示，后者则指出了因果推断中的核心困难：每个单位只能观测到其中一个结果。

tip

需要说明的是，Neyman（1923）原文的主要贡献集中在实验设计与统计推断方法上，例如通过抽样模型（urn model）分析估计量的性质，并推导平均差异及其方差表达式。这些内容主要服务于农业试验中的精度分析与推断问题，属于统计方法层面的展开。

在这一研究过程中，潜在结果 $U_{ik}$ 的引入主要出于对实验结构及估计量性质进行刻画的需要，而并非源于对抽象因果问题的直接建模。换言之，该表示最初作为分析工具出现，其核心关注在于随机化条件下估计量的无偏性及其统计性质。然而，从后见之明的角度看，这一结构实际上刻画了“同一单位在不同处理状态下对应不同结果”的基本形式，从而在无意中触及了因果问题的核心表达。

需要指出的是，Neyman并未对这一结构作进一步的理论抽象，也未将其解释为因果效应的一般性定义，相关分析亦未涉及处理效应异质性（HTE）的建模问题。因此，在本文的理论溯源中，我们仅提取其关于“潜在结果”的结构性思想作为起点，而将其余技术性推导部分予以略去。

差值何以成为因果：随机化与无偏性的统计基础

在实验研究中，处理组与对照组的比较天然导向差值形式，即通过两组结果的减法刻画处理效果。这种表达并非源于抽象理论推导，而是实验操作逻辑的直接结果：一部分个体接受处理，另一部分作为对照，研究者所观测到的正是两组结果的系统性差异。因此，“差值”首先是一种操作性表达，而非先验的理论构造。

在此基础上，随机对照试验（RCT）通过随机分配机制，使这一差值获得了明确的统计含义。用现代符号表达，随机化可以理解为处理指派 $T_i$ 与个体在不同处理下的潜在结果 $(Y_i(1), Y_i(0))$ 之间不存在系统性关联，即

T_i \perp (Y_i(1), Y_i(0)).

在这一条件下，总体平均差异

\frac{1}{N}\sum_{i=1}^N \bigl(Y_i(1) - Y_i(0)\bigr)

可以由样本均值差

\bar{Y}_1 - \bar{Y}_0

进行估计。进一步地，若引入概率语言，则上述关系可以写为

\mathbb{E}[\bar{Y}_1 - \bar{Y}_0] = \mathbb{E}[Y(1) - Y(0)],

即样本均值差在随机化条件下是总体平均差异的无偏估计。

这一结果构成了差值方法的核心优势：在随机化成立的条件下，处理效应的识别不依赖于额外的模型假设。换言之，随机化在设计层面消除了系统性偏差，使得简单的组间差值即可稳定对应于处理效应本身。

由此，差值不再只是一个计算结果，而成为一个由实验设计所保证的统计量。在这一框架下，无需对协变量分布建模，无需设定行为机制，也无需额外的可忽略性假设——所有这些在观测数据中必须引入的条件，在此均由随机化所内生满足。因此，可以说：

随机化即识别，而差值即其最直接的表达。

正是在这一理论保证与反复实践的共同作用下，差值逐渐被赋予因果含义，并形成一种稳定的研究直觉：因果效应即处理组与对照组之间的结果差异。在 Donald Rubin 之前，这一直觉事实上主导了学术界对因果问题的处理方式，使得 RCT 成为识别因果效应的标准范式。

然而，需要指出的是，上述表达采用了现代潜在结果与概率符号对 Neyman 思想的重述。在其原始分析中，相关结果是通过对潜在产量数组及随机分配机制的直接推导得到的，而非基于独立性与期望算子的抽象框架。因此，此时的因果解释仍主要依托于实验设计与统计性质本身。尽管差值的无偏性已由 Neyman 严格确立，但“因果效应为何等于这一差值”这一问题，尚未被提升为统一的形式化定义，而仍停留在方法与经验层面的共识之中。

因果框架的建立

对于RCT讨论因果的反思

在 Rubin（1974）的经典工作中，因果推断首先经历了一次关键的方法论转向，即对随机对照试验（RCT）“唯一性地位”的反思。在早期统计实践中，RCT 常被视为获得因果效应的唯一可靠途径，甚至隐含着一种观念：只有通过随机化设计，因果关系才具有合法的统计解释。然而，Rubin 指出，这一立场在一般意义下是难以成立的。一方面，大量科学结论并非建立在随机实验之上；另一方面，在现实研究中，随机化往往受到伦理、成本与时间等因素的严格限制，因此无法作为普遍适用的研究手段。

在此基础上，Rubin 并未否认随机化的重要性，而是对其地位进行了重新界定：随机化应被理解为一种有力的识别工具，而非因果概念本身的基础。换言之，因果问题的提出与定义并不依赖于实验设计本身，而是一个独立于具体数据生成机制的理论对象。这一转变标志着因果推断从“依附于实验的技术方法”，走向“以反事实为核心的建模范式”。

note

原文关键语句：

“only properly randomized experiments can lead to useful estimates of causal effects … is untenable9”（RCT非唯一）

“most scientific ‘truths’ have been established without using randomized experiments”（不完全依赖）：

randomized experiments may be infeasible due to cost, ethical concerns, or delays（成本）

“randomization should be employed whenever possible（不完全否定）

因果的哲学直觉

尽管 Rubin（1974）在形式上明确地将因果效应定义为潜在结果之差 $Y(1)-Y(0)$ (不是随机变量)，但其论述并未对这一表达背后的哲学直觉展开专门讨论。换言之，“为何因果可以通过差值刻画”这一问题，在原文中并未被显式提出，而是以一种建模假设的形式直接被引入。

然而，从概念层面来看，这一定义实际上体现了一种朴素而深刻的直觉：因果关系并非关于“是否发生”的二元判断，而是关于“变化如何引致变化”的度量问题。当某一处理状态发生改变时，研究者所关心的，是结果变量随之发生了多少变化，而非仅仅判断该变化是否存在。

在这一意义上，因果效应可以被理解为同一对象在不同可能状态下结果差异的量化表达。差值不再只是计算形式，而成为刻画“变化幅度”的基本结构。因此，将因果表示为 $Y(1)-Y(0)$ ，并非仅是一种数学定义，更是对“因果如何存在”的一种结构性刻画。

note

原文重要表述

反事实表述（但未哲学展开）：

“the difference between what would have happened … if … and what would have happened … otherwise”
直接给出差值定义（无哲学论证过程）：

“y(E) − y(C) is the causal effect … for that particular unit”

warning

⚠️ 在 Donald B. Rubin（1974）框架中， $Y(1)-Y(0)$ 是反事实定义，不可观测。实际观测到的组间差值 ≠ 因果效应，除非满足随机化等识别条件。

因果效应

在 Rubin（1974）的框架中，因果效应首先是从个体层面加以界定的。更准确地说，这一定义不是针对总体或组间平均差异，而是针对某一个特定单位在一个给定时间区间内的处理比较。Rubin 先将一个 trial 定义为“某一单位”与“一对相关时点 $(t_1,t_2)$ ”的结合，其中 $t_1$ 表示处理开始施加的时间， $t_2$ 表示结果变量 $Y$ 被测量的时间，且满足 $t_1 。

在此基础上，设 $E$ 表示实验处理， $C$ 表示控制处理。对于某一个特定 trial，Rubin 分别定义：若该单位在 $t_1$ 时接受处理 $E$ ，则其在 $t_2$ 时观测到的结果记为 $y(E)$ ；若同一单位在 $t_1$ 时接受处理 $C$ ，则其在 $t_2$ 时观测到的结果记为 $y(C)$ 。于是，该单位在这一时间区间内，处理 $E$ 相对于处理 $C$ 的因果效应，就被定义为这两个潜在结果之差：

y(E)-y(C).

Rubin 明确指出，正是这个差值构成了 “the causal effect of the E versus C treatment on $Y$ for that trial” 。

note

基于上述反事实定义导致后续的因果问题聚焦于处理数据缺失问题

由于个体因果效应的不可观测性，rubin进而定义了群体的因果效应（典型因果效应）

对于 $M$ 个 trial（个体），“typical causal effect” 定义为：

\boxed{ \frac{1}{M} \sum_{j=1}^{M} \big( y_j(E) - y_j(C) \big) }

注：此处仅考虑二处理情形（E 与 C），作为简化模型以便于理论阐述，结果可自然推广至一般处理空间。

Rubin 的核心问题是：在无法同时观测 $y_i(E)$ 和 $y_i(C)$ 的情况下，是否可以利用实际观测数据对这一总体因果效应进行估计。为此，他考虑在随机分配条件下的实验设计，将所有可能的处理分配方式视为一个等概率的集合（randomization set）。在最简单的两单位情形下，不同分配对应的观测差值分别为 $y_1(E)-y_2(C)$ 或 $y_2(E)-y_1(C)$ ，由于两种情况等可能，对其取平均可得

\frac{1}{2}\Big[(y_1(E)-y_2(C))+(y_2(E)-y_1(C))\Big] = \frac{1}{2}\Big[(y_1(E)-y_1(C))+(y_2(E)-y_2(C))\Big],

恰好等于总体因果效应。随后，这一思路推广到一般的 $2N$ 个体情形。记实验组与对照组分别为 $S_E$ 与 $S_C$ ，观测统计量为

\hat{\tau} = \frac{1}{N}\sum_{i\in S_E} y_i(E)\;-\;\frac{1}{N}\sum_{i\in S_C} y_i(C).

在所有可能的随机分配中，每个个体 $i$ 以相同概率进入实验组或对照组，因此其对 $\hat{\tau}$ 的贡献在平均意义下为

\frac{1}{2}\left(\frac{y_i(E)}{N}-\frac{y_i(C)}{N}\right).

对所有个体求和后得到

\mathbb{E}_{\text{rand}}[\hat{\tau}] = \frac{1}{2N}\sum_{i=1}^{2N}\big(y_i(E)-y_i(C)\big)=\tau.

由此，Rubin 说明了在随机分配下，实验组与对照组的样本均值差在随机化意义下是总体平均因果效应的无偏估计。整个论证并不依赖概率分布或渐近理论，而是建立在有限总体、对所有可能分配的枚举以及对称性分析之上的逻辑推导。

在个体层面定义因果效应之后，一个自然出现的问题是：现实中每个单位仅能接受一种处理，因此实际观测到的结果取决于具体的处理分配方式。换言之，因果问题不仅涉及潜在结果的定义，还取决于这些潜在结果如何通过某种机制被“揭示”出来。随机对照试验（RCT）只是其中一种特殊的分配方式，其通过完全随机化实现处理指派。

值得注意的是，Rubin（1974）在后续部分对非随机研究、协变量调整以及结果外推等问题进行了广泛讨论，体现了对现实数据分析复杂性的深刻认识。然而，这些讨论主要停留在原则性与方法性层面，尚未形成统一的形式化识别框架。例如，对于何种条件下协变量调整能够消除混杂偏差，文中更多依赖“主观随机性”（subjective randomization）等经验性假设，而缺乏明确的结构化条件。

因此，从现代视角来看，Rubin（1974）的贡献主要在于确立了以潜在结果为核心的因果表达，而对于处理分配机制及其与潜在结果之间关系的形式化刻画，则有待进一步发展。正是在这一背景下，Rubin（1978）通过引入协变量与指派机制的概率结构，将因果问题正式嵌入统计建模框架之中。

因果效应数学统计化

相较于 1974 年对潜在结果思想的初步提出，Rubin（1978）通过引入处理指派机制与概率建模，将该思想系统化并嵌入统计推断框架，使因果效应的讨论由直觉性表述转化为严格的统计问题。

在 Rubin（1978）的框架中，因果问题首先通过对处理空间与潜在结果的刻画而被形式化。

处理空间与潜在结果数学化

首先，引入处理空间（treatment space），记为

\mathcal{T}=\{1,2,\dots,T\},

其中每一个 $t\in\mathcal{T}$ 表示一种可施加于实验单位的处理或干预。与后续更一般的抽象不同，Rubin 在原文中考虑的是一个有限处理集合，而非任意的抽象空间。该处理空间刻画了研究中“可实现的行动方式”，从而构成模型的第一层结构，即允许的世界变化方式。

其次，设总体中包含 $N$ 个实验单位（experimental units），记为

i=1,\dots,N.

每一个单位 $i$ 可以被理解为一个被施加处理并产生响应的基本对象。

在此基础上，引入潜在结果（potential outcomes）的概念。Rubin 原文中将其表示为向量形式

Y_i=(Y_i^1,\dots,Y_i^T),

其中 $Y_i^t$ 表示单位 $i$ 在接受处理 $t$ 时所对应的结果。为了突出其结构本质，这一表示可以等价地重写为一个定义在处理空间上的映射：

Y_i:\mathcal{T}\to\mathcal{Y},

即每个单位 $i$ 对应一个潜在结果函数，其满足

Y_i(t)=\text{单位 }i\text{ 在处理 }t\text{ 下的结果}.

协变量的思想与数学化

在个体层面将因果效应定义为潜在结果之差

\tau_i = Y_i(1)-Y_i(0)

之后，一个自然的问题是：为何不同个体之间这一效应会存在系统性差异。Rubin（1978）通过引入预处理协变量 $X_i$ 对这一问题进行了刻画。具体而言， $X_i\in\mathcal{X}$ 表示单位 $i$ 在处理发生之前已确定的特征信息，如年龄、健康状况或社会背景等，用以描述实验单位之间的差异。

从结构上看，潜在结果不再仅仅依赖于处理 $t$ ，而是同时依赖于个体特征 $X_i$ 。因此，可以将潜在结果理解为满足如下依赖关系：

Y_i(t) = Y(t, X_i),

或更一般地，将潜在结果视为定义在处理空间与协变量空间上的函数

Y_i:\mathcal{T}\times\mathcal{X}\to\mathcal{Y}.

在这一表示下，不同的 $X_i$ 对应着不同的响应函数，从而使得不同个体在相同处理 $t$ 下可能产生不同结果。

由此，个体因果效应亦可视为协变量的函数：

\tau_i = \tau(X_i), \quad \text{其中 } \tau(x)=Y(1,x)-Y(0,x).

因而，协变量的引入并不改变因果效应在个体层面的定义，而是将个体之间的差异结构显式地纳入模型之中，使得因果效应可以被视为随个体特征变化的函数。

指派机制的思想与数学化

在上述潜在结果与协变量结构之上，仍然存在一个关键问题：虽然对于每个单位 $i$ ，潜在结果函数 $Y_i(\cdot)=\{Y_i(t):t\in\mathcal{T}\}$ 已被定义，但在现实中仅能观测到其中一个分量，即

Y_i^{\mathrm{obs}} = Y_i(W_i),

因此，哪些潜在结果被实际“揭示”，取决于具体的处理分配方式。换言之，反事实结构所带来的核心问题在于：观测数据并非完整的潜在结果，而是通过某种选择机制从中抽取的结果。

为刻画这一过程，Rubin（1978）引入处理指派变量

W_i \in \mathcal{T},

用以描述单位 $i$ 实际接受的处理水平。该变量刻画了潜在结果中被选取进入观测的索引位置，从而将“反事实结果集合”与“实际观测数据”联系起来。

从结构上看，处理指派可以被理解为一个作用于潜在结果的选择机制：对于每个单位 $i$ ，其观测结果由潜在结果函数 $Y_i(\cdot)$ 与指派变量 $W_i$ 的组合所决定。进一步地，在一般情形下，该指派过程可能依赖于单位特征 $X_i$ 以及潜在结果 $Y_i(\cdot)$ ，从而形成不同的选择结构。

因此，观测数据的生成可以被理解为两部分的组合：一方面是潜在结果结构 $Y_i(\cdot)$ ，刻画在不同处理下可能发生的结果；另一方面是指派机制 $W_i$ ，决定其中哪一部分被实际观测。通过这一规范化，因果问题被转化为一个关于指派结构的问题，即在何种条件下，该选择机制不会引入对潜在结果的系统性偏离。

观测机制的思想与数学化

在前述潜在结果矩阵结构中，

\{Y_i(t): i=1,\dots,N,\; t\in\mathcal{T}\},

每一行刻画同一单位在不同处理下的潜在结果，而每一列刻画不同单位在同一处理下的结果集合。然而，这一结构本身仅描述“可能发生什么”，尚未刻画“实际观测到什么”。换言之，潜在结果矩阵作为一个完备结构，其全部元素在逻辑上同时存在，但在观测上仅有部分被揭示。

因此，需要在该结构之上引入一个观测机制，用以刻画潜在结果矩阵与实际观测数据之间的对应关系。从矩阵角度看，这一机制本质上是一个“选择规则”：对于每个个体 $i$ ，在其对应的一行中，仅有一个元素被选中并被观测，其余元素保持不可见。

为对这一过程进行形式化描述，引入观测指示函数（或缺失机制） $M_i(t)$ 。对于每个个体 $i$ 和处理水平 $t \in \mathcal{T}$ ，定义

M_i(t) = \begin{cases} 1, & \text{若潜在结果 } Y_i(t) \text{ 被观测},\\ 0, & \text{若 } Y_i(t) \text{ 未被观测}. \end{cases}

在这一表示下， $M_i(t)$ 可以理解为作用在潜在结果矩阵上的一个选择算子：对于每一行 $i$ ，该算子选取一个被观测的元素，并屏蔽其余元素。

由此，观测数据可以统一表示为

Y_i^{\mathrm{obs}} = \sum_{t \in \mathcal{T}} M_i(t)\, Y_i(t),

即观测结果是对潜在结果矩阵按 $M$ 所指示位置进行选择后的输出。这一定义将“观测过程”从潜在结果结构中显式分离出来，从而使“结构”与“可观测性”成为两个独立刻画的层面。

在常见的因果推断设定中，观测机制通常由处理指派变量 $W_i$ 所诱导，即满足

M_i(t) = \mathbf{1}(t = W_i),

从而每一行中被观测的元素由所接受的处理唯一确定。然而，从更一般的结构角度看，这一关系仅是观测机制的一种特例。通过引入 $M$ ，可以允许观测过程独立于处理指派进行刻画，从而覆盖更一般的情形，如结果缺失、选择性观测或测量不完全等。

需要强调的是，在这一阶段， $M$ 仅作为一个确定性的结构对象出现，用于描述潜在结果矩阵到观测数据的映射关系，而尚未引入任何概率或随机性。换言之，观测机制在此仍停留于数学结构层面的刻画，其统计意义将在后续通过概率结构的引入加以赋予。

拓展后的数学结构总结

至此，我们可以对 Rubin 因果模型的数学化过程作一个总结。若从方法论角度看，这一过程的核心并不只是引入若干记号，而在于将因果问题中原本混合在一起的不同作用因素逐步拆解出来，使其成为可以分别讨论的结构机制。换言之，数学化的本质就是结构化：通过把问题中不同层面的作用分离出来，建立一个由多个机制共同组成的完整系统。

具体而言，这一结构化过程至少包含以下几个层面。

一、潜在结果的引入：变化机制的显式化

首先，Rubin 通过潜在结果

Y_i(t), \qquad t\in\mathcal T

的引入，将“同一单位在不同处理下会产生什么结果”这一问题显式化。这里的关键不在于单个结果值本身，而在于对所有可能处理下的结果进行统一刻画。于是，对于每个单位 $i$ ，其潜在结果函数

Y_i(\cdot)=\{Y_i(t):t\in\mathcal T\}

构成了一个完整的变化结构。

这一机制的作用，是把“变化”本身从经验比较中抽离出来，使其成为一个明确的数学对象。因果效应之所以能够被定义，正是因为同一单位在不同处理下的结果被同时放入同一结构之中。也就是说，潜在结果刻画的并不是已经发生的现实，而是在不同处理条件下可能发生的全部结果，因此它提供的是因果问题中最核心的“变化机制”。

二、协变量的引入：异质性机制的显式化

其次，Rubin 引入协变量

X_i,

用以刻画不同单位之间的差异。潜在结果 $Y_i(t)$ 说明的是“同一单位在不同处理下如何变化”，而协变量 $X_i$ 进一步说明的是“不同单位为何会不同”。因此，协变量并不直接定义因果效应，而是刻画因果效应及潜在结果在个体之间如何呈现出系统性差异。

从结构上看，协变量的引入使得个体索引 $i$ 不再只是一个抽象编号，而带有了具体的特征内容。于是，问题不再只是“某个处理是否有效”，而进一步变成“这一处理对什么样的单位如何有效”。这一步实际上将模型中的异质性机制显式化了：它说明不同单位之所以会对同一处理产生不同反应，并非纯粹偶然，而可能与其预处理特征有关。

三、处理指派的引入：分配机制的显式化

再次，Rubin 引入处理指派变量

W_i\in\mathcal T,

其作用在于刻画单位实际接受了哪一种处理。潜在结果结构本身给出了所有可能状态下的结果，但现实中每个单位只会落入其中一个处理状态，因此必须有一个机制来决定“哪一种可能性被实现”。这个机制就是处理指派机制。

换言之， $W_i$ 所刻画的并不是结果本身，而是从所有可能处理状态中选择现实状态的过程。通过 $W_i$ 的引入，Rubin 将“变化会怎样”与“现实中实际发生了什么”区分开来。于是，潜在结果结构与现实处理实现之间建立了联系，而这种联系本身成为了一个可以独立讨论的对象。这一步所抽离出来的，正是模型中的分配机制。

四、观测机制的引入：可观测性机制的显式化

最后，在更一般的结构化表达中，还可以进一步引入观测机制

M_i(t),

用以刻画潜在结果矩阵中的哪些元素真正进入了观测数据。虽然在最基本的 Rubin 表达中，观测结果常写为

Y_i^{\mathrm{obs}} = Y_i(W_i),

即观测过程被隐含地并入处理指派之中，但从更一般的结构角度看，“处理被分配”与“结果被观测”其实是两个不同的问题。

其中， $W_i$ 决定的是单位接受了什么处理，而 $M_i(t)$ 则决定的是潜在结果 $Y_i(t)$ 是否被实际揭示。因此，观测机制所显式化的是模型中的可观测性机制：它说明从完整的潜在结果结构到现实数据之间，还存在一个“哪些信息可见、哪些信息缺失”的筛选过程。将这一步独立出来以后，潜在结果、处理分配与观测可见性三者便被彻底区分开来，从而使模型具有更一般的表达能力。

五、总结：数学化就是机制的结构化拆解

因此，从整体上看，Rubin 因果框架的数学化并不是对一个既定公式的修饰，而是对因果问题内部结构的逐步拆解。通过这一过程，至少有如下几个核心机制被依次显式化：

潜在结果 $Y_i(t)$ ：刻画同一单位在不同处理下如何变化，即变化机制。
协变量 $X_i$ ：刻画不同单位之间为何不同，即异质性机制。
处理指派 $W_i$ ：刻画哪一种处理状态被现实地实现，即分配机制。
观测机制 $M_i(t)$ ：刻画完整结构中哪些结果实际可见，即可观测性机制。

正因如此，Rubin 的贡献并不仅在于定义了因果效应，而在于将因果问题从一个混合的经验问题，转化为一个由多个机制共同构成的结构系统。也正是在这一意义上，可以说：**数学化的本质就是结构化。**只有当变化、差异、分配与观测这些机制被分别抽离并清晰表达之后，后续的统计化过程——即概率结构的引入、可识别性的讨论以及估计问题的展开——才有了明确的对象和清晰的基础。

因果推断的统计建模

下面我们进入统计建模的部分。

tip

从方法论上看，统计建模并非对原有数学结构的简单延伸，而是一种结构层级的提升。在潜在结果框架中，处理空间、协变量及潜在结果函数构成了一个语义完备的确定性系统，用以刻画“在不同处理条件下会发生什么”。然而，这一结构本身并不涉及不确定性与数据生成过程。

为了进行统计推断，需要在该结构之上引入概率空间 $(\Omega,\mathcal F,\mathbb P)$ ，从而将原有对象提升为定义在该空间上的可测映射，即随机变量。由此，原本的确定性结构被嵌入到一个更高层的随机框架之中，使其获得概率意义。

因而，统计建模可以理解为两个核心步骤：首先明确统计目标，其次通过引入概率结构对原有对象进行提升。这一过程并非改变对象本身，而是通过扩展其论域，引入随机性这一新的语义层，从而使得因果问题转化为可进行推断的统计问题。

important

从更抽象的角度看，引入概率空间的过程本质上是一种论域扩展：对象本身并未发生改变，而是通过将其定义域提升至样本空间，使其获得随机变量的形式。因此，随机性并非对象的固有属性，而是由这一结构性提升所赋予的语义。需要指出的是，这一由概率三元组 $(\Omega,\mathcal F,\mathbb P)$ 所引入的语义已超出原有因果结构本身的承载范围，其具体构造与基础意义通常不作为统计建模的讨论重点，而被视为给定的背景结构。

第一步：明确统计目标

在实际问题中，研究者所能获取的数据来源于观测过程本身。对于每个实验单位 $i$ ，仅能观测到其在实际接受处理 $W_i$ 下的结果

Y_i^{\mathrm{obs}} = Y_i(W_i),

因而数据的基本形式为

\{(X_i, W_i, Y_i^{\mathrm{obs}}): i=1,\dots,N\}.

从潜在结果的角度看，上述观测过程对应于一个更为完整但不可观测的结构，即以个体为行、处理为列的潜在结果矩阵。具体而言，对于 $N$ 个实验单位与处理空间 $\mathcal T$ ，潜在结果可表示为

\{Y_i(t): i=1,\dots,N,\; t\in\mathcal{T}\},

其结构可以形式化地写为

\begin{array}{c|cccc} & t_1 & t_2 & \cdots & t_T \\ \hline i=1 & Y_1(t_1) & Y_1(t_2) & \cdots & Y_1(t_T) \\ i=2 & Y_2(t_1) & Y_2(t_2) & \cdots & Y_2(t_T) \\ \vdots & \vdots & \vdots & \ddots & \vdots \\ i=N & Y_N(t_1) & Y_N(t_2) & \cdots & Y_N(t_T) \end{array}

在该矩阵结构中，行与列分别承载两种本质不同的信息：每一行

\{Y_i(t): t\in\mathcal{T}\}

描述同一单位在所有可能处理下的潜在结果，是反事实结构的具体体现；而每一列

\{Y_i(t): i=1,\dots,N\}

则对应不同单位在同一处理下的结果集合，刻画该处理在总体中的表现。换言之，行结构反映“同一对象在不同状态下如何变化”，而列结构反映“不同对象在同一状态下如何分布”。

然而，由于处理指派机制的存在，观测数据并非该矩阵的完整实现。具体而言，每个单位仅在其实际接受的处理 $W_i$ 下产生观测结果

Y_i^{\mathrm{obs}} = Y_i(W_i),

从而在上述矩阵中，每一行仅能观测到一个元素，其余元素在观测上不可获得。这一观测限制意味着，行结构（反事实结构）在数据中不可恢复。

因此，在该矩阵中需要区分两个层面：一方面，行结构对应个体层面的反事实关系，虽然在概念上定义良好，但在观测上不可同时获得，因此不属于可直接推断的对象；另一方面，列结构对应不同单位在同一处理下的结果集合，可以通过观测样本进行刻画，从而构成统计分析的基本对象。

在这一约束下，统计分析首先转向对列结构的刻画。具体而言，在固定处理 $t$ 下，我们关注

\{Y_i(t): i=1,\dots,N\},

并利用观测到的子样本

\{Y_i^{\mathrm{obs}}: W_i = t\}

对其进行刻画。这一层面的分析本质上描述的是不同个体在同一处理下的表现差异，即潜在结果矩阵中列结构的性质，因此反映的是异质性（heterogeneity），而尚未涉及因果解释。

需要进一步指出的是，在这一阶段，各列结构是分别被刻画的。也就是说，我们可以独立地研究

\{Y_i(t_1)\}, \quad \{Y_i(t_2)\},

并描述其各自的分布特征（如均值、方差或更一般的分布形态）。然而，这些刻画彼此之间尚未建立联系：它们仅反映不同处理条件下总体结果的差异，而不涉及同一单位在不同处理下的变化。因此，此时列结构之间的差异仅表现为分布差异，而尚不具备因果意义。

因果分析的引入，正是在这一基础上建立列与列之间的对应关系。具体而言，通过在个体层面定义差值

\tau_i = Y_i(t_1) - Y_i(t_2),

潜在结果矩阵中的不同列被对齐到同一单位，从而使得“列之间的差异”可以被解释为“同一单位在不同处理下的变化”。由此，原本彼此独立的列结构被统一到一个变化结构之中，差值由单纯的分布差异转化为具有明确解释的因果效应。

然而，由于每一行仅能观测到一个元素，个体层面的差值 $\tau_i$ 在数据中不可直接获得。因此，尽管因果效应在潜在结果框架中具有清晰的定义，其统计刻画仍然无法在个体层面进行，而必须依赖于对列结构的间接推断。

在此基础上，问题进一步转化为两个层次：首先，在单列层面，观测到的子样本

\{Y_i^{\mathrm{obs}}: W_i = t\}

是否能够代表潜在结果矩阵中的完整列

\{Y_i(t)\};

其次，在多列层面，即便各列可以被恢复，这些列之间的比较关系是否仍然保持有效，从而使基于它们定义的差值具有统计意义。

这一双重问题正是因果推断中的可识别性问题。它标志着分析从“列结构的刻画”（异质性）转向“列结构的恢复与比较”（因果效应），并刻画了在何种条件下，观测数据所揭示的部分信息足以支撑对潜在变化结构的推断。

第二步：引入概率结构

先固定概率空间

设

(\Omega,\mathcal F,\mathbb P)

为一个概率空间。其中：

$\Omega$ 表示所有可能“世界状态”或实验实现结果的集合；
$\mathcal F$ 是 $\Omega$ 上的 $\sigma$ -代数；
$\mathbb P$ 则描述这些状态出现的概率规律。

这里最关键的思想是： Rubin 框架中的随机性，并不是说每个潜在结果本身“随便跳动”，而是说我们把个体、指派、结果都放在同一个概率空间上，从而可以讨论抽样、随机指派以及统计推断。

处理指派 $W_i$ 是随机变量

对于第 $i$ 个个体，设处理空间为 $T$ 。在最常见的二元处理情形下，

T=\{0,1\}.

则处理指派写为一个可测映射

W_i:\Omega\to T.

也就是说，对每一个 $\omega\in\Omega$ ，都有

W_i(\omega)\in T,

表示在世界状态 $\omega$ 下，第 $i$ 个个体实际上被分配到的处理。

若是二元情形，那么

W_i(\omega)\in\{0,1\}.

所以这里的 $W_i$ 是真正意义上的随机变量；更准确地说，它是一个取值于离散空间 $T$ 的可测映射。

潜在结果 $Y_i(t)$ 是一族随机变量

对于每个处理水平 $t\in T$ ，定义第 $i$ 个个体在处理 $t$ 下的潜在结果为

Y_i(t):\Omega\to \mathcal Y,

其中 $\mathcal Y$ 是结果空间，通常可以取 $\mathbb R$ 或其可测空间版本 $(\mathbb R,\mathcal B)$ 。

于是，对每个 $\omega\in\Omega$ ，我们有

Y_i(t,\omega)\equiv Y_i(t)(\omega).

这个写法非常重要：

$Y_i(t)$ 表示“固定处理 $t$ ”后得到的那个随机变量；
$Y_i(t,\omega)$ 表示在具体世界状态 $\omega$ 下，这个随机变量的取值。

也就是说， $t$ 不是随机性的来源， $\omega$ 才是随机性的来源。 因此 $Y_i(t,w)$ 这种写法若你这里的 $w$ 是想表示样本点，其实最好写成

Y_i(t,\omega),

避免和处理指派变量 $W_i$ 混淆。

观测机制 $M_i(t)$ 也是随机变量

在引入 $M$ 之后，可以把“哪个潜在结果被观测到”形式化为：

M_i(t):\Omega\to\{0,1\},

即

M_i(t,\omega)\in\{0,1\}.

它表示：在状态 $\omega$ 下，第 $i$ 个个体在处理 $t$ 对应的潜在结果是否被观测到。

在二元处理、且观测机制完全由实际指派决定时，

M_i(t,\omega)=\mathbf 1\{t=W_i(\omega)\}.

这说明：

若实际接受的处理正好是 $t$ ，则 $M_i(t,\omega)=1$ ；
否则 $M_i(t,\omega)=0$ 。

观测结果 $Y_i^{obs}$ 的定义

有了 $M_i(t)$ 之后，观测结果就可以写成

Y_i^{obs}(\omega)=\sum_{t\in T} M_i(t,\omega)\,Y_i(t,\omega).

在二元处理情形下，就是

Y_i^{obs}(\omega) = W_i(\omega)Y_i(1,\omega)+\bigl(1-W_i(\omega)\bigr)Y_i(0,\omega).

这就是 Rubin 里最经典的那条式子。

它的意思是：

当 $W_i(\omega)=1$ 时，观测到的是 $Y_i(1,\omega)$ ；
当 $W_i(\omega)=0$ 时，观测到的是 $Y_i(0,\omega)$ 。

所以 $Y_i^{obs}$ 本身也是一个随机变量，

Y_i^{obs}:\Omega\to\mathcal Y.

由此我们可以将上述统计模型总结成四元组如下：

\Bigl((\Omega,\mathcal F,\mathbb P),\; W_i,\; \{Y_i(t):t\in T\},\; \{M_i(t):t\in T\}\Bigr).

这个四元结构的含义是：

概率空间 $(\Omega,\mathcal F,\mathbb P)$ ：提供随机性的统一背景；
处理指派变量 $W_i$ ：决定个体实际接受什么处理；
潜在结果族 $\{Y_i(t):t\in T\}$ ：描述不同处理下可能出现的结果；
观测机制族 $\{M_i(t):t\in T\}$ ：说明哪些潜在结果能进入观测数据。

关于因果的讨论

早期因果认识

从实验差值到潜在结果：因果结构的隐含出现

差值何以成为因果：随机化与无偏性的统计基础

因果框架的建立

对于RCT讨论因果的反思

因果的哲学直觉

因果效应

因果效应数学统计化

处理空间与潜在结果数学化

协变量的思想与数学化

指派机制的思想与数学化

观测机制的思想与数学化

拓展后的数学结构总结

因果推断的统计建模

第一步：明确统计目标

第二步：引入概率结构

本栏其他文章