高阶概率论
[TOC]
前言:高阶概率论随记
本研究资料是作者在研究生阶段学习高阶概率论过程中撰写的总结与心得。材料力求在梳理课堂知识脉络的基础上,融入个人的理解与思考,以期形成一份系统而兼具个体特色的学习文稿。
本资料的重点,将集中于介绍现代概率论的公理化体系,尤其是柯尔莫哥洛夫所建立的以测度论为基础的概率框架,阐释其基本内涵与规范。与此同时,作者也将在适当的部分,结合自身学习体会,简要提出一些哲学与方法论层面的思考。然则,本资料仍以上课内容与理论范畴为主,关于概率背后的深层哲学意义以及相关的理论框架,并不作过多展开。
在此,谨向本科阶段授课教师——中国科学技术大学管理学院胡太忠老师——致以诚挚的感谢。其课程启发了作者对概率论更深层次的兴趣,并为本资料的写作奠定了基础。
中国科学技术大学 龚家和
2025年9月于安徽合肥
第一小节:概率的承载对象
当我们开始提及“概率”这一概念时,首先浮现在脑海中的往往是某个具体的事件。换言之,概率从来不是孤立存在的,它必然是依附于事件之上而被讨论的。
在当代数学的主流框架中,我们的对象通常都建立在以 ZFC 公理体系(Zermelo–Fraenkel 集合论与选择公理)为代表的集合论之上。集合被视作描述与承载一般对象的基础载体。因此,若要对“概率”展开系统研究,我们必须首先澄清事件与集合之间的关系,并在此基础上建立起事件所构成的一般理论框架。
1.1事件的基本研究思路
在概率论中,我们研究的对象是随机试验。一次随机试验的结果称为基本事件,记作 。所有可能的基本事件构成的集合称为样本空间,记作 。样本空间的子集则称为随机事件,简称事件。
因此,概率论中的“事件”与集合论中的“集合”之间存在天然的对应关系。换言之:
- 概率论视角:事件、事件运算、概率。
- 测度论视角:集合、集合运算、测度。
这两者之间通过柯尔莫哥洛夫的公理化方法建立起严谨的桥梁。关于二者之间的关系,我们将在之后的内容中详细介绍。下面,我们先重点明确一下此处的研究思路。
在之前的定义中我们已经指出,事件的本质是样本空间的子集。因此,在正式进入概率的研究之前,有必要先对事件(即集合)的相关性质加以讨论和分析。这不仅是概率论的基础,也是其与集合论、测度论建立联系的关键起点。
在开始研究事件之前,此处我在详细阐述一下我们此处研究问题的思路:
(一)抽象层面:集合的存在性与无穷基数性
概率论的第一重基础在于集合本身的存在。 这一层不涉及概率的数值概念,而是讨论作为事件载体的集合体系如何在逻辑上成立。
- 在这一层次,我们面对的问题是“集合能否存在”“无限集合是否可以被接受”,因此它依托于以 ZFC(Zermelo–Fraenkel 集合论与选择公理) 为核心的公理体系。
- 无穷基数性的引入,使得样本空间可以从有限集扩展到可数与不可数的连续域,从而为后续概率分析提供可能。
- 从哲学上看,这一层探讨的是存在性(existence)——我们先假定“世界中的事件”得以存在,并且这些事件可以通过集合的形式被承载与刻画。
因此,抽象层面的意义在于:它为概率论提供了“可以讨论的对象”。 没有集合的存在,就无从谈起事件、结构与度量。
(二)公理建立层面:拓扑与代数结构
在集合存在的前提下,第二层的任务是为这些集合赋予形式结构, 即建立一个在逻辑上自洽、运算上封闭的事件系统。
- 在这一层,我们研究如何通过运算规则(并、交、补)构造出稳定的集合族,从而形成 半代数—代数—σ-代数 的层级体系。
- 同时,拓扑结构的引入使得集合具备连续性与可生成性,从而能够通过开集系统生成 Borel σ-代数,这在后续定义随机变量与连续概率分布时起到核心作用。
- 在哲学意义上,这一层对应于认识性(recognition)——我们不再仅仅承认集合的存在,而是识别出它们之间可被形式化、可被运算的结构关系。
这一步是概率论“形式语法”的建立。 事件系统在此获得逻辑规则,成为一个能够承载无穷运算与推理的结构化舞台。
(三)应用层面:概率与分析
当事件系统被确立后,我们便可以在其上引入数量结构, 也即在集合之上赋予“大小”的度量函数,从而形成测度与概率的理论框架。
- 通过 Carathéodory 外测度构造,我们将有限可加性推广为可数可加性; 进而在 σ-代数上定义概率测度 ,使得 成为完整的概率空间。
- 在这一层,拓扑与分析的工具被自然引入: Lebesgue 积分、收敛定理、随机变量的期望与方差、分布与独立性等, 全部建立在测度论的延展之上。
- 在哲学上,这一层对应于唯一性(uniqueness)—— 当结构与公理被确立后,概率测度的存在与唯一性意味着整个系统的数值层面得以自洽。
这一层使概率论从“集合的逻辑学”走向“集合的分析学”, 标志着概率作为数学度量的诞生。
这三层关系可以简要地表示为:
在这一脉络下,概率论的研究不再仅仅是对“随机现象”的计算, 而是成为一门研究集合结构在逻辑、拓扑与度量三维下的演化规律的学科。 它既是形式科学的延伸,也是关于“结构存在与数量化”的一门哲学式的数学。
从这一脉络来看,概率论的公理化体系实际上是一个由下而上的建构:最初我们先研究概率(数值)这一概念,再追溯到它所依赖的事件(集合),最后在事件基础上抽象出代数与测度的上层结构。当前我们讨论的“事件部分”,正处于这一进程的中间阶段:既是对事件的同级研究,也是通过与代数封闭性结合,进入更高层次抽象的关键环节。
注释1:数学作为一门形式化的学科,在作者的哲学观下,其本身被视为认识框架的产物。 换言之,我们的“先天直觉”并非被数学所揭示,而是被数学形式所封装与再表述。 因此,在本研究中所提及的“哲学对应性”(存在、识别、唯一)并非对应于数学对象的层次划分,而是对应于认识活动的三个面向。 数学的层次结构(集合—结构—度量)仅是这一认识过程的形式化显现,有关此处的详细的哲学探讨可以参考作者的思考集《苹果论》。
注释2:受限于课程时长与教学深度的限制,本资料主要聚焦于公理建立层面与应用层面的内容补充。 关于集合存在性与无穷基数性等抽象层面的探讨,在此不作系统展开。 若读者希望了解作者关于数学整体结构构建及其存在论、认识论层面的详细分析,可参考作者另一部研究材料《近代数学补充计划》,其中对整个数学框架的哲学基础与公理体系有更为完整的论述。
1.2基本工具的引入
在概率论的公理化体系中,任何结构的建立——无论是代数系统、拓扑结构,还是后续的测度空间——都必须以一种共同的语言为基础。 这一语言并非由概率论自身生成,而是先于一切结构而存在的:它就是集合论的形式语言。
集合论的地位在此并非某种“学科上的先导”,而是一种认识框架上的先天性。 我们所有关于事件、关系、封闭性、连续性等概念的讨论, 都必须默认存在一个可以表达“元素—集合”关系的基本语法体系。 换言之,没有集合语言,我们便无法书写“事件”这一对象,也无法谈论事件之间的逻辑关系。
在本研究中,我们不讨论集合存在的哲学根基(如 ZFC 公理体系、无穷基数等问题), 而仅将集合论视作一种工具性的前提: 它为后续的代数与拓扑提供了统一的描述载体,使我们得以在其中定义
等符号操作,并通过它们表达事件的包含、相交、并合与互补。所以在开始之前,我们先形式化的介绍下面最基本的语言工具。
为了严格刻画事件之间的逻辑关系,我们需要引入集合论所依赖的形式化语言。这一语言体系的基本成分包括:
note
- 逻辑联结词
- 否定:,表示“命题 不成立”;
- 合取:,表示“ 与 同时成立”;
- 析取:,表示“ 或 至少一个成立”;
- 蕴涵:,表示“若 成立,则 也成立”;
- 等值:,表示“ 与 等价”。
- 量词
- 全称量词:,表示“对任意 ”;
- 存在量词:,表示“存在某个 ”。
- 基本关系符号
- 属于:,表示元素 属于集合 ;
需要说明的是:ZFC 不再定义“∈”—— 而是直接以它为一切集合命题的起点,所有概念均通过它来刻画。
这意味着:“属于”并非从别的关系导出, 而是被直接接受为一种原生的认知操作—— 我们能直觉地区分“元素在集合中”与“不在集合中”, 而这就是集合论的最小直觉单位。
有上述基本逻辑符号后,很自然的我们能够引入事件间的基本关系:
note
设 ,其中 为样本空间, 为基本事件。
(1) 包含
(Inclusion)
说明:如果事件 发生,则事件 必然发生。换言之, 是 的子事件。
(2) 相等 (Equality)
说明:事件 与 在所有可能结果上完全一致,因此两者发生与否没有区别。
进一步的,我们不假思索的由上述基本关系引出如下集合层面的常见运算:
tip
并 (Union)
说明:事件 表示“ 或 至少有一个发生”。
交 (Intersection)
说明:事件 表示“ 与 同时发生”。
补 (Complement)
说明:事件 表示“ 不发生”,即与 对立的事件。
对称差 (Symmetric Difference)
说明:事件 表示“恰有一个事件发生”,即 与 不可能同时发生,但允许单独发生。
互斥 (Disjointness)
说明:事件 与 互斥,意味着两者不能在同一次试验中同时发生。
1.3事件极限的分析
在前面对单个事件及其运算关系的讨论基础上,我们现在转向由 事件族 所引出的极限理论。
在引入具体事件及其运算之前,我们先约定若干基本记号与术语。
若一列事件满足
则称其为单调增加事件序列,记作 ;
若一列事件满足
则称其为单调减少事件序列,记作 。
这两类事件序列的单调性刻画了事件在逻辑包含关系下的演化趋势,常作为研究事件极限与测度连续性的重要基础。
此外,关于有限或可列事件族的并运算,有如下常用的分解公式:
引理 1.3.1(事件并的分解表示) 设 为一族事件(其中 可为有限或可数无穷),则有
式中符号“”表示互不相交并集的形式加法。
该公式表明:总体并集可以看作由一系列逐层新增、互不重叠的部分构成。 换言之,每一层 所贡献的有效区域为“当前事件减去此前所有事件的并集”。 这一分解在后续讨论事件的可加性与概率测度的连续性时具有重要作用。接下来,我们将进一步展开对事件族结构的研究。
对于一族事件 而言,可以从两个角度来研究其性质:
- 整体性质:着眼于整个事件族所能覆盖或约束的范围;
- 局部性质:考察其中某个或若干事件的具体特征。
在整体性质中,最重要的刻画方式是通过 上确界 (supremum) 与 下确界 (infimum):
- 上确界 :表示这族事件所能覆盖的最大范围,即所有事件的并集;
- 下确界 :表示这族事件共同的最小范围,即所有事件的交集。
这一思路为我们进一步讨论 事件序列在无穷处的极限行为(如 与 )奠定了基础。换言之,极限理论正是事件从“有限逻辑关系”走向“可数无穷结构”的关键一环。
当我们从单个事件转向事件族 时,一个自然的问题是:
这“一堆事件”整体上能覆盖的范围有多大?它们共同的交集又有多小?
这正对应了集合论中的 上确界 (supremum) 与 下确界 (infimum) 的概念。
直觉出发
- 想象把所有事件 的区域都“堆”在一起:它们覆盖的最大范围就是 上确界,也就是并集;
- 反过来,若只取所有事件都同时包含的那部分区域,那么剩下的“核心”就是 下确界,也就是交集。
因此,在集合(事件)意义下,sup/inf 实际上就是 并/交 的代数化表述。
形式化定义
设 为一族事件,则:
-
上确界 (Supremum)
表示事件族所能覆盖的最大范围。
-
下确界 (Infimum)
表示事件族所共同包含的最小范围。
==特殊约定==
-
互斥事件族 若 两两互斥,则约定记作
直观理解:互斥事件的并集等价于“事件的加和”。
-
空指标集 特别地,当 时,定义:
- 空并集 = 并运算的单位元 ;
- 空交集 = 交运算的单位元 。
这类约定保证了事件族运算的完整性与一致性(这点我们将会在后面的证明中详细看出),同时也符合我们的直觉:
- “没有元素参加并运算” → 并不出任何东西,自然是 ;
- “没有元素参加交运算” → 没有限制条件,结果就是整个 。
-
下面我们面临一个重要的思考:对于涉及无穷趋势的事件族而言,我们应当如何刻画其在“极限处”的情形?
在数学处理中,一个常见的思想是 从特殊到一般:
- 我们先从最简单的、结构单纯的事件列出发,例如 单调递增列 与 单调递减列,在这类情况下极限具有直观且自然的定义;
- 随后,再将思路推广到一般的事件列,通过引入 上极限 与 下极限 的概念来统一讨论,从而保证不同情形下极限定义的一致性与相容性。
这种层层递进的方式,不仅符合直觉推理的习惯,也为后续概率测度的连续性定理奠定了基础。
下面我们重点讨论 事件族的极限问题。顾名思义,这里的“极限”指的是当事件序列趋向无穷时,其在样本空间中所能==稳定覆盖==的范围。
直观来说:
- 如果一个事件序列的范围越来越大,我们关心的是它最终能覆盖到的“全部区域”;
- 如果一个事件序列的范围越来越小,我们关心的则是它最终始终保留下来的“核心区域”。
基于这一思路,我们先从最简单、直观的 单调事件序列 出发,再逐步推广到一般的事件列。
对于单调事件而言,由于其本身具有单调性,故其无穷区域所稳定覆盖的范围即为其最远端所确定的范围:
note
- 单调递增事件序列 若
在这种情形下,极限定义为
直观说明:事件族只会“越来越大”,因此极限就是它们最终覆盖到的全部范围。
- 单调递减事件序列 若
则称 为 单调递减事件序列,记作 。 在这种情形下,极限定义为
直观说明:事件族只会“越来越小”,因此极限就是最终必然保留下来的核心部分。
📌 这一部分的核心思想是:单调性保证了极限的存在性与唯一性,因此可以用并集或交集自然地刻画。它为后续引入一般事件列的上极限与下极限奠定了基础。
对于单调事件序列,我们可以自然地通过并集或交集来定义其极限。然而,在一般情形下,事件序列往往并不具备单调性:它可能忽大忽小、时而包含、时而剔除。此时,我们如何刻画“最终稳定的范围”呢?
数学上的处理方法是采取 夹逼的思想:
- 虽然我们无法直接指出序列最终收敛到的确切区域;
- 但我们可以从两侧加以逼近:
- 从“上方”看,考虑出现的最大可能稳定覆盖区域,这些点至少出现无穷多次,构成事件列的上极限;
- 从“下方”看,考虑出现的最小可能稳定覆盖区域,这些点最终一定存在,构成事件列的 下极限。
用更为严谨的数学化表述就是:
caution
对于事件序列 :
上极限
也记作 (infinitely often)。
下极限
也记作 (almost always)
从上述定义不难看出:
它们之间的差
正好刻画了那些“有时出现、有时消失”的点,也就是“不稳定”的部分。
因此:
若差集为空,即
则事件序列的极限存在,且极限集合就是这一公共部分;
若差集非空,即存在至少一个点在上极限中但不在下极限中,则极限不存在。
事件序列的极限,本质上关心的是“从某一步开始,某个点会不会一直/反复出现”。因此,自然想到用“尾部集合”来描述:
- “从第 步开始,至少出现一次” → 用尾部并集表示;
- “从第 步开始,总是出现” → 用尾部交集表示。
形式化定义 设事件序列为 。定义尾部集合:
- 上极限:
- 下极限:
warning
为什么上下极限不能只用并与交来定义? 从覆盖的角度来看,上下极限的定义背后有其内在的逻辑:
- 上极限(最大稳定覆盖区域) 直觉上可能会想到直接取无穷处的并集 ,但这太“宽松”了,因为它包含了那些只出现过有限次、偶尔活跃的点。 为了排除这些“不稳定点”,我们引入尾部并集并取交:
这样,一个点 若属于 ,就意味着:
即无论从哪个时刻开始,它总能在后续的某个事件中出现——保证了“无穷多次出现”的性质。
- 下极限(最小稳定覆盖区域) 相反,若只取交集 ,又显得过于严格,因为它会剔除掉那些在前期缺席、但最终趋于稳定出现的点。 因此定义为尾部交集的并:
对应的条件是:
即某个点只要从某一时刻起始就一直存在于事件序列中,就被计入下极限。
总结来说:
- 上极限通过“交中有并”排除了偶尔出现的点;
- 下极限通过“并中有交”保留了最终稳定的点。
这正是上下极限的严谨性所在:既要避免过度宽松(只取并),也要避免过度严格(只取交)。
下面我们给出上述定义等价性的一个简单的证明如下:
证明:
-
- “”方向: 若 (按点态定义: 属于无穷多个 ), 则对于任意 ,都存在 使 ,所以 ; 因为这一事实对于所有 成立,故 。
- “”方向: 若 ,即对于每个 ,, 意味着无论从多少步之后,都能找到一个后续事件包含 → 属于无穷多个 → 点态定义中的 。
- 下极限的等式与点态定义:
- “”方向: 若 (点态:存在某 使得对所有 , ), 那么 ,进而 。
- “”方向: 若 ,则某个 存在使得 ,即从那一步起始 属于所有后续的 → 点态定义中的 “最终总在”。
- 由此得到 ;若两者相等,极限存在。
特别的,我们也可以用如下表示法来表示上下极限在尾部事件族的表述:
在前面,我们通过上下极限的定义严格刻画了事件序列的极限存在条件:
这一判据揭示了极限存在的本质,但在实际推理中有时不够直观。
作为补充,可以从另一角度理解事件序列的收敛性:子列收敛性。 这与实数序列的情况类似——一个序列若要收敛,则所有子列都必须收敛到同一极限;反之,若所有子列都收敛于同一集合,那么原序列也必然收敛。
基于这一类比,我们得到如下判据:
设 是一列事件。则有:
证明思路(类比实数序列)
-
必要性: 若 ,则必有
任取子列 ,由上下极限的单调性:
因此 ,说明任意子列极限也存在且等于 。
-
充分性: 反设 不存在,则
取一点 ,它在事件列中“无穷次出现但并非最终常在”。 由此可以构造一条子列 ,使得 在其中忽隐忽现,导致该子列极限不存在或与某个固定集合不同。 这与假设“任意子列都收敛于同一集合 ”矛盾。 故 必然存在。
note
作者说明 :这一命题在实数序列的极限理论中是标准结论(“序列收敛当且仅当所有子列都收敛到同一极限”)。在事件集合序列的语境下,推理是完全类比成立的。 不过,笔者在目前查阅的教材/文献中尚未见到对此命题的直接表述,因此此处作为作者个人的思考补充,读者可将其理解为一种与实数极限判据的类比性刻画。
1.4代数空间的搭建
我们至此已经完成了基本形式化工具的引入。 此前我们指出,概率的研究对象是事件,而事件在形式上对应于集合。 接下来的核心目标,是在这些集合上赋予一种“大小”的度量, 以刻画我们对不确定性的直觉性认识。
要实现这一点,我们需要同时借助两类数学工具:
- 代数结构 —— 保证事件系统在逻辑与运算上的自洽与完备, 体现了结构层面的“存在性公理”;
- 拓扑工具 —— 提供连续逼近与生成性的框架, 使度量的定义与扩张在形式上得以成立。体现了递归层面的“构造性”公理
这两条工具线共同支撑着后续测度与概率空间的建构: 前者建立结构的稳定性,后者保证度量的可生成性。 从这一节开始,我们将在集合语言的基础上,正式搭建事件系统的代数结构, 为概率论的公理化奠定形式框架。
下面我们看一下代数系统的具体搭建。
1.4.1基本运算的选择
若要将此处的集合体系抽象为一个代数结构, 首要的问题便在于——我们应当如何选择基本运算。 不同的运算定义将决定该结构所能满足的代数性质, 并进一步影响其在逻辑自洽性与可加性方面的表现。
因此,在进入形式化的结构建构之前,我们有必要先对当前集合运算进行一次简要分析, 考察它们所具备的基本性质与代数特征。 通过这一分析,我们将能够明确: 在集合的语义框架中,哪些运算能够自然地承担“加法”与“乘法”的角色, 并据此构成事件系统的代数化基础。
在任何代数系统中,若我们希望定义“加法结构”, 通常需要该系统在某种二元运算下满足若干最基本的代数性质。 这一运算(记作“+”)的要求可概括如下:
-
封闭性(Closure)
运算结果仍属于系统自身。
-
结合律(Associativity)
运算的先后次序不影响结果。
-
交换律(Commutativity)
-
单位元存在(Existence of Identity) 存在某个元素 ,使得
-
逆元存在(Existence of Inverse) 对每个 ,存在 ,使得
若一个集合 与运算“+”满足上述五条性质,则称 为一个交换群 (Abelian group)。
若暂不要求逆元存在,仅保留前四条性质,则 构成一个交换幺半群 (commutative monoid)。 这一结构恰好对应于我们在算术中对乘法的天然直觉—— 运算可交换、可结合,存在单位元,却不具备普遍的可逆性。
我们先做一个结构性观察:一旦在事件族上引入两类运算并要求封闭,再配备零元素,许多代数性质将会“天然”涌现。 请读者思考:在我们已引入的工具中,哪一种集合运算最适合用来承担事件系统中的“加法”与“乘法”角色?
不难验证:单独以并/交为基本加法会在“逆元”问题上束手无策(例如 仅在 时成立)。 因此,我们采取一种复合运算作为代数系统的第一步——对称差。
加法的选择:对称差
定义“加法”:
此时只需要求对称差封闭并引入单位元 ,其余加法公理自然成立:
于是 形成交换群结构(每个元素自逆)。
乘法的构成:交运算
在数量系统中,我们对“乘法”的天然直觉是:交换、结合,存在单位元(若有),但不要求普遍可逆。 对应到事件世界,令“乘法”取为交:
只需要求交封闭,即可得到:
若体系包含全集 ,则
乘法带有单位元 ,从而 为交换幺半群(不必有逆元)。
分配与环结构(布尔环)
更进一步,“乘法”(交)对“加法”(对称差)满足分配律:
基于上述分析过程,我们现在可以初步定义如下代数结构,作为我们给集合赋予人为“大小”的初步舞台。由此,集合代数 在代数意义下可视为一个布尔环(Boolean ring)。 其中:
分别定义了环的加法与乘法运算。此时有:
-
加法结构: 构成一个交换群,其单位元为 , 且每个元素满足自逆性 。
-
乘法结构: 构成一个交换幺半群,其单位元为全集 , 并满足幂等性 。
-
分配律: 对任意 ,有
从而满足环的分配律。
因此, 满足交换含幺环的全部公理, 并且该环具有以下特征性质:
即每个元素幂等且特征为2。由此它构成一个典型的布尔环。
若定义特征函数映射
则该映射是一个环同构:
其中 为按位异或, 为按位乘积。 由于 在模2运算下同构于有限域 , 可进一步得到:
即该布尔环同时是一个在域 上的有限维(或可数维)向量空间。
####1.4.2集合代数
基于上述分析,至此,我们给出集合代数的定义如下:
定义 设 是样本空间 的子集族。若满足:
- ;
- 对任意 ,有 ;
- 对任意 ,有 ;
则称 为一个 布尔/集合代数(algebra of sets) 。
说明: 在定义中我们并未直接要求对称差封闭,这是因为对称差本身是一个由“交”“并”“补”复合而成的运算。 若系统尚未保证补运算的封闭性,对称差便无法在结构内部自洽地定义。 因此,我们选择以更原始的方式——直接要求交与补封闭——来保证体系的完备性。 在此基础上,对称差、差集以及有限并等运算的封闭性都会自然推出。
tip
数量乘法的局部可逆性 vs. 集合交的全局不可逆性
在算术体系中,乘法几乎处处可逆。 除零以外的所有数都存在乘法逆元,因而 构成一个交换群。 这种结构体现了“比例”与“反缩放”的对称性—— 数量的增与减、放大与缩小在形式上可以互相抵消。
而在集合体系中,交运算 的语义是“共同成立”或“同时发生”。 这种逻辑约束是单向的:越相交,可能性越少; 不存在一种“反相交”操作能恢复全集 , 除非本身就是 。 因此, 构成一个全局不可逆的交换幺半群。
换言之:
- 数量乘法刻画可逆的缩放关系;
- 集合交运算刻画不可逆的逻辑约束。
这一区别说明:虽然集合代数在形式上类似环结构,但它无法成为“域”。 在逻辑世界中,“相交”代表约束而非比例—— 因此可逆性不再成立。
(一)主线一:系统运算的自洽性
(1)运算封闭的选取顺序
在搭建事件系统时,我们面临着“梦幻三选一”:
- 并 ()
- 交 ()
- 补 ()
上述三种运算分别代表中系统的三种含义,即:
交:提供稳定性;
并:提供扩张性;
补/差:提供排他性;
理论上三者都是基本运算,但是此处我们应该选哪种运算封闭最先封闭作为我们的基本运算呢?
这里我们首先分析一下上述三种运算的差别:
在构建事件系统时,我们面对三种基本运算:并 ()、交 ()、补 ()。它们在系统中的角色并不完全相同:
- 交 ():标准二元运算
- 输入两个集合,输出仍然是集合;
- 内部规律完备(交换律、结合律、分配律);
- 在区间、长方体等基本集合族中天然封闭;
- 从直觉上,它对应逻辑的“且”,表达“同时成立”的必然性。
- 并 ():外延膨胀运算
- 并的结果往往使集合变得“更大”,形状更复杂;
- 例如两个区间的并不一定还是区间,而可能是多个区间的并;
- 并对应逻辑的“或”,它直观但可能让系统迅速膨胀。
- 补 ():结构性对偶
- 补是一元运算,其定义依赖全集 ;
- 它不是“两个集合的结合”,而是“相对于系统舞台的镜像翻转”;
- 从逻辑上,它对应“非”,需要一个外部参照才能成立。
从上述差异我们不难看出:
note
从一般性的角度
来看,三种基本运算的差异在于它们是否依赖“参照物”:
- 交 () 与 并 ()
- 两个集合本身就能直接定义,无需依赖外部舞台;
- 因此它们是内部生成的运算,纯粹由集合间的关系决定。
- 补 ()
- 定义为 ,显然依赖全集 作为参照;
- 这是一种“结构性对偶”,不是集合之间天然的结合。
由此得到一个直观的推理顺序:
- 在没有外部参照物时,最自然能定义的就是 交与并;
- 在交与并之间,若考虑系统稳定性,交更具保守性:
- 交的结果趋向收缩,不会破坏集合的“简单性”;
- 并则容易膨胀,造成系统复杂化。
在系统构造的最初阶段,我们希望找到一个最自然、最稳定的运算来保证事件族的封闭性。从三种基本运算(并、交、补)来看,补运算依赖于全集作为参照,并不是完全的内部运算;并运算虽然直观,但容易导致系统迅速膨胀而复杂化;相比之下,交运算具有形状保持性与收缩性,天然更适合作为系统的出发点。因此,我们在构建半代数时,首先以“交封闭”为基本要求,再逐步引入补与并,扩展到代数与 σ-代数。
######(2)集合半代数
下面我们沿着之前的思路尝试来搭建我们的第一个代数系统,集合半代数:
我们先从系统的构建逻辑上来看:
note
设 是一个样本空间, 是 的若干子集所组成的集合族。若 满足以下条件,则称 为一个 集合半代数 (semialgebra of sets):
-
包含全集 。
-
对交运算封闭 对任意 ,有 。
-
差集可分解 对任意 ,若 ,则存在有限个两两不交的集合 ,使得
需要注意的是,在上述定义下,空集在半代数中是自然的,这是因为:
取任意 ,考虑 :
根据条件 (3),我们必须能把 表示为有限个互不相交的 元素之并。
- 唯一合理的方式就是“零个集合的并”,也就是 本身。
- 因此 也必须在 中。
集合半代数的形式化定义我们已经给出,但更重要的是理解为什么要这样规定。从逻辑直觉上看,主要有两个考虑:
全集必须在其中
- 如果没有全集 ,那么交、并这些运算就缺乏参照系。
- 例如补运算 ,没有全集就无法定义。
- 因此在任何系统里,全集的存在相当于为整个舞台提供了一个“坐标系”或“基准点”,保证所有操作都有意义。
差集(弱补)有限分解的引入保证系统周密性
- 单靠交运算虽然稳定,但一旦涉及“排除操作”,结果可能变得非常复杂。
- 特别是在连续情形下,差集可能产生稠密的碎片,比如在区间里去掉一个稠密子集(如有理数),得到的集合几乎到处都是孔洞,完全超出系统可控范围。
- 为了避免这种情况,半代数规定差集必须能被分解成有限个互不相交的集合并。
- 这样,系统即使在差运算下也不会破碎为稠密碎片,而是始终由“有限块”拼装而成,保持可操作性和周密性。
注:这里要求差集能够有限分解,主要是为了防止“稠密情况”的扰乱。原因在于,我们对事件(集合)的数量直觉,通常仍然是建立在有限的区域上的,而不是建立在“稠密的、无限碎片化的区域”上的。如果允许差集产生稠密碎片,那么事件作为“个体”的理解就会崩溃,系统将难以维持直观的可操作性。
需要特别注意的是,此处半集代数对于并运算并不封闭,我们给出一个直观的反例如下:
note
例子:实数上的半开区间族
设
这是一个典型的 半代数。
- 全集: 可以写成 ,满足条件;
- 交封闭:两个半开区间的交仍然是半开区间;
- 差集可分解: 可以写成有限个不相交的半开区间并。
👉 所以 是一个半代数。
检查并运算
取 和 ,它们都在 。
- 并集:
这个结果是“两个不相交区间的并”,它不是一个单独的半开区间,因此不在 。
结论
- 半代数只保证 交封闭 和 差分解;
- 但并不保证 有限并封闭,因为像上面这种“离散并”会跑出系统。
下面我们从系统自身运算自洽的角度来看:
半代数的设计并不是纯粹形式化的,它的核心作用在于: 保护我们关于“度量集合大小”的直觉。我们下面看如下问题:
==为什么需要半代数?==
在日常直觉里,集合的大小应该是可分块的:
- 区间有长度;
- 长方形有面积;
- 立方体有体积。
我们期望“整体大小 = 各部分大小之和”。 然而如果允许集合差运算随意进行,就会产生稠密而碎裂的结果,完全违背直觉。 例如:
- 在 上考虑 : 这个集合到处都是“孔”,你没法把它分解成有限个干净的区间,结果根本无法谈“大小”。
==半代数的限制==
半代数的条件恰好避免了这种“病态碎片”:
- 包含全集 → 保证有参照物;
- 对交封闭 → 系统稳定,不会无限外扩;
- 差集有限分解 → 强制每次“切割”后,剩下的部分仍能拼成有限块。
这样,我们在半代数里得到的任何集合,都仍然是由有限个“干净的拼块”组成的,始终保留“拼装/拆分”的直觉。
==例子:实数上的半开区间族==
设
- 两个区间的交,仍是区间;
- 差集 ,可以分解为有限个不交的半开区间(最多两个);
- 因此 是一个半代数。
但注意:
因为它不再是单个区间。说明并运算不封闭。
👉 这表明:半代数保证我们在“切割”时不会产生稠密怪物,但不保证“拼合”时依然是原类。它的作用就是维护“可分块的直觉”,而不是立即提供完整的运算闭合性。
==工具性总结==
从工具构造的角度,半代数的价值在于保护“大小”这一数量直觉:
- 差集有限分解确保我们始终可以把集合切割为有限个“干净的拼块”,避免稠密碎片。
- 在这种拼装体系下,我们自然希望定义一个函数来度量集合的“大小”。直觉要求这个函数必须满足加法规律:整体的大小等于部分大小之和。
于是,在半代数 上,我们可以尝试定义一个函数 ,满足:
-
零集为零:;
-
有限可加性(雏形):若 两两不交,且 ,则
这种函数正是有限可加函数的雏形。但必须注意:
- 在半代数中,并运算不封闭(例如两个不相邻区间的并不在半代数内)。
- 因此,上述可加性只能在“特殊情况下”成立,而不是一般意义下的闭合体系。
换句话说,半代数提供了一个初步的舞台:它让我们可以定义“有限可加”的雏形函数,但并不足以支撑完整的前测度体系。这也正是为什么后续必须扩展到代数(有限并封闭),再进一步扩展到σ-代数。
###### (3)集合代数
下面我们延续之前的思路,在半代数的基础上进一步扩展系统,从而更好的形成我们对于集合“大小”直觉的度量。
我们先从系统的构建逻辑上来看:
在半代数中,我们必须人为加入“差集可有限分解”的条件,以保证差运算不会产生稠密碎片。但在此体系下,并不保证并运算的封闭性,因此有限可加函数只能在局部场景下成立。
然而,如果我们在半代数的基础上再要求补封闭,情况便大大简化:
-
补与交一旦封闭,就能推出并封闭:
-
于是系统对三种基本运算的有限情形(交、并、补)全部封闭。
-
在这种情形下,半代数里“差集可有限分解”的条件自动成立,因为
不再需要有限分解,而是直接就是代数中的一个元素。(此时将并直接看做一个集合即可)
因此,代数可以看作是“半代数 + 补封闭”,这一步使得整个系统成为一个真正的有限逻辑闭合体。
基于此,我们给出集合代数的定义如下:
定义 设 是样本空间 的子集族。若满足:
- ;
- 对任意 ,有 ;
- 对任意 ,有 ;
则称 为一个 集合代数(algebra of sets) 或 集合域。
等价表述
上述 (1)(2)(3) 可以等价地替换为:
1’. ; 2’. 对任意 ,有 ; 3’. 对任意 ,有 。
说明:
- 这是因为 ,并与交可由补运算相互推出;
- 也是互相等价的(由补关系)。
因此只要补和并(或交)封闭,就能导出三者同时封闭。
出于直观性考虑,此处我们给出代数的典型示例如下:
代数的典型例子 例 1. 区间拼块的代数 设样本空间 ,定义
即所有有限个半开区间的并。
- 包含全集 ;
- 对有限并、交、补封闭;
- 因此 是 上的一个代数。
例 2. 有限集与其补的代数 设样本空间 ,定义
即所有有限集和余有限集的集合族。
- 典型性质:补运算在有限集与余有限集之间切换;
- 有限并、有限交也稳定保留在该族中;
- 因此 也是 上的一个代数。
几类特殊的代数
-
平凡代数:。
只包含“全有/全无”,是最小的代数。
-
最大代数:,即幂集 。
包含所有子集,是最大的代数。
-
包含事件 的最小代数:
只要把某个事件 强行纳入体系,最小的代数就是由 构成。
📌 这几类例子覆盖了:
- 区间族(连续情形);
- 有限/余有限集族(离散情形);
- 平凡极小代数与最大代数;
- 包含指定事件的最小代数。
它们一起构成了代数最常见、最直观的几个实例。
在有限情形下,我们所构建的空间在三种基本运算(并、交、补)下已经足够“完备”,能够很好地承载我们关于集合大小与可加性的常规直觉。然而,一旦涉及到无穷的情形,情况就变得微妙:在“无穷趋势”的意义下,我们对集合的扩张与可加性的直觉往往无法准确把握,从而会出现违反直觉的现象。
我们参考一个具体的案例如下:
例子:代数在极限处的“失效”
设样本空间 ,考虑集合族
即所有有限集与余有限集。
(1) 为什么它是代数?
- 全集 与空集 都在其中;
- 补封闭:有限 ↔ 余有限互为补集;
- 有限并/交封闭:有限并有限仍有限,有限并余有限是余有限,余有限并余有限仍余有限。 因此 是一个标准的代数。
(2) 在极限处的异常
定义一列集合:
每个 是有限集,所以 。
考虑它们的可数并:
即所有偶数的集合。
问题是:
- 不是有限集(因为有无穷多个偶数);
- 也不是有限集(奇数也无穷多个)。 因此 。
(3) 直观解释
- 在有限层次上,我们的直觉是“拼块” → 大小仍能加总;
- 但到了无穷拼块时,集合跑出了系统 → 违反了“整体=部分之和”的直觉。
这正说明:代数只能保护有限拼合的直觉,无法容纳极限处的无穷趋势。
📌 这就是为什么我们必须引入 σ-代数: 只有在 σ-代数中,可数并/交也被要求封闭,才能把这种“无穷拼合”的极限情况纳入体系。
通过这个例子,我们可以得出如下重要结论:
集合代数结构在无穷运算下对于并运算不封闭。
值得注意的是,代数结构对于无穷交运算是封闭的,关于此处的不对成性,我们给出一个简单的说明如下:
tip
关于无限交的封闭性与结构不对称
- 在代数中,有
- 限并/交/补都是对称封闭的;然而在无限趋势下,它们的表现并不对称。
- 无限并:结果可能扩张成“既不有限也不余有限”的集合(如偶数集),从而掉出代数 → 不封闭。(注:即使我们将全集也考虑在代数中,但是有限无穷与整体仍有差距)
- 无限交:结果往往收缩成有限集,极端情况下就是空集 。由于我们人为地承认空集属于代数(类似于把 纳入数的体系),因此交在无限情况下仍然保持封闭。
- 📌 这种“并失效、交稳定”的不对称性,正反映了代数在无穷情形下的局限。为了同时保证无限并与交的封闭性,就必须升级到 σ-代数。
当我们通过集合运算的扩张,构造到 集合代数这一层次时,此时系统已经具备了以下特性:
- 包含全集与空集:提供全局参照与零元;
- 对有限并、交、补封闭:保证逻辑运算下不会“跑出系统”;
- 差运算可表达:由并、补的结合自然得到差集。
这意味着,集合代数已经是一个稳定的有限逻辑系统。在这样的系统中,我们便可以较为完备地引入集合函数,用来度量事件的“大小”。
定义:可加函数(Additive Set Function)
设 是 上的一个集合代数。 一个函数
称为 可加函数,如果对任意有限个两两不交的集合 ,都有
在概率论建构中,这样的可加函数常被称为 前测度 (pre-measure) 的雏形。
- 它在代数上满足有限可加性;
- 但要推广到 σ-代数,就必须进一步满足 可数可加性。
- 可数可加性并不能直接在代数上验证,因此需要借助 外测度与 Carathéodory 扩张。
因此,从“运算自洽”的角度来说,集合代数上的可加函数是我们从“结构”过渡到“数量”的第一座桥梁。
(4)代数
在前面的构建过程中,我们已经完成了对于基本运算的封闭性构建。但是,当我们讨论到无穷情形时,情况则会发生改变。为此,我们现在从系统运算自洽性的角度而言。
在前面的构建过程中,我们已经完成了基本运算下的封闭性建构: 从交封闭的半代数出发,引入补运算与有限并,扩展到集合代数,使得系统在有限逻辑运算下保持自洽。
然而,这样的结构只适用于有限情形。 一旦我们转向无穷序列或极限操作,情况便会发生根本变化:有限封闭性不再足以支撑概率论中常见的极限法则与连续性定理。
因此,从系统运算自洽性的角度出发,我们必须进一步扩展:要求集合族在可数并、交与补运算下同样保持封闭。 这正是我们即将引入的核心概念——σ-代数。
定义
设 是一个非空集合。若集合族 满足以下条件,则称 为 上的一个 σ-代数 (sigma-algebra):
-
包含全集: ;
-
对补封闭: 若 ,则 ;
-
对可数并封闭: 若 ,则
由此可推出:σ-代数在可数交下也封闭。因为
在集合代数上,我们已经能够定义有限可加函数,作为前测度的雏形。然而,概率论的根本任务不仅涉及有限个事件的组合,还涉及到无穷序列、极限和连续变化。 因此,仅有有限可加性是不够的。我们必须在 σ-代数上,引入可数可加函数的概念,这才是测度论的真正核心。
在代数结构上,我们已经能够定义有限可加函数。现在,当集合系统扩展到 σ-代数 时,我们可以要求这个函数满足更强的性质:
定义
设 是一个 σ-代数。定义函数
如果它满足以下两个条件:
-
零空性:
-
可数可加性: 对任意两两不交的集合族 ,都有
那么我们称 是 上的一个可数可加函数(在一些文献中也称为 前测度 的严格形式)。
写到这里,敏锐的读者或许已经注意到:我们此前的讨论始终是围绕着系统自身运算的扩张逻辑来展开的。实际上,这种扩张路径在本质上与近世代数中的经典代数结构高度契合。
因此,在接下来的部分,我们将从对比学习的角度出发,考察前面所构造的三类集合系统(半代数、代数、σ-代数),并分析它们分别如何在近世代数的框架下得到体现。