For love is wiser than philosophy.

强化学习科研学习记录

[TOC]

第一篇：范式定义与要素基础

1.1范式定义（强化学习是什么？基本的范式是什么？有什么特征？）

在实际应用中，我们所关注的问题，是如何让机器能够自主完成某一类特定的任务。而在正式开展对这些任务的研究之前，理清其底层逻辑与理论基础无疑是至关重要的。特别地，在本节内容中，我们首先聚焦于强化学习的基本范式，对其核心定义与内在机制加以梳理和剖析。首先，我们来探讨强化学习作为一种机器学习范式的基础定义。

强化学习（Reinforcement Learning, RL）是机学习的三大主流范式之一，和监督学习、无监督学习并列。与前两者不同，强化学习强调智能体（Agent）在与环境（Environment）的动态交互中，通过“试错”（trial-and-error）不断修正行为，最终学会一套能够最大化长期回报的策略。这是引用[^1]

在强化学习框架下，智能体并不直接获得标准答案或标签，而是根据环境反馈到的奖励信号自主调整决策方式。其核心任务，是在探索（尝试未知行为）和利用（选择已知最优行为）之间找到平衡，最终学得能够最大化累计奖励的最优策略。

经典定义（Sutton & Barto, 2018）

“强化学习是关于学会‘做什么’——即如何将情境映射为动作——以便最大化一个数值型奖励信号的学习过程。”

这里面就会带来一个问题，当我们考虑动作的决策时，即机器应该“做什么”时，究竟是已有的动作效率高，还是存在未知尚未探索的未知的效率高？

仔细回顾这一学习过程，我们不难发现一个显著的核心问题：当智能体在动态交互中不断调整自身行为时，“试错”（探索）与“开发”（利用）之间的平衡始终是强化学习中不可回避==的==重要议题。这一平衡直接影响着学习的效率与智能体最终所能达到的最优表现。

强化学习最鲜明的特征，就是智能体需要在**“试错探索”与“最优利用”**之间权衡。试错探索让智能体发现潜在的高奖励策略，最优利用则指在当前已知信息下采取回报最高的行为。现实问题中，二者的平衡直接决定了学习的效率与最终表现。

探索（Exploration）：尝试新的、未被充分了解的动作，可能带来更优回报，但也有试错成本。
利用（Exploitation）：依赖目前已知的最优动作，获得稳定回报，但可能错失更优策略。

强化学习因此不仅是寻找最优解的过程，更是一种**“边做边学、边学边优”**的智能决策范式。

tip

注：在本篇记录中，强化学习是指机器学习的基本范式之一，具体的方法统一称之为强化学习方法

###1.2基本要素与对应性质（其基本的元素是什么？与其他范式的本质区别是什么？）

了解了基本范式定义以后，下面我们来思考一下，当机器面临此类任务时，存在哪些基本要素：

回顾上述过程，除了行动载体和行动环境宏观环境之外，一个完整的强化学习过程至少要包含以下三个基本部分，即：行动策略集合（策略集合）、行动反馈集合（收益信号集合）、行动评估集合（价值函数集合）

首先，我们来看行动策略集合的含义。

行动策略集合指的是智能体在每一个状态下可以采用的全部决策规则。具体来说，策略（Policy）本质上是状态到动作的映射：它定义了在不同情境（状态）下，智能体应该如何选择下一步的动作。在强化学习中，策略通常记为 $\pi$ 。其通常意义上代指此行动载体在当前环境下的状态 $s$ 到所应该采取的动作 $a$ 的映射

特别的，对于确定性策略， $\pi(s)$ 表示在状态 $s$ 下采取的特定动作 $a$ ；而对于随机性策略， $\pi(a|s)$ 表示在状态 $s$ 下选择动作 $a$ 的概率分布。

==这里就会提出一个问题，此处随机性策略为什么是概率分布而不是映射到动作中去？==

note

==随机性==

实际上，我们之所以在强化学习中将随机性策略（stochastic policy）定义为概率分布，而不是简单地将状态映射为具体动作，主要有两方面原因：

首先，从实际执行的流程看，虽然策略的输出是概率分布，但每一次具体决策时，智能体会根据该分布对所有可能动作进行采样，选出一个具体动作。这一步称为“采样过程”。在实际操作和推导中，为了表述简便，人们通常将“策略”直接理解为状态到动作概率分布的映射。

其次，这种定义方式反映出强化学习区别与其他范式的重要特征：决策的随机性。

如果随机性策略只是“映射到一个动作”，那它本质上就和确定性策略没有区别：每次同样的状态，总是选同一个动作，失去了“试探和探索”的功能。概率分布则允许同一个状态 $s$ 下可以“有机会试不同的动作”，即每次都可以根据不同的概率尝试所有可能性。

这种机制直接体现了**强化学习“探索-利用权衡”**的根本思想，防止智能体陷入“只会利用、不敢尝试”的困境。

复杂环境中，随机性策略赋予了智能体探索的能力，使其能够在未知或不确定的情境下以不同概率尝试各种可能性。这不仅有助于避免陷入局部最优，也为算法提供了更强的鲁棒性和适应性。因此，随机性成为强化学习范式区别于传统确定性优化的又一重要特征。

一个优秀的策略集合能够指导智能体在面对复杂环境时，灵活调整行为以争取更高的回报。策略的形式可以是确定性的（即同样的状态始终选择同一个动作），也可以是随机性的（即在某一概率分布下选择动作），是强化学习过程中智能体做决策的核心依据。

tip

注：广义强化学习包含了“确定性策略”和“随机性策略”两种情况。理论上，强化学习的“策略”是对“从状态到动作（或动作分布）”所有可能映射的抽象集合，确定性策略只是随机性策略的特例（概率分布是单位脉冲/one-hot）。大多数教材/论文/算法，默认讲“策略”时指的是“随机性策略”，因为它更一般、更灵活，能自然涵盖探索-利用、策略优化的全部理论需求。

比如策略梯度、Actor-Critic等现代深度RL算法，全部采用“策略是概率分布”这一更通用、更强表达力的定义。

接下来，我们看一下关于行动反馈集合的含义：

行动反馈集合，是指环境对智能体在每一步决策中所做行为的即时评价集合。在强化学习中，这种评价通常以“奖励信号”或“收益信号”的形式出现，本质上是一个将状态-动作对映射为数值奖励的函数。

数学上，奖励函数通常记作 $r(s, a)$ ，定义为：

$\mathcal{S} \times \mathcal{A} \to \mathbb{R}$

即对于任意状态 $s$ 和动作 $a$ ，奖励函数返回一个实数值 $r$ ，用于衡量该行为的即时优劣。

这一机制保证了强化学习的“试错学习”能力，使得智能体能够通过持续收集并分析每一步的反馈，不断优化自身的决策策略，最终实现对环境的适应与长期目标的达成。

==这里存在一个值得注意的问题，此处的行动反馈集合为什么被定义为状态和行为的笛卡尔积到实数集上的映射而非行为到实数集上的映射呢？==

note

==贯序决策性与贝叶斯学派==

其根本原因在于：奖励的好坏不仅取决于智能体选择了什么行为，更取决于行为发生的具体情境（状态）。在不同的状态下，执行同一个动作，其效果和价值往往截然不同。举个例子，“向前移动”这个动作，在走迷宫时若处于终点附近可能获得高奖励，而在悬崖边则可能带来负奖励甚至惩罚。因此，只有将状态与动作的组合作为输入，奖励函数才能全面、准确地反映行为的实际价值与环境反馈。

从数学结构上讲，这样的定义保证了奖励函数的灵活性和表达力，能够适应各种复杂动态环境的需要。这也正是强化学习区别于许多传统单步决策优化的根本特征之一：决策的效果高度依赖于决策所处的具体情境，而非动作本身。

进一步来看，这种状态—动作联合到奖励的映射关系，本质上体现了强化学习问题的贯序决策性。也就是说，智能体需要在多步、连续的决策过程中，不断根据历史和当前状态调整行为，以实现长期累计奖励的最优。每一步的选择不仅影响当前回报，更会深刻影响未来的状态分布和潜在收益，这种历史影响未来、决策链条高度递推的特征，是强化学习区别于监督学习等其他机器学习范式的根本所在。

与此同时，随机性策略的引入进一步丰富了这一过程。在强化学习中，策略往往以概率分布的形式定义，使得同一状态下可以以不同概率探索多种行为选择。这种以概率分布建模决策过程的方式，与贝叶斯概率学派在不确定性、经验更新、探索与利用等方面的思想高度一致。可以预见，贝叶斯方法在强化学习的理论研究与实际应用中将持续发挥重要作用，为智能体在复杂环境下的自主学习与适应提供坚实的概率推断基础。

最后，让我们看一下第三个要素，行动评估集合的含义：

行动评估集合，是指对智能体在特定状态或采取特定动作后所能获得的长期回报进行综合评价的机制。在强化学习中，这一要素通常通过**价值函数（Value Function）**来实现。

价值函数的本质，就是衡量某一状态（或状态-动作对）在长期内能够带来的累计奖励，是智能体判断“当前决策好坏”的理论依据。

==常见的价值函数==有两类：
- 状态价值函数（State Value Function） $V^\pi(s)$ ：表示智能体在状态 $s$ 下，遵循策略 $\pi$ 时，未来所期望获得的累计奖励。
  $V^\pi(s)=\mathbb{E}_\pi\left[\sum_{t=0}^{\infty} \gamma^t r_{t+1} \mid s_0=s\right]$
- 动作价值函数（Action Value Function） $Q^\pi(s, a)$ ：表示在状态 $s$ 下选择动作 $a$ ，并之后遵循策略 $\pi$ 时，未来所期望获得的累计奖励。
  $Q^\pi(s, a)=\mathbb{E}_\pi\left[\sum_{t=0}^{\infty} \gamma^t r_{t+1} \mid s_0=s, a_0=a\right]$

其中， $r$ 表示奖励信号，即每一步智能体与环境交互后获得的数值型反馈。数学上， $r_{t+1}$ 表示在第 $t$ 步，智能体采取动作 $a_t$ 后，由环境返回的即时奖励。奖励信号用于衡量当前行为的优劣，是强化学习目标优化的核心依据。 $\gamma$ 是折扣因子，取值范围为 $0 \leq \gamma < 1$ 。折扣因子的作用是控制未来奖励的“当前价值”： $\gamma$ 越接近1，未来奖励越被重视，智能体更“有远见”； $\gamma$ 越接近0，智能体越“短视”，只在乎眼前奖励。

价值函数不仅反映了对未来的前瞻性评估，还构成了强化学习“自举性”与“递归性”的理论基础。它通过递归地估算当前和未来所有潜在收益，使智能体能够在做决策时兼顾即时与长远利益，实现全局优化。

简而言之，行动评估集合为智能体提供了对未来收益的理性预判，是强化学习区别于只依赖即时反馈的“短视”方法的重要标志。

从此处的第三个要素的含义不难看出，价值函数让强化学习不仅关心当前行为的好坏，更关注每个决策对未来所有可能回报的深远影响，这种递归性和全局视角是其他机器学习范式所不具备的核心特征。出于完整性，我们此处将其递归的特征补充如下：

note

==递归性==

在强化学习的理论体系中，递归性（Recursiveness）是区分其与传统机器学习方法的又一重要特征。递归性主要体现在价值函数和策略的定义与更新过程中。强化学习中的每一步决策，不仅关注当下即时收益，还要递归性地评估未来所有可能获得的累计回报，这一思想直接体现在贝尔曼方程等核心公式之中。换句话说，智能体通过对当前价值和未来价值的不断递归估算，实现了对全局最优的动态逼近和策略调整。这种机制不仅赋予了强化学习系统前瞻性和自我修正能力，也是其能够适应复杂动态环境的根本理论基础。

此处我们给出一个经典的示例，后续涉及时会详细介绍：

于任意策略 $\pi$ ，其状态价值函数满足递归关系：

V^\pi(s)=\mathbb{E}_{a \sim \pi(s)}\left[r(s, a)+\gamma \mathbb{E}_{s^{\prime} \sim P(\cdot \mid s, a)}\left[V^\pi\left(s^{\prime}\right)\right]\right]

即：某状态的价值等于本步即时奖励与后续所有状态价值的折扣期望之和。这种“用未来价值来更新当前价值”的递推结构，是强化学习递归性与前瞻性的数学基础。

除了上述基本要素以外，当上述问题拓展开来，我们还能看到第四个要素，即环境方程。此处非常便于理解，当我们外部的环境发生改变时，会导致整体（相应的收益信号以及价值函数）会发生相应的改变，具体来说，通常会包含以下两个部分发生改变：

状态转移方程： $\mathcal{P}(s'|s,a)$ ，表示在当前状态 $s$ 下采取动作 $a$ 后，转移到新状态 $s'$ 的概率分布。（此处会影响到价值函数的计算）
奖励函数： $\mathcal{R}(s,a)$ ，即在状态 $s$ 下采取动作 $a$ 所获得的期望奖励。

因此，如果我们能够建立系统的环境方程对于环境整体加以有规律的预测，则可以进一步的处理复杂情形。在许多实际场景中（如自动驾驶仿真、机器人控制、复杂博弈等），利用环境模型进行模拟规划（如Dyna-Q、MCTS等）已成为提升样本效率、加速学习的重要手段。

1.3本篇小节

综上所述，本章系统梳理了强化学习作为机器学习主流范式之一的基本定义、核心特征与三大基础要素。通过对行动策略集合、行动反馈集合与行动评估集合的逐一剖析，我们不仅明确了强化学习决策的本质逻辑，也揭示了其区别于其他学习范式（如监督学习、无监督学习）的独特属性。强化学习以“试错—利用”平衡、随机性、贯序决策性与递归性为核心机制，赋予了智能体持续学习和动态优化的能力。

关键要素与本质特征对照表

基本要素	数学定义	主要作用	体现的本质特征	与其他范式的区别
行动策略集合（策略）	$\pi(a,s)\or\pi(s)$	指导状态下的行为选随机性	随机性	探索-利用平衡
行动反馈集合（奖励）	$r(s, a)$	评价决策行为的即时优劣	贯序决策性、情境依赖	非独立样本、环境相关
行动评估集合（价值）	$V^\pi(s)$ , $Q^\pi(s,a)$	综合评估未来累计回报	递归性、前瞻性	长期优化、全局最优
环境方程（拓展要素）	$\mathcal{P}(s’	s,a)\and \mathcal{R}(s,a)$	描述状态转移与奖励生成机制	适应性、动态性

拓展要素：A*算法与强化学习

下面让我们回顾一下在路径规划中经典的A*算法，并讨论其与此强化学习定义中进行对比：

在前文内容中，我们系统地梳理了强化学习的基本定义及其三大核心要素——策略、奖励与价值评估，并进一步指出，这一范式的广义化形式，实际上囊括了许多并非严格依赖于交互数据的决策方法。特别是在环境完全已知、模型明确可构建的情形下，部分基于规划（Planning）的方法，尽管不涉及传统意义上的“试错学习”，却依然遵循着策略指导行为、收益衡量效果、价值评估未来的基本逻辑结构，因而可被视作强化学习思想的特例体现。

为了更深入理解强化学习的理论外延与实际应用，我们接下来以路径规划领域中的经典算法——A*算法（A-Star）为例，分析其在决策机制上与强化学习三要素之间的对应关系，从而揭示强化学习与经典搜索算法之间的内在关联与边界融合。

首先，我们对比一下相关的元素：

✅ 一、行动策略集合（Policy）

强化学习视角：策略 $\pi(s)$ 是状态到动作的映射，决定智能体在每个状态采取哪一个动作。
A* 算法中对应：每次从 OPEN 表中选择 f(n) = g(n) + h(n) 最小的节点扩展，相当于一个 贪心+前瞻启发式 的确定性策略。
结论：A* 算法中存在显式策略 $\pi(s) = \arg\min_{a} f(s')$ ，为确定性策略，符合广义强化学习定义。

✅ 二、行动反馈集合（Reward）

强化学习视角：奖励 $r(s, a)$ 衡量在状态 $s$ 下执行动作 $a$ 的即时优劣，通常为实数值。
A* 算法中对应：奖励未显式出现，但每一步累加代价 $g(s)$ 可视为负奖励（cost），目标是最小化总代价，即最大化负代价。
结论：虽然形式不同，但路径代价/代价函数可等价看作奖励函数的相反数，满足反馈机制，支持“试探路径”的价值评估。啊

✅ 三、行动评估集合（Value）

强化学习视角：价值函数 $V^\pi(s)$ 或 $Q^\pi(s,a)$ 衡量当前状态或动作未来长期回报的期望。
A* 算法中对应：
- $g(s)$ ：从起点出发到当前节点 $s$ 的累计实际代价（等价于过去回报的累积）
- $h(s)$ ：从当前节点到目标的启发式估计（等价于未来期望回报）
- 所以 $f(s) = g(s) + h(s)$ 实质上是一个“当前价值 + 未来价值”的估计，即价值函数。
结论：A* 明确使用了递归性、前瞻性的评估函数，与价值函数思想高度一致。

✅ 四、（补充）环境方程

强化学习视角：
- 状态转移概率 $\mathcal{P}(s'|s,a)$
- 奖励函数 $\mathcal{R}(s,a)$
A* 算法中对应：
- 状态转移由地图结构（或图）明确定义，确定性无噪声；
- 奖励/代价是明确定义的，非随机。
结论：A* 是标准的 Model-based 规划方法，环境完全已知。

特别的，我们可以总结为如下表格：

强化学习要素	A*算法中对应内容	是否满足	特征说明
策略（Policy）	选择 $f(n) = g(n) + h(n)$ 最小节点扩展	✅	确定性策略（贪心+启发）
奖励（Reward）	每一步代价（cost）或 $g(n)$	✅	负代价等价于奖励
价值函数（Value）	$f(n) = g(n) + h(n)$	✅	当前+未来评估，体现前瞻性
状态转移模型	明确图结构或网格地图中的邻接关系	✅	完全环境模型，确定可知

此处我们再参考一下名家中关于强化学习的划分：

note

在Sutton & Barto（2018）强化学习圣经中，强化学习被分为：

Model-free RL（Q-learning，SARSA 等）
Model-based RL（有环境模型，可做 planning）
planning 方法 = 用环境模型做模拟搜索或动态规划
MCTS、Value Iteration、A* 都属于 planning 的一类

因此，A* 完全可以被视为一种强化学习中的 planning 方法，只是它不涉及“学习”过程，而是在模型已知条件下进行一次性决策。

因此，A* 算法在我们“广义强化学习”定义下，属于一种特殊但合法的强化学习方法，属于“基于模型的确定性规划策略”，即属于强化学习中的 planning 范式。

第二篇：历史研究与重要知识补充

在上一小节的末尾，我们指出了 A* 算法与强化学习核心定义之间的内在关联，由此也引出了一个值得深入思考的问题：强化学习的理念究竟源于何处？又是如何一步步演进为今日众多算法的理论基石？放眼当前的众多智能决策方法，我们几乎都能看到强化学习范式的投影与演化痕迹。因此，在本章中，我们将重点回顾强化学习的发展脉络，梳理其从早期试错模型到现代深度强化学习框架的演进过程，揭示其在理论构建与实际应用中的重要里程碑与思想转折点。

强化学习作为人工智能与机器学习的重要分支，其理论体系的形成并非来自某一单一学科的独立发展，而是历史上三条相互交织的理论主线在特定阶段逐渐融合的结果。这三条主线分别是·：

源于心理学与动物行为学的“试错学习”思想；
根植于控制论与运筹学的“最优控制与动态规划”理论；
以及作为连接两者的桥梁方法——时序差分方法，它使得强化学习从“经验”过渡到“策略优化”成为可能。

从历史的角度来看，三条主线的发展时间、学科背景与技术路线各自不同，却又在 20 世纪 80 年代末汇流于同一问题域：如何在不完全建模或监督信号缺失的情境下，通过交互式试探实现最优行为学习。

本节将分别围绕上述三条主线进行回顾，每条主线都选取其具有代表性的经典思想或方法展开分析，力图揭示现代强化学习的理论根基与跨学科融合机制。

我们首先来关注第一条主线，也是最早的出现的第一条主线研究，心理学与动物行为学的“试错学习”这一主线。

主线1：试错学习

追溯起源，首先不得不提及Alexander Bain关于“探试与实验（groping and experiment）”的学习模式

“探试与实现”的学习模式

在强化学习的思想源头中，最早对“试错学习”过程提出理论性描述的，是19 世纪中叶的英国哲学家与心理学家 Alexander Bain。虽然他并未像后来的行为主义学者那样进行系统实验，但其在《The Senses and the Intellect》（1855）等著作中明确提出了一个重要的观点，即：

note

学习的过程并非一次性完成，而是通过不断“试探与实验”（groping and experiment）逐步趋向成功。

这一观点强调了两个关键机制：

行为是多次尝试的产物，个体通过不断尝试不同的动作来解决问题；
成功的经验将逐渐被保留并固化，无效或带来不良后果的行为则会被逐渐淘汰。

在 Bain 的理论中，这一“试探与实验”的学习模式不仅被视为动物适应环境的一种普遍机制，也被看作智能行为的核心本质之一。

我们切换视角来看，Bain此时的工作，从本质上来说，是源于对于自然行为的直觉观察Bain的“groping and experiment”概念，主要建立在对人类行为、动物适应性以及婴儿成长过程等自然现象的==归纳==上；他观察到：当人或动物面对未知情境时，并不会立刻产生正确行为，而是通过反复试探、尝试多种行为方式来逐步接近成功；这种过程并不需要理性推理或知识推导，而是依赖行动后果进行调整，是一种本能层面的“行为选择机制”。简言之：这是一种从“外部可见行为”中总结出的认知模型，而不是对大脑内部机制的还原或数学化建模。

我们从理论的角度来看，在 19 世纪中叶，心理学尚未成为实证科学，Bain 的著作属于典型的**哲学心理学（philosophical psychology）**范畴；他的思想旨在建立一种解释框架：**为什么某些行为会被保留、为什么我们会“学会”正确的应对策略？**Bain 提供的回答是：通过不断尝试、失败与成功之间的反馈连接，个体逐步形成稳定的行为倾向。

从哲学的角度来看，Alexander Bain 提出的“试探与实验”学习模式，本质上是一种典型的经验主义学习观。这一观点强调学习并非源于先验知识或演绎推理，而是通过不断尝试、观察行为结果，并对经验进行归纳，逐步形成稳定有效的行为模式。在这一过程中，个体并不“推导出”某种适用规则，而是**“总结出”哪些行为更容易带来满足结果**。这是一种以归纳为核心的知识形成机制，其认知活动主要围绕行为与后果之间的感性联结展开，而非抽象推理与逻辑论证。从认识论上看，这种学习机制强调的是知识的**“内涵建构”**，即个体在经验中逐步形成对特定行为意义的主观认知，而非发现适用于所有条件的外延规则。这种思想虽然缺乏形式化表达，但正是在这种“经验—反应—强化”的结构中，强化学习最初的认知模式得以萌芽。

####摩根戒律（Morgan’s Canon）

尽管 Alexander Bain 首次提出了“试探与实验”这一经验性学习过程的概念雏形，但直到 19 世纪末，心理学界才真正开始使用“试错”这一术语对行为学习现象进行明确命名和描述。在这一转折点上，英国心理学家 Conway Lloyd Morgan 的工作起到了承前启后的作用。他不仅首次提出“trial-and-error”这一术语，还通过对动物行为的细致观察，揭示了学习行为中尝试与反馈之间的基本结构。

Morgan 在 1894 年的《An Introduction to Comparative Psychology》中首次明确使用了 **“trial-and-error（试错）”**一词来描述动物学习行为。他主张通过仔细观察行为模式来判断动物是否通过“试探与失败”达到目的，而不是依赖推测或归因其具有“高层心理过程”（来源于维机百科）

其核心的的原则可以表述如下：

note

“In no case may we interpret an action as the outcome of the exercise of a higher psychical faculty, if it can be interpreted as the outcome of an exercise of one which stands lower in the psychological scale.”

简单来说，即：“如果一种行为可以用较低级的心理机制解释，就不应假设它源自更高级的心理能力。”

其核心思想可以体现如下：

摩根的观点是对当时“拟人化解释动物行为”的批评与约束。他强调：

不要轻易假设动物有“类人智能”或复杂思维；
在解释动物行为时，应优先使用最简单、最低层次的心理过程解释（例如：本能、条件反射、试错学习）；
除非有充分证据表明动物在推理、规划、顿悟，否则不能把行为解释为“思考后的结果”。

我们举一个简单的示例如下：

tip

🐕 场景：一只狗打开门闩

你看到一只狗用爪子拨动门闩，把门打开了，你可能会想：

“哇，它懂得怎么用门闩了，它可能看人类怎么做，自己学会了！”（→ 高级解释）

但 Morgan 会说：

等等，别急着认为狗在“模仿人”或“懂得门的结构”。你应该先考虑这样一种可能性：

“这只狗曾经尝试过很多不同的动作——用嘴咬门、挠门、推门，偶然间发现用爪子拨可以打开门。这个动作带来了成功，于是它记住了这个方式。”换句话说，这种行为可能只是“反复尝试后的成功被保留下来”，**而不是‘聪明地理解门怎么工作’”。

这里我们简单介绍一下其提出此类观点的依据和背景：

我们从三个角度来看上述问题：

从哲学的角度来看，Morgan 所处的时代，正值心理学从哲学思辨向经验科学转型。他试图将动物行为研究纳入科学观察与实验逻辑之中

note

如果一种行为可以用简单经验过程解释，就不需要引入“复杂推理”这种不可直接观察、难以验证的假设。

这一逻辑是对当时大量“拟人化”动物心理解释的批判——比如很多人把狗推门解释为“它理解了因果关系”，Morgan反对这种幻想式归因。

其背后的本质逻辑可以归于：“在解释一个现象时，若有多个可能的解释，应该优先选择假设最少、最简单的那个。”

这是一个源自中世纪哲学的简约性原理，以**英国修士 William of Ockham（奥卡姆）**命名，是哲学、逻辑、科学方法中极为重要的一条准则。

“Entia non sunt multiplicanda praeter necessitatem.” —— “不可无必要地引入实体。”

翻译为现代语言就是：不要在没有必要的情况下引入额外的假设。

奥卡姆剃刀并不说“最简单的解释一定正确”，而是强调：

在缺乏直接证据的情况下，越少假设、越接近经验的解释越优先考虑；
它是一种**“假设排序规则”**，不是真理标准，而是方法指南。

Morgan’s Canon 实际上是将奥卡姆剃刀原则应用在动物行为解释中的一个特例：

奥卡姆剃刀	Morgan’s Canon
不要引入不必要的复杂假设	不要假设动物有推理能力，若本能可解释行为
在缺乏证据时选最简单解释	除非有强证据，否则应假设行为来自简单学习机制
偏好经验性、直接可观察的过程	偏好“试错经验”、“反复强化”而非“思维理解”

哲学上看，奥卡姆剃刀原则本质上属于经验主义归纳传统，它强调在解释自然或行为现象时，优先保留最简洁、最贴近经验的内涵结构，而非通过逻辑演绎引入更广泛的假设空间。相比演绎系统中频繁构造的“充分必要命题”与完备解释机制，奥卡姆剃刀更关注的是“当前经验所需的最少解释单位”，这与“试错学习”中反复从经验中提炼有效行为的思想高度一致。

另外，从行为观察的基础以及方法论的价值上，我们也能找到类似的依据：

行为观察基础：

从行为观察的实证基础：逐步接近行为（gradual shaping）

Morgan 自己做了很多动物行为观察实验，其中最典型的是：

🐶 实例：猎犬 Tony 打开门闩

许多观察者可能认为狗是“一下子想通门的结构”；
Morgan 通过细致记录发现：狗最初只是反复尝试不同动作（抓门、推门、咬门）；
每一次动作都离成功更近一点，最后才找到正确方式。

这个过程说明：动物行为的形成是行为结果逐步强化的结果，而非顿悟式的一步到位。

Morgan 因此认为，与其说动物“思考”如何解锁门，不如说它是“通过试错成功的行为被保留下来”。

方法论价值：为比较心理学提供行为解释的最低标准

在心理学刚刚独立为科学的时期，Morgan 面临的问题是：

如何区分“有意识推理行为”与“简单行为积累”？
他提出 Morgan’s Canon，其实是给当时的心理学研究者立下一个科学解释的最低门槛——

“在没有额外证据的情况下，不要赋予动物超出其表现的能力。”

这为后来的**行为主义（Behaviorism）**提供了重要的思想基础。比如：

Morgan 的 Canon	行为主义发展方向
不解释为推理	行为由刺激-反应决定
不假设意识或理解	强调外在可观察行为
强调经验过程中的逐步改进（试错）	强化学习、条件反射、奖赏驱动形成

效果律

在 Morgan 明确提出“trial-and-error”术语，并强调以最简经验机制解释动物行为之后，试错学习的思想终于从哲学与观察层面，进入了实验心理学的实证阶段。其中最具代表性的转折人物，便是美国心理学家 Edward Lee Thorndike。他不仅系统设计并执行了动物学习实验，还通过大量行为数据提出并验证了著名的**“效果律（Law of Effect）”**，将“试错学习”由概念性假说转化为可观察、可量化的学习规律。

Thorndike 的研究是将行为主义学习思想科学化、实验化的关键节点，也是现代强化学习中“奖励信号强化成功行为”机制的最早实证雏形。

下面我们具体看一下Thorndike的工作内容：

🧪 1. 猫的“迷箱实验”（Puzzle Box Experiment）

时间：1898 年，哥伦比亚大学博士研究期间；
实验装置：
- Thorndike 设计了一个封闭的木箱，称为“Puzzle Box”（谜题箱）；
- 箱子外面放食物，猫被放入箱中，需要执行特定动作（如拉绳、推杆）才能打开门获取食物。
实验流程：
- 猫一开始尝试很多无效动作（抓门、乱叫、走动）；
- 偶然间触发正确动作，门打开，获得食物；
- 多次实验后，猫逐渐更快、更准确地执行正确动作，表现出学习行为。

基于上述流程，Thorndike给出如下观察与结论

猫的学习过程并非“灵光一闪”或“理解机制”，而是通过“反复试错 + 成功经验的保留”逐步改善行为；
他绘制了“学习曲线”：展示猫完成任务所需时间随着实验次数逐步下降，说明其行为是经验强化下的结果优化。

基于上述结果，Thorndike正式提出“效果律”（Law of Effect）

note

定义：“Responses that produce a satisfying effect in a particular situation become more likely to occur again in that situation, and responses that produce a discomforting effect become less likely to occur again in that situation.”

在某种情境下，如果某个行为带来了令人满意的结果，那么该行为在相同情境中更可能再次发生；反之，若行为带来了不愉快的结果，该行为再次出现的可能性将会降低。

Thorndike 是试错学习主线中首位将理论假设转化为系统实验验证的心理学家。他通过“迷箱实验”不仅量化了动物学习行为，还提出了效果律（Law of Effect）*这一核心原理，明确指出*行为是由其结果强化而非由认知理解驱动的。他的工作为后续的 Skinner、行为主义心理学乃至强化学习算法提供了坚实的理论与方法基础。

在Thornlike的实验与结论中，有两个要点值得关注：

在Thornlike的实验中：没有严格意义上的“对照组”设计，也没有引入“观察者猫 vs 自主探索猫”的对比。

Thorndike 的实验中，猫是单独放入箱子中独自试探的；
他反复强调“猫并不是顿悟了正确动作，而是逐步摸索出来的”；
他以行为效率随试验次数上升为主要证据，来验证“成功经验被保留”的假设。

Thorndike 观察到猫行为变得更有效，就归因于“满意结果强化了动作”（效果律），这是一个经验归纳 + 行为统计意义上成立的结论，但它存在几个哲学与实验方法上的漏洞：

他默认猫的学习来源是“行为—结果”联结，但没有排除：
- 观察学习（模仿）；
- 刺激–反应习惯化；
- 环境熟悉带来的非策略性改善；
没有设计“控制组”或“替代假设实验”来支持效果律为唯一或最优解释；
没有探索行为选择与奖励之间的“概率分布”是否存在长期稳定性（今天强化学习就特别关注这一点：值函数如何拟合、行为是否收敛等）。（注意：此时概率的公理化系统还没有被系统的提出）

实际上，在后世中，B.F. Skinner 后来基于 Thorndike 的研究进一步完善了实验设计，引入了斯金纳箱，明确分离刺激、行为与反馈之间的机制，并尝试精确控制奖励时间、频率等；Albert Bandura（1961）通过Bobo doll 实验验证了“观察学习”在儿童模仿中扮演重要角色，指出行为塑造不仅仅依赖直接经验，这间接反驳了 Thorndike 的单一解释。

尽管 Thorndike 的“迷箱实验”揭示了行为随成功反馈而改善的趋势，并首次提出“效果律”作为行为学习的经验解释机制，但他的研究设计存在明显的局限性：缺乏对照组、未控制其他变量、未探索模仿学习可能性。这使得“效果律”在解释行为改变时具有以偏概全的风险。后续研究者如 Skinner、Bandura 等，逐步补充了观察学习、刺激控制等机制，构建起更完整的行为学习理论框架，也进一步推动了强化学习对“学习来源多样性”的建模发展。

另外一个值得关注的地方在于，在效果律中，有趣的是，Thorndike 在 1898 年提出“效果律”时所使用的“可能性增加”概念，实际上并没有依赖于后来的公理化概率体系。此时 Kolmogorov 的概率公理还尚未出现（1933 年），Thorndike 的概率观念是一种经验统计意义上的频率直觉。尽管缺乏严格数学表达，但这种“成功行为被重复”的思想，正是强化学习中行为选择概率 $\pi(a|s)$ 、状态转移概率 $P(s'|s,a)$ 等机制的早期思想原型，是行为概率化建模的出发点之一。

从这个角度来说，我们不难猜测，试错学习这条主线，虽然出发点是经验心理学，但它非常自然地引入了行为选择过程中的“不确定性”，也为强化学习范式中“随机性策略”“探索-利用平衡”以及“策略概率建模”打下了思想基础。这种不确定性既体现为行为选择的多样性，也推动了经验驱动下的策略优化过程，为现代强化学习范式中以概率建模为核心的策略优化体系提供了深刻的思想启发。

斯金纳箱实验（“黑箱”来源）

在 Thorndike 提出“效果律”之后，试错学习思想已初步实现了从哲学设想向实验心理学范式的转化。他通过猫逃笼实验，明确展示了奖赏结果对动物行为重复概率的影响，并首次提出以“行为后果”为核心的行为选择机制。尽管其实验尚未达到变量控制与系统建模的标准，但无疑为后续“以行为为中心”的学习理论奠定了方向。

在这一基础上，美国行为主义心理学家 B.F. Skinner 接过了试错学习实验化的接力棒。他不仅继承了“行为受后果塑造”这一基本假设，更进一步提出了系统的**“操作性条件作用（Operant Conditioning）”**理论，主张通过操纵环境中的强化刺激，对动物自主行为进行调控。不同于传统的“刺激-反应”联结模型，Skinner 强调动物行为本身的“操作性”——即个体在环境中的主动行为如何创造后果、进而反过来影响未来行为。

Skinner 的实验设计不仅精确控制了行为的输入输出环境，还区分出多种强化与惩罚类型，提出了持续性强化与间歇性强化的对照机制，使奖赏驱动学习机制首次具备了可重复、可调节的实验逻辑结构。他的研究标志着行为主义在实证路径上进一步精细化，也为强化学习中的策略调控、奖赏设计等问题提供了早期实验原型。

下面我们具体来看一下 Skinner 的实验设计与核心思想：

继 Thorndike 的“效果律”之后，Skinner 试图进一步探究：

“个体在环境中所进行的自主行为，是否也能通过奖赏和惩罚来调节其发生的概率？”

换而言之,在效果律之后，我们试图通过一种“极致化、工程化”的应用，来进一步的强化效果律。为此，他设计了一种封闭、可控的行为实验环境，用以剥离外部干扰、精确追踪刺激-行为-结果的三元关系——这就是著名的斯金纳箱（Skinner Box）。

+----------------------------+
|        Skinner Box        |
|                            |
|   [按杆]       [给食口]     |
|                            |
|      （动物在其中活动）    |
+----------------------------+
🧪 实验过程描述：Skinner 的操作性条件作用实验

在 Skinner 的经典实验中，他选用一只处于饥饿状态的白鼠作为实验对象，并将其放入一个精心设计的密闭实验装置中，后来被称为**斯金纳箱（Skinner Box）**。这个箱子内置有一个小型的金属杠杆，白鼠在箱内自由活动时，偶然可能会用身体触碰到这个杠杆。

在实验初期，白鼠的行为是杂乱无章的，它在箱内四处游走、嗅探、试图逃出。当它**无意间按下杠杆**时，箱子一侧的小槽中便会自动投放出一颗食丸。这个结果是白鼠在此前未曾预料到的。起初，它对这个反应并不敏感，仍然漫无目的地活动。

然而，随着实验的持续进行，每当白鼠触碰杠杆时，就有食物出现。这种**行为与结果之间的因果联系**逐渐被白鼠捕捉到。它开始有意识地靠近杠杆，并尝试再次按压。几轮尝试后，白鼠表现出明显的行为改变——它开始**频繁地、有目的地按压杠杆以获取食物**。

最终，白鼠形成了稳定的“**操作行为 → 奖赏结果**”模式，按压杠杆不再是偶然事件，而成为其主动选择的行为。通过这样的实验，Skinner 清晰展示了：**一个动物的自发行为可以被环境中的结果系统性地强化**。

🧪 扩展实验：强化计划的操控与行为模式的调节在基础实验中，白鼠每次按压杠杆后都能立即获得一颗食丸，属于连续强化（continuous reinforcement）。Skinner发现，虽然这种设置能快速建立起目标行为，但一旦停止奖励，==白鼠的反应也会迅速消退==（即行为“熄灭”）。

在基础的操作性条件作用实验基础上，Skinner进一步提出了一个核心问题：

“行为只是对奖赏的反应吗？如果我们改变奖赏的结构和出现规律，行为模式也会随之变化吗？”

为了验证这一点，他系统设计了四种不同的强化计划（reinforcement schedules），通过操控奖赏的时间间隔与次数规则，观察动物行为的变化趋势。这些实验不仅揭示了奖赏本身的影响，更揭示了奖赏分布方式对行为节奏、频率与抗熄灭能力的深层塑造作用。

note

🧪 Skinner 四种强化计划实验详解

① 固定比率（Fixed Ratio, FR） ✅ 实验设计：设定：动物每按压固定次数的杠杆，才给予一次奖赏（如 FR-5：每 5 次给一次食物）

奖赏与行为之间为动作次数驱动型关系

🧭 行为表现：动物通常快速地进行连续操作，直到获得奖赏

奖赏后往往有一个短暂的“后强化暂停”（post-reinforcement pause），然后继续操作

🧠 心理结论：强化频率越高（FR 数值越小），反应越频繁

行为呈现出**“冲刺+暂停”**的节奏结构

📘 理论意义：动物具备“计数能力”或至少形成对固定响应与回报之间关系的内在模型

类似强化学习中“稀疏奖励 → 稳定策略学习”的机制

② 变动比率（Variable Ratio, VR） ✅ 实验设计：奖赏不按固定次数，而是按概率随机出现，平均响应次数为某个值（如 VR-5 平均每 5 次奖励一次）

例如可能第3次给，第9次不给，第14次再给

🧭 行为表现：动物展现出极高且持续的操作频率

没有明显的暂停，几乎持续不断地尝试

行为极为抗熄灭（即使奖赏停止，动物也会继续操作一段时间）

🧠 心理结论：随机奖励强化比固定奖励更能维持行为

行为动机更强，更接近**“内在化”**习惯反应

📘 理论意义：类似赌博、社交点赞机制的心理效应

在强化学习中对应于**带随机性策略（如 ε-greedy）**的持续探索行为

奠定了后续对 slot machine（赌博机）机制的行为模型

③ 固定间隔（Fixed Interval, FI） ✅ 实验设计：奖赏以固定时间间隔发放，例如每隔30秒内首次操作才有效（FI-30s）

计时开始后，动物任意多次操作都不会触发奖赏，只有时间到了之后的第一次行为才有效

🧭 行为表现：刚进入时间间隔时动物几乎不操作

越临近下一个时间点，操作频率逐渐上升

呈现“抬头状行为曲线（scalloping pattern）”

🧠 心理结论：动物具有对时间的感知能力

强化计划结构影响了动物的行为节奏与动机激活时间

📘 理论意义：奠定了“时间依赖性行为激活模型”的实验基础

在RL中可类比为“延迟奖励”或“周期性任务更新”

④ 变动间隔（Variable Interval, VI） ✅ 实验设计：奖赏出现的时间间隔为随机变化的时间段，例如 VI-30s 表示平均每30秒一次，但具体时间为20s、35s等不定

🧭 行为表现：动物表现出稳定而中等频率的操作行为

没有明显暂停，也没有集中爆发操作

行为表现最为“平滑”和“均衡”

🧠 心理结论：动物不能预测具体奖赏时间，因而形成一种稳健而持续的反应风格

表现出对“不可预测性”的适应能力

📘 理论意义：是 Skinner 认为最贴近现实生态行为的计划：自然环境中的奖赏往往不可预期

在 RL 中可类比**部分可观测马尔可夫决策过程（POMDP）**下的策略调整

经过扩展实现对比，我们可以得到相关结论如下：

强化类型	反应频率	节奏一致性	熄灭抗性	行为稳定性	典型行为形态	🎯 现实场景	💡 理论意义
CRF 持续性强化	极高（每次操作立即反馈）	高一致性（连续操作）	❌ 极低（立即熄灭）	⭐ 初期强，长期差	立即学习 → 快速依赖	学前教学奖励、初学者反馈强化	快速建构行为；RL中 reward shaping；不适合稳定策略训练
FR 固定比率	高	中低（冲刺 + 暂停）	一般	中等	冲刺 – 停顿型	计件工资、健身打卡、连续签到	快速构建目标导向行为；中期维持性适中
VR 变动比率	⭐ 极高	⭐ 极高（持续冲刺）	⭐ 最强	⭐ 最强	持续高动机冲刺型	老虎机赌博、手游抽卡、短视频点赞机制	最强动机维持机制；RL中长期高频策略探索原型
FI 固定间隔	中等	低（scalloping曲线）	弱	较弱	等待 – 爆发型	等公交车、临时冲刺式提交、打饭排队	建模时间依赖性行为节奏；周期性策略调度参考
VI 变动间隔	中等	高（平稳自然）	强	高	稳定操作型	刷朋友圈、等回复、资源采集	抵御奖励不确定性；RL中提升策略鲁棒性与泛化能力

🔍 结论精要

CRF（持续性强化）：
- ✅ 快速建立行为；
- ❌ 极易熄灭，稳定性最差；
- 🔧 常用于训练早期的 reward shaping；
间歇性强化（FR、VR、FI、VI）：
- 💡 控制行为频率、节奏与抗熄灭能力；
- ⭐ VR 表现最强，FI 最弱；
- 📈 长期行为建模的关键结构基础。

下面我就这个实验过程抛出两个问题：

实验部分主要涉及到正反馈强化，为什么不对负反馈的情况进行类似的讨论。特别的，我们是否可以沿用正反馈部分的结论来类似的推断负反馈（此处指的是对于行为的抑制而非负向强化）？
Skinner 的实验设计如何避免了 Thorndike 所面临的“学习结构推断”矛盾？他的结论是否真的成功规避了这一问题，还是只是在方法上绕过，却仍然无法摆脱这个根本问题？

我们先来看第一个问题：

在开始讨论问题之前，我们需要明确一个前提：

我们此处问题中提出的是：对于生物行为的抑制而非构建采用负反馈是否可以得出类似的推断。而非负反馈对于行为的构建。

首先，我们看一下Skinner关于在构建行为中，关于正负反馈的讨论：

在 Skinner 的操作性条件作用研究体系中，其核心关注点始终围绕正向强化（positive reinforcement）*展开，即通过给予愉快刺激来增强目标行为的发生概率。尽管 Skinner在理论上承认负向强化与惩罚机制的存在，但他在经典实验设计中*极少使用“惩罚”作为行为塑造的主要手段，这体现了其一贯的实验哲学立场。

一方面，这是出于对实验控制性的考虑。正向强化具有高度的可控性、可重复性，能够在实验环境中清晰呈现“行为—后果—再行为”的递进结构；而惩罚机制往往伴随较强的情绪反应与行为抑制，易引发逃避、习得性无助等副反应，使得行为模式的因果归因变得复杂且不稳定。

另一方面，Skinner 本人在理论层面上也持有明显立场。他坚信：“惩罚只能暂时抑制行为，却无法真正教会个体应当做什么。”*因此他更主张通过积极强化构建目标行为，而非通过惩罚去消除不良行为。这一点也体现在他的代表作《科学与人类行为》中——其中系统批判了惩罚在教育、管理等领域的滥用，并强调*塑造（shaping）*应建立在*微小的正向反馈积累之上。

因此，Skinner 的实验虽然奠定了操作性学习的结构框架，但其研究重心始终停留在“如何通过设计奖赏结构塑造行为”这一正向机制上，对惩罚及负向强化的系统研究，则被留给了后来的行为心理学家与社会行为调控理论的发展阶段。

下面我们来我们刚才提出的问题，负反馈对于生物行为的抑制问题：

值得注意的是，在 Skinner 的操作性行为理论中，虽然“正向强化”是其实验与理论的核心对象，但其范式内部实际上包含了一个形式上对称的四象限结构：正/负强化与正/负惩罚。在这种定义体系中，正反馈用于构建行为，负反馈则应用于抑制行为，二者在操作性逻辑上是镜像式的对偶机制。

因此，我们完全可以从理论上提出一种推断：**既然正反馈可以有效构建目标行为，那么负反馈也理应可以通过对结果的惩罚机制，来有效抑制非目标行为。**这一推断并不是出于“抗逆心理”或“意志动机”的主观层面，而是在Skinner所提供的实验框架之内，基于行为—结果函数关系的一种一层行为逻辑对称性推演。

然而，Skinner 本人虽承认惩罚机制存在，却并未将其作为实验重心加以系统研究，反而在实践层面更强调正向奖励的重要性。这就使得操作性条件作用的四象限结构在实际研究中出现了验证上的偏斜：强化机制得到了充分实证支持，而抑制机制则较多停留在理论定义层面。

后续研究者从行为实验、认知机制乃至神经通路的角度，均对负反馈进行了系统探讨，并一致指出：**负反馈确实能够在一定条件下抑制行为，但其影响机制与正反馈塑造行为的方式并不对称，且常伴随副作用与不稳定性。**这意味着，我们不能简单沿用正向机制的结构逻辑来理解负反馈在学习过程中的地位，而必须承认其独特的认知加工路径与行为结果特征。

下面我们来看第二个问题：

✅ 一、Thorndike 的“学习结构推断矛盾”是什么？

我们在分析 Thorndike 的效果律时已经指出：

特征	描述
📜 效果律核心	满意后果 → 行为联结增强
⚠️ 方法问题	没有对照组、变量控制薄弱、解释带有推论性
🚨 推断风险	推测“行为在大脑中形成联结”，但没有提供任何结构性证据
🔍 矛盾本质	试图用外部结果说明内部结构，却缺乏对结构的可观察手段
📌 所以说	Thorndike 用“行为变化”推断“学习发生”，但这个推断缺乏验证机制，存在哲学漏洞

✅ 二、Skinner 的回应与实验哲学策略 Skinner 所代表的行为主义第二阶段，做出的反应不是解决这个问题，而是规避它。

Thorndike	Skinner
推断“联结”发生在大脑中	完全拒绝讨论大脑或认知结构
学习 = 内部连接变化	学习 = 行为频率变化
尝试解释“为什么学会”	只描述“在什么条件下行为改变”
操作范式不完整	构建了完整的刺激—操作—反馈系统

Skinner 的逻辑是：

“如果内部结构不可观测、无法控制、不具实验性，那我就不研究它。”

这就构成了所谓的黑箱行为主义（black-box behaviorism），核心命题就是：

“我们只研究可以观察和操纵的变量：行为、奖赏、反馈，而不研究不可验证的认知机制。”

这就构成了所谓的 黑箱行为主义（black-box behaviorism），核心命题就是：

“我们只研究可以观察和操纵的变量：行为、奖赏、反馈，而不研究不可验证的认知机制。”

下面我们回到之前的问题中去：

==斯纳金箱的实验是否成功规避了“学习结构矛盾”？==

✅ 从实验控制上：

Skinner 成功地构建了一个闭合可控的行为实验系统（斯金纳箱）；
只关注行为频率如何在奖赏机制变化下被调节；
完全避免了“学习是否发生”的结构性推断。

✅ 所以：在方法论意义上，他是成功“规避”了 Thorndike 的推断漏洞。

❌ 但从学习本体论上：

Skinner 并没有真正“解决”学习机制的定义问题：

他将“学习”简化为“行为频率的改变”；
但这就导致我们无法判断：
- 行为是否真的“内化”？
- 学习是否具有“结构更新”？
- 个体是否产生“迁移、泛化、归纳”的能力？

Skinner 只是回避了“学习是否发生”的问题，并将其等同于行为趋向变化。

而你提出的核心判断是：

这种方法论上的回避并不能终结对“学习结构”的追问，它只是把这个问题搁置起来了。

从而，Skinner 的体系仍然逃不脱“学习结构到底是什么”这个终极问题的张力。

这里作者给出一个经典的例子展开此处的讨论：

📌 案例拓展：超人心理学与正负反馈的多层逻辑悖论

在 Skinner 所设定的行为控制实验中，正向反馈（如食物、奖励声）被视为增强目标行为频率的手段，而惩罚或负反馈则常被排除在主研究范畴之外，原因在于其效果不可控、延迟性强、可能产生逃避或反抗等副作用。

但这一逻辑建立在一个前提假设之上：

生物体对“愉快刺激”与“厌恶刺激”的感受是稳定且统一的。

然而，这一假设在面对“超人心理学”个体时遭遇挑战。所谓“超人心理学”，指的是一类高度抗逆、以痛苦为成长信号的心理特质个体。对这类个体而言：

原本意义上的“惩罚”可能被重新编码为“挑战”；
“负反馈”反而可能成为“行为激励因子”；
“打击”甚至被视为“激发潜能的反馈”。

这实际上暴露出一个深层悖论：

正负反馈本身是否是“客观固定”的？还是存在主观解释与结构性再编码？

我们可以将这一逻辑困境归纳为下表：

反馈类型	行为主义定义	超人心理学中的可能重构	是否稳定
正向反馈	提供奖励，增强行为	被视为鼓励或默认，甚至刺激不足	❓ 依赖阈值与欲望结构
负向反馈	惩罚或刺激撤除，抑制行为	被视为考验、成长信号或目标指引	❌ 存在心理再编码风险

进一步地，这还暗含两个层次的逻辑：

行为 → 强化的直接逻辑：正反馈增强、负反馈抑制（Skinner 模型的显式层）
意义解释机制 → 行为倾向的结构性逻辑：反馈的心理含义可能被主体重构（认知层/精神结构层）

这意味着：

即使在操作上提供相同的行为后果，主体的“意义解释结构”不同，也会导致行为结果的彻底差异。

而这正是 Skinner 所回避的“认知结构”问题再次以新的形式卷土重来——即，反馈作用并非纯粹行为函数，而是意义—结构—阈值—经验积累—价值目标等共同调节的结果。

这一案例提醒我们：Skinner 尽管在实验设计上规避了对“学习结构”的推断矛盾，但在面对复杂心理主体时，他的范式依然难以囊括反馈意义的主观解释维度。换言之，行为可能被塑造，但意义却不一定被接受。“学习是否发生”，终究仍是一个不可回避的结构性问题。

至此，我们由从：自然观察-哲学实践-心理实验-心理行为主义极限实验。完成了早期以心理学试错为主线的梳理。

下面我们具体来看看另外一条重要的主线，时序差分方法。

主线2：时序差分方法

✳️ 主线定位：

tip

如果说第一条“心理试错主线”侧重于行为结果与奖赏之间的归纳强化关系，那么第二条“时序差分主线”（TD主线）则引入了预测与误差的概念，强调学习是一个在经验基础上逐步逼近真实值的动态过程。

TD 方法是现代强化学习的核心基石，它提供了一个比经典试错更“理性”的认知模型：个体不只是重复成功的行为，而是试图更准确地预测未来的回报。下面我们沿用之前的历史观，继续观察其发展过程：

####贯序决策与贝尔曼方程

关键人物：Richard Ernest Bellman

背景介绍：
- 美国数学家、应用数学家
- 1950 年代在兰德公司（RAND Corporation）从事控制系统和最优化问题研究
- 动态规划（Dynamic Programming）理论的提出者，意在解决“多阶段决策问题”

🧩 Bellman 的核心问题：

在现实世界中，许多决策问题不是一次性的，而是动态的、多阶段的，比如：

投资决策：现在买入与未来卖出的收益如何平衡？
控制系统：当前调节是否有利于长期稳定？
游戏策略：这一步看似吃亏，是否为了未来的胜利？

这些问题的共同特征是：

当前的决策会影响将来的状态与收益。

Bellman 的贡献在于，他敏锐地捕捉到一个关键现象：最优决策问题可以被分解为一系列更小的子问题。换句话说，今天我们在某个状态下所做的选择，既决定了当下的收益，也塑造了未来的局面。如果整体策略是最优的，那么从任意一个中间状态继续往前看，后续的子策略也必须保持最优。

这种思想，就是著名的 最优性原则。

note

定义（Bellman, 1957）： “一个最优策略的特征是：无论初始状态和初始决策是什么，其后续的决策序列必然构成该状态下的一个最优策略。”

它揭示了一个深刻的逻辑：

“最优”并不是一个需要整体一次性推导出的复杂结果；
相反，它可以通过“当前收益 + 未来最优”的方式逐步展开；
于是，一个看似庞大而难以处理的多阶段决策问题，就被转化为一个可以递归求解的结构。

在这一视角下，学习不再是简单的‘重复成功经验’，而是变成了一个数学化的预测与更新过程：

当我们站在某个状态时，眼前的决策价值 = 立刻得到的奖励 + 未来所有潜在回报的最优组合。

从更抽象的层面来看，Bellman 的最优性原则所依赖的，其实是一种一致性逻辑。这一逻辑强调：整体性质的成立，并不是外加的标签，而是通过任意局部保持一致来保证的。换句话说，整体的一致性等价于任意局部的一致性。如果某个局部出现偏差，那么整体必然随之动摇，反之，若整体成立，则任意局部也必须符合。

这种逻辑在数学分析中早已有对应。例如：当一个数列 ${x_n}$ 收敛于极限 $L$ 时，它的任意子列 ${x_{n_k}}$ 也必然收敛于同一个极限 $L$ ；若存在子列收敛到不同的极限，就会与整体收敛的假设相矛盾。与此完全类似，在最优性原则中，如果整体策略 $\pi^*$ 是最优的，那么从任意状态出发的子策略 $\pi^*|_s$ 也必然是最优的；否则，子策略的改进将反过来改进整体，从而推翻“整体最优”的假设。

因此，Bellman 的洞见不仅是一条关于动态规划的技术原则，更是一种跨越学科的普遍逻辑：整体性质的真实性，等价于其在任意局部上的一致性。

有了上述基本思想后，下面我们尝试利用递归的思想将符号文字引入到我们的实际问题中，从更抽象的层面来看，我们之所以能够把复杂的现实决策问题转化为数学对象，依赖的正是一个逐层抽象的过程：

具体事物 → 集合化

现实世界中的情境、动作、反馈等复杂对象，首先被抽象为集合元素。
例如：所有可能的位置构成状态集合 $\mathcal{S}$ ，所有可能的选择构成动作集合 $\mathcal{A}$ 。

集合 → 样本点

当集合中的每个元素被赋予统一的概念含义（如“状态”“动作”），它们便成为样本点。
这一步保证了：不同实例之间是“同类可比”的。

集合与其子结构 → 测度化

在集合及其子结构上，可以进一步定义测度（如概率测度），从而刻画不确定性与频率意义。
例如：在状态–动作对 $(s,a)$ 上定义转移概率分布 $P(\cdot|s,a)$ 。

样本点 → 随机变量 → 数值化

随机变量本质上是从集合到实数域的映射：
$X:\Omega \to \mathbb{R}$
通过这种映射，复杂的对象（状态、动作、奖励）被带入数值域，可以比较、加总和优化。

数值化 → 数量分析

一旦对象进入 $\mathbb{R}$ ，我们就可以利用代数与分析工具进行期望计算、优化与推断。
例如：回报 $G_t = \sum_{k=0}^\infty \gamma^k R_{t+k+1}$ 就是奖励随机变量的折扣加总。

数量分析 → 递归结构

在数值化的基础上，我们进一步利用递归的思想（Bellman 最优性原则），将整体问题拆解为局部问题。
由此得到价值函数的递归定义，即 Bellman 方程。

在开始引入数学表示前，我们需要现将决策的基础框架搭建出来，在此之前，我们先需要简单的补充一下其数学化的历史背景如下：

note

最早的数学形式化来自 Savage（1954） 提出的 贝叶斯决策框架。

贝叶斯决策框架（单阶段）

Savage 将不确定性下的理性决策系统化，提出了“四要素”结构：

状态空间 $\Theta$ ：自然可能处于的状态，带有先验概率 $p(\theta)$ ；
动作空间 $\mathcal{A}$ ：决策者可选择的行为；
损失/效用函数 $L(a,\theta)$ 或 $U(a,\theta)$ ：评价状态–动作对的好坏；
概率分布 $p(\theta)$ ：描述不确定性。

在这一框架下，最优动作满足：

a^* = \arg\max_a \; \mathbb{E}[U(a,\theta)] \quad \text{或} \quad a^* = \arg\min_a \; \mathbb{E}[L(a,\theta)].

这一定义奠定了“理性选择 = 最大化期望效用”的现代统计决策论基础。然而，该框架的特点是静态的、一次性的：一个动作对应一次结果，决策结束。

贯序性的引入（多阶段决策）

现实中的许多决策并非一次完成，而是动态的、多阶段的。

投资决策：今天的操作影响明天的资产基数；
控制问题：当前调节影响未来的稳定性；
博弈策略：一步落子改变后续局势。

这时，一个决策的价值不只取决于即时效用，还取决于它如何影响未来的状态与后续选择。因此，单阶段的贝叶斯决策不足以描述复杂的序列决策。

Bellman（1957） 正是基于这一观察，提出了著名的 最优性原则：

如果一个整体策略是最优的，那么从任意中间状态开始，继续执行它所形成的子策略也必须是最优的。

这一逻辑为多阶段决策问题奠定了递归结构，使得“整体最优 ⇔ 局部最优”的思想得以数学化。

马尔可夫决策过程（MDP）框架

为了在数理上刻画这种序列化的决策问题，研究者进一步引入了 马尔可夫性 假设：

未来的状态只依赖于当前状态和动作，而与过去历史无关。

由此，一个完整的多阶段决策问题被抽象为 马尔可夫决策过程（MDP）：

\mathcal{M} = (\mathcal{S}, \mathcal{A}, P, R, \gamma)

状态空间 $\mathcal{S}$ ：描述环境的情境；
动作空间 $\mathcal{A}$ ：智能体的决策集合；
转移概率 $P(s'|s,a)$ ：给定当前状态和动作，转移到下一状态的条件分布；
奖励函数 $R(s,a)$ ：刻画即时反馈；
折扣因子 $\gamma$ ：平衡当下与未来的价值权重。

在 MDP 框架下，智能体的目标是寻找最优策略 $\pi^*$ ，使长期累积回报最大化：

\pi^* = \arg\max_\pi \; \mathbb{E}_\pi \Big[ \sum_{t=0}^\infty \gamma^t r_{t+1} \Big].

有了上述历史背景，我们便可以更清晰地理解：MDP 并不是凭空假设的框架，而是在多阶段决策问题中，为了保证问题的可解性与递归结构，被逐步引入的形式化模型。

第一步：从多阶段决策问题出发

在现实世界中，许多决策并不是一次性的，而是动态展开、相互影响的序列过程。因此，我们需要在数学上明确地定义出多阶段决策问题的基本对象。

强化学习科研学习记录

第一篇：范式定义与要素基础

1.1范式定义（强化学习是什么？基本的范式是什么？有什么特征？）

1.3本篇小节

拓展要素：A*算法与强化学习

第二篇：历史研究与重要知识补充

主线1：试错学习

“探试与实现”的学习模式

效果律

斯金纳箱实验（“黑箱”来源）

主线2：时序差分方法

本栏其他文章