For love is wiser than philosophy.

异质性治疗效应与子群识别的理论发展谱系

[TOC]

根问题

异质性治疗效应（HTE）与子群识别的根本问题，是判断“治疗效应是否、以及如何随协变量/人群特征而变化”，并在此基础上形成可解释的子群结论。¹在随机临床试验语境中，这一问题往往体现为“在多个（计划内或计划外）子群中评估治疗效应”。²

这一根问题之所以困难，首先来自多重比较带来的伪显著风险：同时做多次子群分析会增加得到“虚假的显著结果（spuriously significant results）”的概率。³其次，探索性子群分析容易出现假阳性与假阴性结论，原因既包括估计不稳定的变异性，也包括探索性场景中固有的多重检验。⁴再次，子群层面的效应往往是“复合的（composite）”，并不等同于一个可直接作因果解释的单一量。³最后，许多试验的样本量与统计功效不足以在子群内可靠地估计治疗效应或治疗×协变量交互。⁵⁶

早期分支

早期方法论分化的共同出发点，是在“多子群、低功效、易误读”的现实约束下，让子群结论尽可能依赖明确的统计检验与严谨的定义。⁴⁵⁶下面用树状结构刻画几条相对独立、但后来不断汇流的传统。¹

分支 1A 经典子群分析

经典子群分析的核心是把子群视为预先定义的分层变量，然后用“交互（interaction）的正式检验”来判断治疗效应是否在子群间不同。⁷⁸在随机试验中，它强调只有在随机化时刻或之前已确定的特征所定义的子群才是有效的（valid）。⁷

✅ 解决了什么问题：提供了在“合适子群（proper subgroups）”上进行交互检验、并在试验论文中清晰报告分析细节与解释方式的规范路径。⁸
❌ 遗留了什么局限：许多试验缺乏足够功效在子群内可靠估计治疗效应，导致子群层面的推断容易不稳定。⁵
➡️ 为什么催生了下一个方法：当潜在子群数量很大而样本量有限时，单纯穷举/逐个检验难以得到“有用结论”，推动研究走向更结构化、能共享信息的子群发现模型。¹

分支 1B 交互回归传统

交互回归把异质性明确写进回归模型：在临床试验中，研究者常在发现显著交互后再进行子群分析。³在最简单的 $2\times2$ 设计中，子群层面效应由总体发生率、处理主效应、第二因素主效应、二者交互以及随机误差共同构成，从而使“子群效应”本质上是复合量。³

✅ 解决了什么问题：把“治疗×协变量（或治疗×亚组）交互”转写为模型内可估计的参数，从而在同一回归框架下解释子群差异。³
❌ 遗留了什么局限：多次子群分析会显著增加伪显著风险，且子群效应的复合性要求谨慎解释。³
➡️ 为什么催生了下一个方法：当分析未被预先指定的方法所引导时，研究者会面临大量子群效应分析的陷阱与不可靠性，这促使后续方法用“建模与正则化”来压缩搜索空间。¹

分支 1C 树方法传统

树方法将子群发现视为“在协变量空间递归划分”，并在叶节点上形成（近似）同质的响应或效应。⁹在较早的表述中，分类树被提出作为克服既有困难的一种替代方案。⁹在更现代的因果树/森林框架中，森林可被视为由在叶节点估计处理效应的因果树组成。¹⁰

✅ 解决了什么问题：无需预先指定交互形式即可从数据驱动地构造子群划分，并在叶节点给出效应估计。⁹¹⁰
❌ 遗留了什么局限：在因果树理论中，并不总能构造对所有测试点 $x$ 同时“正则（regular）”的树；实践中为了对多个测试点预测，可能需要对不同测试点使用不同树结构。¹⁰
➡️ 为什么催生了下一个方法：当目标从“离散划分”转向“在连续空间上稳定共享信息并保证推断性质”时，研究者会探索把子群结构嵌入参数估计问题、通过融合（fusion）等约束实现更稳定的结构学习。¹⁰⁹

分支 1D 因果推断框架

因果推断传统把HTE的估计与推断置于重复抽样（repeated sampling）的设计型框架之下，并关注在使用通用机器学习算法估计HTE时如何做统计推断。¹¹该传统强调一个核心困难：机器学习在预测上常表现良好，但要获得对“异质因果效应”具有均匀有效性（uniformly valid）的推断更为困难。¹²

✅ 解决了什么问题：在“先用ML估计CATE、再按估计效应大小分组”的常见流程中，用Neyman式框架来构造对分组后效应特征的推断。¹¹
❌ 遗留了什么局限：不少工作转而只对CATE的“特征（features）”做有效推断，而不是对CATE本身做一致估计与均匀有效推断。¹²
➡️ 为什么催生了下一个方法：样本分割等技术虽利于推断，但会带来潜在功效损失，这推动研究寻找“更结构化的效应表示与正则化”以提升有限样本效率与可解释的子群发现能力。¹²

过渡节点

在“子群数量巨大、逐一检验不可靠”的压力下，过渡期方法开始把“子群结构”显式编码为优化问题中的结构约束，从而把“发现子群”变为“估计参数并让其自动聚类”。¹在提供的材料中，能直接体现这种转向的过渡节点主要包括基于融合思想的因果fused lasso、以及以个体特异系数为对象的监督聚类/自适应融合。¹³¹⁴

过渡节点 2A 因果 fused lasso

因果 fused lasso 的关键机制，是在某个由分数（score）定义的排序上，使用 fused lasso 得到“分段常数（piecewise constant）”的治疗效应，从而把连续变化的异质性压缩为有限段的可解释结构。¹³

✅ 解决了什么问题：把HTE估计结果组织为沿排序变量的分段常数结构，提供更简洁、可解释的异质效应刻画。¹³
❌ 遗留了什么局限：该思路依赖“排序”来定义相邻结构，因此其子群结构强烈绑定于所选score与排序定义。¹³
➡️ 为什么催生了下一个方法：当希望在“无自然排序、无先验分组”的情况下识别同质子群时，会进一步发展“成对（pairwise）融合”以在参数空间中直接聚类个体/组别。¹⁵¹³

过渡节点 2B 以个体模型聚类为目标的融合与追逐

一类过渡思想是为每个个体拟合模型，并用能收缩参数向量差异的惩罚，让个体模型聚成少数共享模型，从而揭示未知亚人群。¹⁶

✅ 解决了什么问题：通过对个体参数差异施加收缩，使个体模型聚类为少数共同模型，从而显式“揭示未知亚人群”。¹⁶
❌ 遗留了什么局限：该类方法仍需要在高维参数空间里处理聚类与估计的耦合，计算与理论往往依赖特定惩罚/算法设计。¹⁶
➡️ 为什么催生了下一个方法：为了同时获得“更少偏差的估计”和“更明确的分组可恢复性条件”，后续会引入凹惩罚（concave penalty）与更系统的分组成对融合框架。¹⁵

过渡节点 2C 潜在监督聚类与自适应融合

潜在监督聚类把问题表述为带“subject-specific coefficients”的回归，并用自适应融合将系数聚成子人群。¹⁴该路线强调用高效的近端梯度类算法进行参数估计，并给出收敛速率保证。¹⁴

✅ 解决了什么问题：在回归形式下用自适应融合将个体系数聚类为子人群，从而把子群识别嵌入可优化的估计问题。¹⁴
❌ 遗留了什么局限：该机制仍需要在“聚类结构”和“参数估计”之间权衡，且其性能依赖于所选融合策略与优化实现。¹⁴
➡️ 为什么催生了下一个方法：当研究目标进一步转向“无先验分类下自动识别同质子群，并给出oracle型理论保证”时，凹成对融合成为自然的枢纽方案。¹⁵¹⁷

枢纽节点

Ma 与 Huang 的凹成对融合（concave pairwise fusion）将“子群识别”转写为“让个体/组别参数在优化中自动合并”的问题，并明确强调不需要先验分类或自然分割依据。¹⁵该节点同时引入SCAD/MCP等凹惩罚的“无偏性（unbiasedness）”性质，并以ADMM实现计算。¹⁵

节点 3 Ma 与 Huang 凹成对融合

✅ 解决了什么问题：提出基于凹成对融合惩罚的方法，在无先验分类信息时自动检测与识别同质子群，并可用ADMM实现。¹⁵
❌ 遗留了什么局限：当使用凹惩罚时，算法虽可收敛到一个最优点，但该点可能只是目标函数的局部极小值。¹⁵
➡️ 为什么催生了下一个方法：为保证“正确恢复真实分组”并刻画何时可恢复，需要提出对组间最小信号差（minimum difference of signals）等可识别条件，并在更复杂数据结构（删失、纵向、多源、高维）中扩展这一框架。¹⁵¹⁸

该枢纽节点还把理论目标与“oracle估计”连接起来：在适当条件下，存在一个局部极小点等于“已知真实分组信息”的oracle最小二乘估计量。¹⁷其ADMM实现也给出了原始/对偶残差收敛到0的性质说明。¹⁵

后续分叉

Ma–Huang 枢纽之后，研究分叉的共同模式是：保持“融合惩罚驱动的自动分组”核心，但把模型从最基础的回归/HTE设定扩展到删失、稳健回归、高维、缺失数据与多源整合等结构。¹⁸¹⁹²⁰²¹下述分支以“每个节点都说明为何由上游局限催生”为组织原则。¹⁵

分支 4A 模型与数据结构扩展

删失数据下，研究者提出用凹融合识别子群结构并估计治疗效应，并把Buckley–James迭代过程与ADMM结合。¹⁸在稳健性方向，有工作基于中位数回归并使用凹融合惩罚，同时给出基于局部线性近似的算法与oracle性质。¹⁹在纵向/轨迹层面，有研究指出每个子群疾病轨迹估计量可由渐近分布支撑推断。²²

✅ 解决了什么问题：把融合式子群识别从基础回归推广到删失与稳健回归，并给出相应算法与（在部分工作中）oracle性质或渐近分布支持。¹⁸¹⁹²²
❌ 遗留了什么局限：这些扩展仍需在各自模型下处理“分组可恢复性所需的最小信号差”与计算可行性之间的张力。¹⁵¹⁸
➡️ 为什么催生了下一个方法：当目标进一步走向高维或多任务设定时，需要把“融合”与额外正则（如hard-thresholding）统一，才能在识别子群的同时控制高维噪声。²⁰

分支 4B 高维联合正则化

在高维协变量下，有研究提出统一惩罚框架，将凹成对融合与额外的hard-thresholding惩罚结合，以同时估计异质效应与高维系数，并给出基于已知分组结构的oracle最小二乘估计的oracle inequalities及联合误差界。²⁰

✅ 解决了什么问题：把“子群结构学习（融合）”与“高维稀疏（阈值化）”联立，实现异质效应与高维协变量系数的并行估计，并提供可分析的oracle基准。²⁰
❌ 遗留了什么局限：高维设定下方法依赖对oracle估计与真实分组结构的桥接分析，因此对可恢复条件（如信号差异）仍较敏感。²⁰¹⁵
➡️ 为什么催生了下一个方法：在更一般的异质回归与含离群点的数据中，需要同时对协变量与治疗效应施加惩罚，以实现“变量选择+数据聚类”的联合目标。²³

分支 4C 缺失数据与多源整合

当存在缺失数据时，有工作将逆概率加权（IPW）并入成对融合惩罚回归框架，以增强稳健性与灵活性，并发展IPW-ADMM算法自动识别缺失数据框架下的子群，同时刻画识别所需的最小信号差与缺失对收敛率的影响。²¹在多源数据整合场景，有研究使用working-independence伪对数似然，并把各来源参数纳入成对融合惩罚实现同时估计与子群识别，并给出ADMM实现及弱oracle性质。²⁴

✅ 解决了什么问题：在缺失与多源场景下，把“分组结构学习”与“加权/伪似然”结合，使子群识别能在更复杂数据收集机制下运行并获得理论刻画。²¹²⁴
❌ 遗留了什么局限：即便可给出最小信号差与收敛率影响，缺失机制与多源异质性仍会加剧有限样本不确定性。²¹
➡️ 为什么催生了下一个方法：为在更广泛统计结构中“自动决定子群数并提升可解释性”，融合惩罚开始被移植到图模型与结构化协方差/精度矩阵估计等问题上。²⁵

分支 4D 其他惩罚融合的结构化异质性

在更结构化的统计对象上，融合惩罚也被用于异质性分析，例如基于高斯图模型的惩罚融合方法，将惩罚施加到均值与精度矩阵参数上以得到正则化且可解释的估计，并强调融合惩罚可“自动决定”子群数量并带来更简洁可靠的估计，同时建立一致性性质并配套有效计算算法。²⁵

✅ 解决了什么问题：把“自动分组/自动子群数选择”的思想推广到图模型等结构化参数估计，从而拓展了融合范式的适用面。²⁵
❌ 遗留了什么局限：该类方法仍需依赖一致性与算法有效性来支撑可用性，其结论与实现紧密绑定于具体结构化模型设定。²⁵
➡️ 为什么催生了下一个方法：当研究回到因果HTE与可解释子群时，融合惩罚与更直接的因果估计框架（如CATE或其可推断特征）之间的整合继续成为推动力。¹¹¹²

平行竞争分支

与融合范式平行发展的路线，往往更强调“非参数灵活性”或“设计与验证机制”，并在可解释性与推断正则性方面与融合范式形成互补张力。¹⁰在提供材料中，最直接的平行分支包括树与森林、变点方法、以及贝叶斯HTE评估。²⁶²⁷²⁸

竞争分支 4E 树与森林

因果森林可被理解为由在叶节点估计处理效应的因果树构成，并在直观上与自适应邻域的最近邻思想相连。¹⁰同时，因果树在“对所有测试点同时正则”的构造上存在一般性困难，这意味着实践推断可能需要针对不同测试点采用不同树。¹⁰在更近期的发展中，fused optimal causal tree 使用混合整数优化（MIO）以实现更精确的子群识别，并宣称能提升子群发现准确性与统计效率，同时给出样本外风险界并与经典树方法比较。²⁶

✅ 解决了什么问题：通过树/森林提供非参数子群划分，并通过MIO等全局优化思路追求更精确的子群识别与风险界刻画。¹⁰²⁶
❌ 遗留了什么局限：树模型在理论上难以保证对所有 $x$ 同时正则，这会影响统一的推断与泛化表述。¹⁰
➡️ 为什么催生了下一个方法：为获得更强的可解释性，有研究采用“两步法”——先用贝叶斯因果森林估计CATE，再用CART在可解释协变量上学习规则来解释异质性子群。²⁹

竞争分支 4F 变点与阈值

变点方法在生存结局的子群识别中体现为：先在AFT模型下刻画生存数据中的治疗效应，再用似然型变点算法确定阈值截点并据此分类患者子群。²⁷在更进一步的方案中，还可以采用两阶段自适应设计来验证某些子群中的治疗效应，并报告该设计在存在子群效应时提升检验功效且能控制I类错误。³⁰²⁷

✅ 解决了什么问题：把“子群差异”简化为连续特征上的阈值划分，并在生存结局下提供可操作的子群分类流程与验证设计。²⁷³⁰
❌ 遗留了什么局限：阈值型划分依赖单/少数协变量上的截点选择，因此其表达能力与“多维异质结构”之间存在天然张力。²⁷
➡️ 为什么催生了下一个方法：当子群结构并非单阈值可刻画时，研究会回到更一般的结构学习（如树的多维划分或参数空间的融合聚类）来表达复杂异质性。⁹¹⁵

竞争分支 4G 贝叶斯 HTE 评估

在提供材料中，贝叶斯路线的可引用信息集中于“评估贝叶斯HTE并与频率学派子群分析对照”，并强调在跨数据源评估可靠性时进行标准化异质性验证检查的重要性。²⁸

✅ 解决了什么问题：以贝叶斯HTE评估与频率学派子群分析作对照，强调通过验证检查提升跨数据源可靠性评估。²⁸
❌ 遗留了什么局限：在本次提供材料中，尚缺少关于该贝叶斯路线具体建模细节与算法实现的可引用信息。²⁸
➡️ 为什么催生了下一个方法：当研究目标转向更系统的子群发现与参数结构学习时，仍需要与融合/树/因果推断等可操作算法框架形成互补。²⁸¹⁵¹⁰

前沿问题

现有材料共同指向的前沿问题之一，是在多子群探索下控制伪发现：多次子群分析会提高伪显著概率，而探索性子群分析也更易产生假阳性与假阴性结论。³⁴第二个前沿问题是有限样本信息不足：许多试验缺乏足够功效在子群内可靠估计效应或交互，从而限制了任何后续算法输出的可验证性。⁵⁶

第三个前沿问题是“推断正则性与可解释结构”之间的张力：因果树难以对所有 $x$ 同时正则，影响统一推断表述；而在因果推断与ML结合时，获得对CATE本身的均匀有效推断非常困难，促使不少工作转而对CATE特征做推断。¹⁰¹²第四个前沿问题是优化与可恢复性的耦合：在凹惩罚下，算法可能停在局部极小值，因此需要依赖“最小信号差”等可恢复条件来保证能恢复真实分组结构。¹⁵最后，推断工具本身也可能牺牲效率，例如样本分割可能带来功效损失，从而继续推动“结构化正则化+可推断目标”的方法设计。¹²

附录树状图

下图把“异质性治疗效应（HTE）与子群识别”从根问题出发，按照“早期传统 -> 过渡方法 -> Ma & Huang 凹成对融合枢纽 -> 下游扩展与竞争路线 -> 开放问题”的逻辑重构为一棵可直接复制使用的 ASCII 发展树，其中每个节点都尽量用“✅解决 / ❌局限 / ➡️催生”的因果链条来标注方法学演化动力。多重比较带来的伪阳性风险与交互项检验的功效不足，是该领域从“事后子群检验”转向“结构化建模与正则化”的关键推动力之一⁴³⁵⁶。

╔══════════════════════════════════════════════════════════════════════════════╗
║  根问题：HTE 与子群识别                                                     ║
║  治疗效应是否随人群特征变化？如何在有限样本下稳定识别“有效/有害”子群？      ║
╚══════════════════════════════════════════════════════════════════════════════╝
                                     │
                 ┌───────────────────┼───────────────────────┐
                 │                   │                       │
                 ▼                   ▼                       ▼
   ┌────────────────────────┐  ┌────────────────────────┐  ┌────────────────────────┐
   │ 经典子群分析             │  │ 交互回归传统             │  │ 树方法传统               │
   │ ✅ 交互项检验更规范       │  │ ✅ 交互项=异质性表达      │  │ ✅ 数据驱动划分子群       │
   │    (interaction test)   │  │ ❌ 多重比较→伪显著        │  │    classification tree   │
   │ ❌ 子群需随机化前定义     │  │    + 子群效应“复合”       │  │ ❌ 多点预测时难保证正则性  │
   │    (valid subgroup)     │  │ ➡️ 需更结构化约束/正则化   │  │ ➡️ 需更稳定+参数共享的建模 │
   └────────────────────────┘  └────────────────────────┘  └────────────────────────┘
   [^7]     [^3]   [^9][^10]
                 │                   │                       │
                 │                   │                       │
                 ▼                   ▼                       ▼
   ┌────────────────────────┐  ┌────────────────────────┐  ┌────────────────────────┐
   │ 因果推断传统             │  │ 混合/聚类视角            │  │ 变点阈值路线             │
   │ ✅ Neyman框架+按CATE分组  │  │ ✅ “模型聚类→子人群”      │  │ ✅ 连续指标上找阈值分组    │
   │ ❌ 强依赖无混杂等假设     │  │ ❌ 需可计算的分组正则化    │  │ ❌ 往往依赖特定模型(AFT)   │
   │ ➡️ 需兼顾推断有效性与发现 │  │ ➡️ 推动融合/截断类惩罚     │  │ ➡️ 与正则化/自适应设计耦合 │
   └────────────────────────┘  └────────────────────────┘  └────────────────────────┘
   [^11][^12][^31]  [^16]     [^27]

         ┌─────────────────────────────── 过渡期节点（2000-2015+） ────────────────────────────────┐
         │                                                                                         │
         │  过渡2A：以“融合惩罚”把“分组结构”写进优化目标                                             │
         │    - 例：score-ordered fused lasso 得到分段常数的 treatment effect（因果 fused lasso）    │
         │      [^13]                                                        │
         │    - 例：grouping pursuit + group-truncated L1 收缩参数差异→模型聚类→未知子人群            │
         │      [^16]                                                        │
         │  ➡️ 从“先分组后估计/事后解释”转向“估计=分组=正则化的一体化”                               │
         └─────────────────────────────────────────────────────────────────────────────────────────┘
                                     │
                                     │  L1类融合仍可能偏差/需更强结构恢复条件 → 引出凹惩罚融合
                                     ▼
╔══════════════════════════════════════════════════════════════════════════════╗
║  ★ Ma & Huang 及相关工作：凹成对融合 Concave Pairwise Fusion                 ║
║  ✅ 无先验分类：用凹“成对融合惩罚”自动识别同质子群                            ║
║  ✅ 凹惩罚(如SCAD/MCP)强调无偏性；ADMM可实现                                 ║
║  ✅ 理论：最小信号差条件 + oracle 型局部极小点                                 ║
║  ❌ 非凸目标：ADMM收敛到“最优点”但可能是局部极小；计算与稳定性仍是挑战          ║
╚══════════════════════════════════════════════════════════════════════════════╝
[^15][^17]
                                     │
                   ┌─────────────────┼──────────────────┐
                   │                 │                  │
                   ▼                 ▼                  ▼
   ┌────────────────────────┐  ┌──────────────────────────────┐  ┌──────────────────────────────┐
   │ 下游4A 直接扩展          │  │ 下游4B 其他融合惩罚谱系        │  │ 下游4C 与缺失/稳健结合         │
   │ ✅ 删失数据半参线性+融合  │  │ ✅ M估计+凹惩罚+成对融合        │  │ ✅ IPW 融入成对融合回归         │
   │    (Buckley-James+ADMM) │  │    (可含离群/高维)             │  │    IPW-ADMM 自动识别子群        │
   │ ✅ 中位数回归+凹融合稳健  │  │ ✅ DC-ADMM 处理差分凸结构       │  │ ❌ 仍需信号差/收敛率等条件刻画   │
   │ ❌ 仍面临非凸与模型设定    │  │ ❌ 依旧可能局部极小             │  │ ➡️ 推动更系统的推断与选择理论    │
   └────────────────────────┘  └──────────────────────────────┘  └──────────────────────────────┘
   [^18][^19]  [^23][^32]          [^21]

                   ▼
   ┌──────────────────────────────────────────────────────────────────────────┐
   │ 下游4D 高维一体化方向                                                    │
   │ ✅ 凹成对融合 + hard-thresholding：同时估计异质效应与高维协变量系数        │
   │ ✅ 理论：oracle inequalities + joint estimation error bound                │
   │ └─ 以“oracle桥接”把结构恢复与高维误差界连接                               │
   └──────────────────────────────────────────────────────────────────────────┘
   [^20]

     ┆┆ 竞争路线（与融合并行发展，侧重非参数/可解释性/推断） ┆┆
     ┆
     ├───────────────────────────────┐
     │                               │
     ▼                               ▼
┌──────────────────────────────┐   ┌──────────────────────────────┐
│ 竞争4E 因果森林与树集成        │   │ 竞争4F 两步可解释子群          │
│ ✅ 叶节点估计处理效应→causal   │   │ ✅ BCF估CATE + CART提规则       │
│    forest                      │   │    (post-hoc可解释子群)         │
│ ❌ 多点同时正则性难以保证       │   │ ❌ 依赖先估计CATE再划分          │
│ ➡️ 与“离散子群+参数共享”互补    │   │ ➡️ 与融合法在可解释性上互补       │
└──────────────────────────────┘   └──────────────────────────────┘
[^10]          [^29]

     ┆
     ├──────────────────────────────┐
     │                              │
     ▼                              ▼
┌──────────────────────────────┐   ┌──────────────────────────────┐
│ 竞争4G 变点阈值子群            │   │ 竞争4H 贝叶斯HTE评估            │
│ ✅ AFT + change-point分阈值     │   │ ✅ 用Bayesian HTE评估对照频率学  │
│ ✅ 两阶段自适应设计用于验证     │   │    subgroup analysis            │
│ ❌ 结构相对受限于阈值形式       │   │ ❌ 具体算法/理论在此材料中有限   │
└──────────────────────────────┘   └──────────────────────────────┘
[^27][^30]  [^28]

                                     │
                                     ▼
╔══════════════════════════════════════════════════════════════════════════════╗
║  开放问题与前沿                                                             ║
║  • 子群数目与结构选择的可证理论（何时/如何自动确定G）                        ║
║  • Post-selection inference 与多点有效推断（避免“伪异质性”）                  ║
║  • 计算与非凸稳定性（局部极小、收敛与可复现）                                 ║
║  • 多源数据整合与缺失机制下的稳健子群发现                                     ║
╚══════════════════════════════════════════════════════════════════════════════╝
[^15][^4][^10][^24][^21]

Legend

图中实线表示“同一研究范式内的演化”，虚线（┆）表示“竞争性路线”与融合范式并行发展；每个方法框内的三段式分别对应其解决的问题、遗留局限，以及为什么会催生下一类方法。之所以需要这样的路线图，是因为在真实数据中“效应异质性”本身被认为是一个非常困难的统计问题，而不同方法在同一数据集上可能给出差异很大的结论，这迫使研究者同时考虑建模假设、推断目标与可解释性之间的权衡³¹³²。

Senn, 2008. Subgroups, significance, and circumspection: investigating interactions in clinical trials. ↩ ↩² ↩³ ↩⁴ ↩⁵
Donner, 1993. Issues of Interpretation Arising from Analyses of Multiple Subgroups in Clinical Trials. ↩
Sevdalis & Jacklin, 2008. Interaction effects and subgroup analyses in clinical trials: more than meets the eye?. Journal of Evaluation In Clinical Practice. ↩ ↩² ↩³ ↩⁴ ↩⁵ ↩⁶ ↩⁷ ↩⁸
Fleming, 1995. Interpretation of Subgroup Analyses in Clinical Trials. ↩ ↩² ↩³ ↩⁴
Wittes, 2009. On looking at subgroups. Circulation. ↩ ↩² ↩³ ↩⁴ ↩⁵
Buyse, 1989. Analysis of clinical trial outcomes: some comments on subgroup analyses. Controlled Clinical Trials. ↩ ↩² ↩³ ↩⁴
Klebanoff, 2007. Subgroup analysis in obstetrics clinical trials. American Journal of Obstetrics and Gynecology. ↩ ↩²
Guillemin, 2007. Primer: the fallacy of subgroup analysis. Nature Clinical Practice Rheumatology. ↩ ↩²
Schneider, 1989. Analysis of clinical trial outcomes: alternative approaches to subgroup analysis. Controlled Clinical Trials. ↩ ↩² ↩³ ↩⁴ ↩⁵
Wager & Athey, 2015. Estimation and Inference of Heterogeneous Treatment Effects using Random Forests. Journal of the American Statistical Association. ↩ ↩² ↩³ ↩⁴ ↩⁵ ↩⁶ ↩⁷ ↩⁸ ↩⁹ ↩¹⁰ ↩¹¹
Imai & Li, 2022. Statistical Inference for Heterogeneous Treatment Effects Discovered by Generic Machine Learning in Randomized Experiments. Journal of Business & Economic Statistics. ↩ ↩² ↩³
Chernozhukov et al., 2020. NBER WORKING PAPER SERIES GENERIC MACHINE LEARNING INFERENCE ON HETEROGENEOUS TREATMENT EFFECTS IN RANDOMIZED EXPERIMENTS, WITH AN APPLICATION TO IMMUNIZATION IN INDIA. ↩ ↩² ↩³ ↩⁴ ↩⁵ ↩⁶
Padilla et al., 2021. A causal fused lasso for interpretable heterogeneous treatment effects estimation. ↩ ↩² ↩³ ↩⁴ ↩⁵
Chen et al., 2020. Identifying Heterogeneous Effect Using Latent Supervised Clustering With Adaptive Fusion. Journal of Computational And Graphical Statistics. ↩ ↩² ↩³ ↩⁴ ↩⁵
Ma & Huang, 2015. A Concave Pairwise Fusion Approach to Subgroup Analysis. ↩ ↩² ↩³ ↩⁴ ↩⁵ ↩⁶ ↩⁷ ↩⁸ ↩⁹ ↩¹⁰ ↩¹¹ ↩¹² ↩¹³ ↩¹⁴ ↩¹⁵
Austin et al., 2020. A New Semiparametric Approach to Finite Mixture of Regressions using Penalized Regression via Fusion. Statistica sinica. ↩ ↩² ↩³
Ma et al., 2016. Estimating subgroup-specific treatment effects via concave fusion. ↩ ↩²
Yan et al., 2021. Subgroup Analysis in Censored Linear Regression. ↩ ↩² ↩³ ↩⁴ ↩⁵
Zhang et al., 2019. ROBUST SUBGROUP IDENTIFICATION. Statistica sinica. ↩ ↩² ↩³
Wu & Zheng, 2025. Hard-thresholding regularization method for high-dimensional heterogeneous models. Journal of Statistical Computation and Simulation. ↩ ↩² ↩³ ↩⁴ ↩⁵
Wu et al., 2025. Identifying Latent Group Structures With Missing Data. Stat. ↩ ↩² ↩³ ↩⁴
Liu et al., 2021. A fusion learning method to subgroup analysis of Alzheimer’s disease. Journal of Applied Statistics. ↩ ↩²
Cheng & Feng, 2020. Parallel subgroup analysis of high-dimensional data via M-regression. ↩
Shao et al., 2024. Integrated subgroup identification from multi-source data. Computational Statistics & Data Analysis. ↩ ↩²
Ren et al., 2021. Gaussian graphical model‐based heterogeneity analysis via penalized fusion. Biometrics. ↩ ↩² ↩³ ↩⁴
Xie et al., 2026. Efficient Subgroup Analysis via Optimal Trees with Global Parameter Fusion. ↩ ↩² ↩³
Kang et al., 2019. [Subgroup identification based on an accelerated failure time model combined with adaptive elastic net]. Nan fang yi ke da xue xue bao = Journal of Southern Medical University. ↩ ↩² ↩³ ↩⁴ ↩⁵
Rusli et al., 2020. PCV88 THE APPLICATION OF BAYESIAN HETEROGENEITY TREATMENT EFFECT ANALYSIS FOR ASSESSING VARIATION AND RELIABILITY OF CONGESTIVE HEART FAILURE OUTCOMES IN A LINKED EMR-CLAIMS DATASET. ↩ ↩² ↩³ ↩⁴ ↩⁵
Komura et al., 2025. Two-step pragmatic subgroup discovery for heterogeneous treatment effects analyses: perspectives toward enhanced interpretability. European Journal of Epidemiology. ↩
Kang et al., 2021. [Subgroup identification based on accelerated failure time model combined with adaptive elastic net]. Nan fang yi ke da xue xue bao = Journal of Southern Medical University. ↩ ↩²
Goldstein & Rigdon, 2019. Using Machine Learning to Identify Heterogeneous Effects in Randomized Clinical Trials-Moving Beyond the Forest Plot and Into the Forest. JAMA Network Open. ↩
Lipkovich et al., 2023. Overview of modern approaches for identifying and evaluating heterogeneous treatment effects from clinical data. Clinical Trials. ↩