For love is wiser than philosophy.
子群分析与异质性治疗效应理论路线综述
[TOC]
A 问题起源
子群分析与异质性治疗效应估计(heterogeneous treatment effects, HTE)的根本问题,是在同一项干预或治疗下,判断“治疗效应是否随人群特征而系统性变化”,并在统计上把这种变化从随机误差与多重比较诱发的伪差异中区分出来。临床试验里“在多个子群中评估治疗效应”非常常见,这一实践需求本身就不断把研究者推向对子群差异的可检验、可报告、可重复验证的统计表述1。
在最早的临床统计语境中,这个问题通常被表述为“交互作用是否存在”的问题:正确的方法是对治疗与亚组特征之间的交互作用进行形式化检验,而不是对每个亚组分别做“看起来显著/不显著”的比较2;并且为了维持因果解释的有效性,亚组应当由随机化时刻或之前就已确定的基线特征来定义2。与此同时,经典方法学也不断提醒:探索性子群分析容易产生假阳性与假阴性结论,原因既包括估计本身的不可靠性,也包括探索性环境下不可避免的多重检验3;因此应在“适当的子群”上用正式的交互检验,并在试验论文中仔细报告分析如何实施以及应如何解读4。
更深一层的理论根基来自因果推断与反事实框架:在实验或观测研究中,研究者希望对以协变量为条件的治疗效应对象进行推断,并在机器学习介入后发展出“对异质性效应做统计推断”的一般路径,例如把对 CATE 的估计与推断问题置于 Neyman(1923)的重复抽样框架中来讨论5,或以“两阶段伪结局回归”形式来估计 (在第二阶段把伪结局对协变量回归来估计 )6。在更偏“子群”视角的形式化表达中,也常把子群定义为一个把 维协变量 划分为 个不重叠子群的固定映射 ,并以 表示第 个子群内的平均治疗效应(GATE)7。
根本问题
如果用一句话概括,这一领域要解决的是:在可解释、可计算且可推断的约束下,从有限样本中识别“效应差异结构”,并尽可能避免在多重子群探索中得到虚假的显著性信号38。这一目标之所以困难,部分来自临床试验的统计效能限制:很多试验在子群内可靠测量治疗效应的把握度不足9,而治疗与协变量交互项的估计更是常被不足的统计效能所困扰10。
起源场景
问题的“自然发生地”首先是随机临床试验的亚组解释与报告:临床试验往往在计划内或计划外地评估多个子群的治疗效应1,并强调需要事先指定子群分析1。但即使遵循交互检验的规范,试验也往往更难提供关于“交互是否存在”的可靠信息,即治疗效应是否在子群间不同9。
问题的另一条起源脉络来自因果推断与机器学习的结合:研究者希望在实验数据上通过通用机器学习算法估计异质性治疗效应并开展统计推断5,但把 ML 工具用于异质性因果效应估计面临核心困难——预测上表现良好并不自动带来“对很大一类数据生成过程都有效的、统一有效的推断”11。
早期理论表述
在随机实验与因果推断语境中,一条清晰的早期表述是把研究放入 Neyman(1923)的重复抽样框架,并讨论在“先用 ML 估计 CATE、再按估计效应大小分组”的常见分析流程下如何进行推断5。在更临床统计的方法学规范层面,早期表述则聚焦于:应使用正式的交互检验、在适当子群上分析,并谨慎报告解释,以减少探索性子群分析的误导风险24。
早期数学表达
在现代“自动子群发现/聚类/融合”思想普及之前,子群差异常通过经典线性模型或广义线性模型中的交互项来表达,并在最简单的 交互设计中把“子群层面的效应”理解为总体发生率、处理主效应、第二因子(子群成员)主效应、处理与第二因子的交互以及随机误差共同作用的结果8。这一分解也解释了为什么子群效应往往是“复合的”(composite),而不是某个单一参数即可完全解释的对象8。
B Ma 与 Huang 之前的方法论演化
在 Ma 与 Huang 的凹成对融合(concave pairwise fusion)出现之前,领域已经形成了若干彼此竞争但又相互启发的方法传统,它们共同围绕两类矛盾展开:一方面,研究者“自然地”想建立治疗效应在子群间变化的程度12;另一方面,可检验性与可重复性却持续受到多重比较、低效能与探索性分析的挑战39。这些矛盾推动了从“预定义子群 + 交互检验”的规范路径,向“数据驱动的划分与学习”的范式扩展,并最终催生了“在参数空间中直接学习分组结构”的融合型方法41314。
经典子群规范
经典临床试验子群分析强调两条底线:子群必须由随机化时刻或之前决定的特征定义2,并且应使用正式的交互检验来评估效应差异2。与此同时,经典文献反复指出探索性子群分析中假阳性与假阴性结论很可能发生,原因包括估计不可靠和多重检验3,因此需要在论文中清晰报告分析如何进行、结果应如何解释4。这一传统解决的是“如何不被子群分析误导”的规范性问题,但它也暴露出一个结构性局限:试验往往缺乏对子群内效应与交互项进行可靠测量的统计效能910,使得“严格但无力”的困境长期存在9。
交互回归传统
在交互回归传统里,子群异质性被编码为治疗因素与亚组因素之间的交互项,并且在显著交互出现时,开展后续的子群分析是一种常见实践8。然而,该传统的核心难点也同样被系统总结:进行多个子群分析会提高获得“伪显著结果”的概率8,而子群层面的效应又是复合的,包含多种成分的混合8。当潜在子群数量很大而试验样本量有限时,往往只有把所有患者合并才能得到有用结论12,这直接暴露出“交互项可写、但高维子群结构不可穷举”的鸿沟12。
树方法传统
面对交互回归在高维与复杂交互结构下的局限,早期方法提出用“分类树”作为替代路径来克服这些困难13。树方法的核心是把协变量空间递归划分为若干叶节点(子群),并在叶节点上估计处理效应;在因果推断语境中,这一路线进一步发展为“由因果树组成的因果森林”,其在叶节点估计处理效应并以此构成森林15。从更抽象的角度,树与森林也可以被理解为具有自适应邻域度量的最近邻方法15。
但树方法的理论与推断也暴露出自身瓶颈:在证明中可以只考虑单个测试点从而总能构造在该点“正则”的树,但在实际需要对许多点进行预测时,可能不得不为不同测试点分配不同树结构15;并且一般而言不可能构造在所有 上同时正则的因果树15。这种“多点一致性与统一推断难题”推动研究者寻找更能共享信息、并能在连续协变量上更平滑表达异质性的建模方式1516。
因果推断传统
因果推断传统把异质性效应问题转化为“在实验或观测数据中估计因果效应的异质性并进行推断”,并尝试把异质性推断从纯预测问题中分离出来511。在观测研究中,这类方法常依赖无混杂(可忽略性)假设,例如形式化为 的条件独立17。在与 ML 结合的现代发展中,研究者一方面发展对异质性效应“关键特征”的有效推断策略,而不是要求对 CATE 本身做一致估计与统一有效推断11;另一方面也直面样本分割带来的统计功效损失等代价11。
C Ma 与 Huang 作为转折点
Ma 与 Huang 的凹成对融合方法之所以构成转折点,在于它把“子群结构”从协变量空间的划分(树)或预定义分层(经典分析)转移到参数空间的“自动聚并”:它明确提出在缺乏先验分类或自然分割依据时,使用凹成对融合惩罚自动检测与识别同质子群14。这一转向把子群识别表述为一个联合估计问题:既要估计回归参数,也要通过惩罚结构诱导个体或组别参数的聚类14。
目标空白
在其提出的问题表述中,关键空白是“无先验分组信息时如何自动识别同质子群”,并且要求方法能在没有先验分类或自然分割样本依据的情况下工作14。这与经典路径强调预先指定子群分析形成对照,并对应于探索性子群分析易误解、难给出确定结论的长期担忧31。
成对融合的范式意义
成对融合的核心思想是对个体(或组别)的参数差异施加“成对”惩罚,使大量差异被压缩为零,从而把连续的个体差异映射为少数共享参数的子群结构1416。在这一框架下,“子群数量”不再需要事先指定,而可以由融合惩罚在估计过程中自动决定,从而生成更简洁、可靠且可解释的估计16。
凹惩罚的重要性
方法选择凹惩罚(如 SCAD 与 MCP)是为了获得更接近“无偏”估计性质,并将其用于优化问题中的融合惩罚构造14。这一选择也把问题推入非凸优化:凹惩罚会导致目标函数非凸,从而最优点可能只是局部极小值14。
计算与优化
为实现该估计,Ma 与 Huang 系列工作发展了基于 ADMM 的算法来求解带凹惩罚的融合问题,并讨论其收敛行为14。在具体的收敛刻画上,ADMM 的原始残差与对偶残差在 MCP 与 SCAD 下都满足趋于零的结论,从而为“算法上可实施”提供了关键支撑14。与此同时,由于非凸性,算法收敛到的“最优点”仍可能是局部最小14,这也使得初始化、调参路径与全局最优性成为后续研究的重要议题14。
理论贡献
理论层面,这一路线把“可恢复性”具体化为信号分离条件:例如推导组间最小信号差(minimum difference of signals)需要满足的阶要求,以保证能恢复真实分组14。更重要的是,它把估计器性质与“oracle 世界”桥接起来:在一定正则条件下,假设已知真实分组信息的 oracle 估计量可以以高概率成为目标函数的局部极小点,从而形成 oracle 性质的论证骨架1418。这一“oracle 桥接 + 分离条件”的理论范式,后来被大量扩展工作复用,用于不同模型、不同数据结构与不同鲁棒性目标1819。
D Ma 与 Huang 之后的发展
Ma 与 Huang 之后的发展可以被理解为对同一核心范式的系统外推:在更复杂的数据结构与目标函数中继续用融合惩罚显式编码“分组结构”,并围绕算法可行性与理论可证明性做再工程化。典型的扩展路径包括:向删失与生存数据推广、向稳健回归推广、把缺失机制纳入估计、在高维协变量下与额外稀疏化惩罚耦合,以及与因果推断中的排序、分层与效率理论结合202122192324。
删失与生存
在删失数据情形中,有工作提出对半参数线性回归的删失数据进行子群结构识别与治疗效应估计,明确采用“凹融合”来刻画异质性,并将 Buckley–James 迭代过程与 ADMM 结合形成求解算法20。这一分支的概念延续是把“子群结构”继续视为参数的聚并结构,但技术挑战转为:目标函数与估计方程需要适配删失机制,同时仍保持可计算性20。
稳健与分位数
稳健化方向的一条代表路线是在中位数回归下进行子群识别,直接提出“基于中位数回归的凹融合惩罚”来获得鲁棒的分组估计21。为提升可计算性与理论可分析性,有工作采用局部线性近似(local linear approximation)构造便利算法,并建立惩罚估计量的 oracle 性质与模型选择一致性(例如配合改进 BIC)21。这条脉络在概念上把“鲁棒损失”与“分组结构惩罚”并置,从而把异常值、重尾与异质性结构同时纳入一个优化目标中2125。
缺失与加权
当数据存在缺失时,融合型子群方法也开始把缺失机制显式并入估计过程:例如把逆概率加权(IPW)引入成对融合惩罚回归框架,以应对缺失带来的复杂性并增强稳健性与灵活性22。相应地,算法上发展出 IPW-ADMM,用于在缺失数据框架下自动识别子群22,并在理论上量化识别所需的最小信号差以及缺失对收敛速率的影响22。
高维与联合惩罚
在高维协变量下,一个关键趋势是把“分组结构学习”与“变量选择/稀疏化”做统一:例如提出统一惩罚框架,把凹成对融合惩罚与额外的 hard-thresholding 惩罚结合,以同时估计异质性效应与高维协变量系数19。在理论上,这类工作会直接讨论基于先验真分组结构的 oracle 最小二乘估计量在多种预测与估计损失下的 oracle inequalities,并进一步给出异质性效应与高维系数的联合估计误差界19。
一般融合与结构化模型
除“凹成对融合”外,更广义的融合惩罚也被用于结构化异质性建模。例如在高维且可能含离群点的数据中,有工作把 concave 与成对融合惩罚一起置于 M-估计框架中,并强调惩罚同时作用在协变量与治疗效应参数上,以实现变量选择与数据聚类的同步25。在因子增强线性模型等设定下,也出现用 DC-ADMM 求解并证明其在有限步内收敛到局部极小点的路线,同时讨论在组中心最小距离条件下 oracle 估计量的渐近性质26。在高维图模型异质性分析中,融合惩罚甚至被用来“自动决定子群数量”,并产生更简洁、可靠、可解释的估计,同时建立一致性性质与有效算法16。
因果推断中的融合化
在因果推断语境中,“融合”以不同方式进入:一类工作直接提出基于 fused lasso 的异质性治疗效应估计,并在由某种 score 定义的排序上获得分段常数的治疗效应23;并给出在一般协变量与处理条件下对“条件于 score 的治疗效应”的一致估计结论23。另一类工作更偏个体层面,提出带固定个体效应的异质回归模型,并用 ridge-fused 惩罚来估计个体参数,同时推导个体因果效应估计量的渐近分布以支持个体层推断27。
竞争方法的分化
在后 Ma 与 Huang 时期,竞争性方法并没有消失,而是与融合型方法形成“并行演化”。在树方法中,有工作提出 fused optimal causal tree,通过混合整数优化(MIO)实现更精确的子群识别,并给出样本外风险界并与经典树方法比较,以提供理论保证28。在“先估计 CATE、再做可解释子群”的两步范式中,也出现先用 Bayesian causal forest(BCF)估计 CATE,再用 CART 用可解释协变量预测估计的 CATE 来识别与 HTE 相关子群,并以 PDR 框架度量可解释性的路线29。
与之并行的还有更广义的机器学习与推断结合:例如某些方法把子群分析分解为“识别子群与个体隶属”以及“对子群治疗效应做统计推断”两项任务,并分别用 ADMM 与 EM 来协同完成30;也有方法把问题表述为带个体特异系数的回归,并用自适应融合把系数聚类为子人群,同时设计加速近端梯度算法保证收敛31。在生存与有效治疗子群检验方向,存在基于 Cox 治愈混合模型与 K-index 的路径,用 K-index 统计量检验治疗组中有效治疗子群的存在,并证明其在正则条件下一致且渐近正态32。在分位数异质性推断方向,有工作提出高维协变量下异质分位数治疗效应推断,并通过 惩罚回归校正与基于秩分数的分位数偏差校正构造估计器,同时研究其弱收敛与半参数效率性质33。在试验与观测研究融合的数据场景中,也有工作证明将试验与观测研究耦合后,HTE 与混杂函数是可识别的,并推导半参数有效 score 与整合估计量24。
E 全局综合
把上述历史与现代分支拼接成一张“理论地图”,可以把领域视为围绕同一核心张力的多范式竞争:临床统计规范强调交互检验与预先指定以维持可靠性21,树与森林提供数据驱动的划分与近邻式逼近1315,因果推断强调可识别性假设与有效推断目标1711,而融合惩罚把子群结构显式写入参数空间并以优化与 oracle 理论为支撑14。
下面的表格用“子群如何定义、主要优势、主要风险/难点、代表性技术关键词”对几条主线做并列,以帮助建立可操作的路线图。
| 范式 | 子群如何形成 | 主要优势 | 主要风险与难点 |
|---|---|---|---|
| 规范子群与交互检验 | 子群由随机化前特征定义,使用正式交互检验2 | 强调报告与解释规范,减少探索性误导43 | 子群内效应与交互估计常缺乏统计效能,难以可靠测量910 |
| 交互回归 | 用交互项表达子群差异,常在显著交互后做子群分析8 | 数学表达直接,可嵌入经典 GLM/ANOVA 结构8 | 多子群比较提高伪显著概率,且子群效应是复合对象需谨慎解释8 |
| 树与森林 | 递归划分协变量空间,在叶节点估计效应;森林可视为自适应近邻15 | 自动发现复杂交互结构的子群划分13 | 很难在所有测试点同时构造“正则”的因果树,从而影响统一推断与泛化15 |
| 因果推断与 ML 推断 | 在无混杂等可识别性假设下估计异质因果效应;常转向对 CATE 特征做推断1711 | 把异质性置于可识别与推断框架,强调推断有效性115 | ML 预测强但统一有效推断难,样本分割可能带来功效损失11 |
| 融合惩罚与参数聚类 | 通过成对融合惩罚自动聚并参数以识别同质子群1416 | 可“自动决定子群数量”并提升可解释性,理论上可用 oracle 桥接与信号分离刻画可恢复性1614 | 非凸凹惩罚带来局部极小与优化复杂性,需要算法收敛刻画与实现细节支撑14 |
从谱系角度看,Ma 与 Huang 的位置更像“参数空间子群学习”的制度化节点:它把子群识别从探索性后处理,变成优化问题中的结构约束,从而使“计算—理论—应用”三者能够围绕同一个目标函数组织起来14。
F 元层次洞察
从统一数学结构看,许多方法都可被视为“对效应函数的结构化约束”:要么通过固定映射 把协变量空间划分为不重叠子群并在子群内定义 7,要么通过树/森林把空间划分为叶节点并在叶上估计效应,从而形成一种自适应近邻式估计15,要么通过融合惩罚让参数向少数共同取值聚并并据此形成子群1614。在这些视角下,“子群发现”本质上都是在某个空间(协变量空间或参数空间)上实现一种可控的划分与共享机制716。
从核心权衡看,至少存在三组长期矛盾。第一组是“探索能力 vs 误发现风险”:多子群分析会提高伪显著结果概率8,探索性子群分析也更可能产生假阳性与假阴性3,因此经典规范强调预先指定与交互检验12。第二组是“灵活性 vs 推断有效性”:用 ML 工具估计异质因果效应时,统一有效推断难以保证11,并且 ML 方法常为预测而非因果效应估计而优化,从而带来额外挑战34。第三组是“计算可行性 vs 统计精度”:凹惩罚带来非凸目标,算法可能收敛到局部最小14,但 ADMM 等算法的残差收敛刻画又为实际可行性提供了关键支撑14。
从开放问题看,数据结构复杂化正在把难题推向新的层面:在树方法中,难以构造对所有 同时正则的因果树提示了“跨点统一理论”的缺口15;在融合与非凸优化中,局部极小与全局最优之间的差距意味着算法与理论往往需要围绕“局部 oracle 性质”来组织,而非简单追求全局最优1418;在 ML 与因果推断结合中,研究者已明确指出统一有效推断的困难,并转向对 CATE 特征的有效推断,但这也留下了如何在不牺牲推断强度的情况下提升有限样本效率的问题(例如样本分割的功效损失)11。综上,未来的高价值选题往往出现在这些断裂带:把结构化子群学习(如融合)与有效推断目标(如半参数效率)更紧密地耦合,并在复杂数据机制(缺失、删失、多源)下保持可证明的可靠性222024。
Footnotes
-
Donner, 1993. Issues of Interpretation Arising from Analyses of Multiple Subgroups in Clinical Trials. ↩ ↩2 ↩3 ↩4 ↩5 ↩6
-
Klebanoff, 2007. Subgroup analysis in obstetrics clinical trials. American Journal of Obstetrics and Gynecology. ↩ ↩2 ↩3 ↩4 ↩5 ↩6 ↩7 ↩8
-
Fleming, 1995. Interpretation of Subgroup Analyses in Clinical Trials. ↩ ↩2 ↩3 ↩4 ↩5 ↩6 ↩7
-
Guillemin, 2007. Primer: the fallacy of subgroup analysis. Nature Clinical Practice Rheumatology. ↩ ↩2 ↩3 ↩4 ↩5
-
Imai & Li, 2022. Statistical Inference for Heterogeneous Treatment Effects Discovered by Generic Machine Learning in Randomized Experiments. Journal of Business & Economic Statistics. ↩ ↩2 ↩3 ↩4 ↩5
-
Shin & Antonelli, 2021. Improved inference for doubly robust estimators of heterogeneous treatment effects. Biometrics. ↩
-
Park & Kang, 2019. A groupwise approach for inferring heterogeneous treatment effects in causal inference. Journal of the Royal Statistical Society: Series A (Statistics in Society). ↩ ↩2 ↩3
-
Sevdalis & Jacklin, 2008. Interaction effects and subgroup analyses in clinical trials: more than meets the eye?. Journal of Evaluation In Clinical Practice. ↩ ↩2 ↩3 ↩4 ↩5 ↩6 ↩7 ↩8 ↩9 ↩10
-
Wittes, 2009. On looking at subgroups. Circulation. ↩ ↩2 ↩3 ↩4 ↩5 ↩6
-
Buyse, 1989. Analysis of clinical trial outcomes: some comments on subgroup analyses. Controlled Clinical Trials. ↩ ↩2 ↩3
-
Chernozhukov et al., 2020. NBER WORKING PAPER SERIES GENERIC MACHINE LEARNING INFERENCE ON HETEROGENEOUS TREATMENT EFFECTS IN RANDOMIZED EXPERIMENTS, WITH AN APPLICATION TO IMMUNIZATION IN INDIA. ↩ ↩2 ↩3 ↩4 ↩5 ↩6 ↩7 ↩8 ↩9 ↩10
-
Senn, 2008. Subgroups, significance, and circumspection: investigating interactions in clinical trials. ↩ ↩2 ↩3
-
Schneider, 1989. Analysis of clinical trial outcomes: alternative approaches to subgroup analysis. Controlled Clinical Trials. ↩ ↩2 ↩3 ↩4
-
Ma & Huang, 2015. A Concave Pairwise Fusion Approach to Subgroup Analysis. ↩ ↩2 ↩3 ↩4 ↩5 ↩6 ↩7 ↩8 ↩9 ↩10 ↩11 ↩12 ↩13 ↩14 ↩15 ↩16 ↩17 ↩18 ↩19 ↩20 ↩21 ↩22
-
Wager & Athey, 2015. Estimation and Inference of Heterogeneous Treatment Effects using Random Forests. Journal of the American Statistical Association. ↩ ↩2 ↩3 ↩4 ↩5 ↩6 ↩7 ↩8 ↩9 ↩10
-
Ren et al., 2021. Gaussian graphical model‐based heterogeneity analysis via penalized fusion. Biometrics. ↩ ↩2 ↩3 ↩4 ↩5 ↩6 ↩7 ↩8
-
Dorie et al., 2022. Stan and BART for Causal Inference: Estimating Heterogeneous Treatment Effects Using the Power of Stan and the Flexibility of Machine Learning. Entropy. ↩ ↩2 ↩3
-
Ma et al., 2016. Estimating subgroup-specific treatment effects via concave fusion. ↩ ↩2 ↩3
-
Wu & Zheng, 2025. Hard-thresholding regularization method for high-dimensional heterogeneous models. Journal of Statistical Computation and Simulation. ↩ ↩2 ↩3 ↩4
-
Yan et al., 2021. Subgroup Analysis in Censored Linear Regression. ↩ ↩2 ↩3 ↩4
-
Zhang et al., 2019. ROBUST SUBGROUP IDENTIFICATION. Statistica sinica. ↩ ↩2 ↩3 ↩4
-
Wu et al., 2025. Identifying Latent Group Structures With Missing Data. Stat. ↩ ↩2 ↩3 ↩4 ↩5
-
Padilla et al., 2021. A causal fused lasso for interpretable heterogeneous treatment effects estimation. ↩ ↩2 ↩3
-
Yang et al., 2020. Data fusion methods for the heterogeneity of treatment effect and confounding function. Bernoulli. ↩ ↩2 ↩3
-
Cheng & Feng, 2020. Parallel subgroup analysis of high-dimensional data via M-regression. ↩ ↩2
-
He et al., 2024. Subgroup Identification with Latent Factor Structure. ↩
-
Pu et al., 2024. Individual causal effect via ridge fusion. Other Conferences. ↩
-
Xie et al., 2026. Efficient Subgroup Analysis via Optimal Trees with Global Parameter Fusion. ↩
-
Komura et al., 2025. Two-step pragmatic subgroup discovery for heterogeneous treatment effects analyses: perspectives toward enhanced interpretability. European Journal of Epidemiology. ↩
-
Zhou et al., 2022. Subgroup-effects models for the analysis of personal treatment effects. Annals of Applied Statistics. ↩
-
Chen et al., 2020. Identifying Heterogeneous Effect Using Latent Supervised Clustering With Adaptive Fusion. Journal of Computational And Graphical Statistics. ↩
-
An et al., 2023. Subgroup Identification in Survival Outcome Data Based on Concordance Probability Measurement. Mathematics. ↩
-
Giessing & Wang, 2021. Debiased Inference on Heterogeneous Quantile Treatment Effects with Regression Rank-Scores. ↩
-
Lipkovich et al., 2023. Overview of modern approaches for identifying and evaluating heterogeneous treatment effects from clinical data. Clinical Trials. ↩