2024年4月19日,Stefan Feuerriegel 、 Dennis Frauen和Valentyn Melnychuk等人在Nature Medicine期刊上发表了一篇题为“Causal machine learning for predicting treatment outcomes”的研究文章。该文探讨了因果机器学习(Causal ML)在医学领域的应用,特别是如何利用这些先进方法来预测治疗结果,包括药物的有效性和毒性。文章强调,因果机器学习能够为临床决策提供个性化的支持,通过估计个体化的治疗效果来提高治疗的安全性和有效性。此外,文章详细讨论了在临床实践中使用因果机器学习的关键步骤和技术挑战,以及如何通过健全的方法来验证这些估计的可靠性。这些前沿的观点和方法为改善患者治疗提供了新的视角,对于那些寻求最新医疗技术进展的读者而言,无疑具有很高的吸引力。
引言
总的来说,该综述提供了一个全面的概述,关于因果ML如何在医疗领域中创造价值,尤其是在提高治疗方案的个性化和精准性方面的潜力。通过这种创新的方法,研究团队期望能够推动医疗决策过程向更加数据驱动和个性化的方向发展。
关键字:异质性治疗效应、自适应模型更新、高维数据处理
因果机器学习在医学中的应用
在医学领域,因果机器学习(causal ML)为从数据中估算个体化治疗效果提供了多个机会,最终有助于提高护理的个性化程度。首先,在患者层面上,因果机器学习能够处理高维度和非结构化的数据,包括患者的协变量,从而能从包含图像、文本或时间序列以及遗传数据的多模态数据集中估算治疗效果。例如,研究团队可以从计算机断层扫描或完整的电子健康记录中估算治疗效果。其次,在结果层面上,因果机器学习有助于为亚群体制定个性化的治疗效果估算,甚至可以预测单个患者的治疗结果。例如,药物代谢的个体差异可能导致某些患者出现严重的副作用,但对其他人却可能救命,因此因果机器学习方法可以学习这种差异,从而帮助设计个性化的治疗策略。第三,在治疗层面上,因果机器学习在数据驱动的方式中,对患者间治疗效果的异质性进行估算是有效的,以识别哪些患者亚群的治疗是有效的(见图1c)。尽管这些潜在的好处,因果机器学习也提出了一些独特的挑战,这需要定制方法。此外,正确应用这种方法需要理解因果机器学习与传统的统计和机器学习方法的区别。
图1:预测治疗结果的因果机器学习
何时应使用因果机器学习?
估计治疗效果的方法在统计文献中有着悠久的传统。因果机器学习在相同的问题设置上进行构建,但对估算策略进行了更改。因此,使用因果机器学习的主要好处通常不在于可以提出的问题类型,而在于这些问题如何被回答。因此,因果机器学习相对于统计文献中的替代方法可以带来好处。首先,来自经典统计的方法常常假设对患者特征与结果之间的关联有参数形式的知识,例如线性依赖。然而,这种知识常常是不可得或不现实的,特别是对于高维数据集,如电子健康记录,这很容易导致模型设定错误。相比之下,因果机器学习通常允许更灵活的模型,这有助于捕捉复杂的疾病动态以及人类的生理病理和药理学。尽管如此,因果机器学习通常需要更大的样本量,这是一个权衡。
因果机器学习常用术语词汇表
无混杂性:在观察到的协变量给定的情况下,治疗分配与潜在结果独立。例如,当不存在未观察到的混杂因子时,即影响治疗和结果的变量时,就是这种情况。这个假设也被称为可忽略性。
因果机器学习与传统统计的比较
最终,选择依赖传统统计模型还是更现代的机器学习方法呈现出一个取决于基础设置的权衡。例如,对于小样本量,人们通常更倾向于使用简单模型(如线性回归或其他参数模型)。对于大样本量,则可以使用更复杂的非线性模型来捕捉处理效果的异质性。尽管如此,处理非线性关系和处理效果异质性的能力并非因果机器学习所独有,原则上也可以依赖于允许纳入预先指定非线性的传统统计模型。因此,当基础数据生成过程复杂且先验知识有限时,因果机器学习可能具有优势。
因果推断的基本问题
首先,为了获得可估计的因果量(如治疗反应),必须对问题的因果结构做出某些假设。特别是,通常需要假设没有未测量的混杂因子;也就是说,不存在既驱动治疗决策又影响后续患者结果的未观察因素。如果存在未测量的混杂因子,估计的治疗效果可能会受到混杂偏差的影响,因此可能是错误的。此外,为了估计治疗效果,需要考虑治疗、结果和患者特征之间的依赖结构,通过建模潜在的因果关系来实现。这是因为干预治疗变量也可能影响其他患者特征。例如,考虑一个体质指数较高的患者,其医生建议其戒烟,并预测其糖尿病风险。传统机器学习的文献可能会建议使用体质指数和吸烟行为来预测在吸烟与不吸烟的情况下的糖尿病风险;然而,这种方法会忽略戒烟也会改变患者的体质指数。为了解决这个问题,需要在因果框架中嵌入机器学习。
因果机器学习工作流程
使用因果机器学习预测治疗结果的过程可以分解为几个关键步骤(见图2),这些步骤将在下面的章节中讨论。遵循这一工作流程应该能帮助研究人员清晰地定义研究问题,然后指导他们构建问题结构、选择感兴趣的因果量、因果机器学习方法、评估指标以及进行适当的稳健性检验以验证估计的可靠性。
图2:医学中因果机器学习的工作流程
构建问题的因果结构
上述变量的信息可以来自观察性数据或实验数据。在观察性数据中,如临床注册和电子健康记录,治疗分配遵循某种通常未知的程序,这取决于患者特征。例如,病情非常严重的患者可能会得到更激进的治疗形式,这意味着患者特征在不同的治疗组中有所不同。这与随机对照试验(RCTs)形成对比,在RCTs中,治疗是随机分配的,因此,患者特征在不同的治疗组中相似。这一点由倾向评分所捕捉,即在给定患者协变量的情况下接受治疗的概率。在RCTs中,倾向评分是已知的(例如,在两个治疗组大小相等的完全随机化试验中,倾向评分为50%)。相比之下,现实世界数据中的倾向评分是未知的,但可以估计以解释患者群体间的差异。
选择感兴趣的因果量
因果量,如治疗反应,通常基于“潜在结果框架”来形式化。该框架概念化了潜在结果,即如果施加某种治疗,患者可能会观察到的结果。然后,根据实际应用,可以关注不同的因果量。这些包括治疗效果,它量化了在不同治疗下两个潜在结果的预期差异。常见的治疗效果选择可以大致分为两个维度(见图3b):效果异质性的程度和治疗类型。通过选择一个特定的感兴趣的治疗效果,就定义了所谓的估计量,即因果机器学习方法应预测的因果量。
个别患者结果。除上述应用外,一些医学应用还对预测个别患者结果感兴趣。预测患者结果与治疗效果不同,前者提供了在不同治疗下潜在结果的详细预测,而后者仅估计结果的比较变化,而不是结果本身。因此,治疗效果主要说明一种治疗相对于另一种治疗的优势,而潜在结果可以通过帮助临床医生推理在不同治疗选项下预期的结果来支持常规护理中的决策。这可能被视为“干预下的风险”估计量,需要仔细的建模策略。例如,虽然治疗效果可能表明一种药物可以将5年内死亡率降低五个百分点,但预测结果可能告诉我们治疗后的死亡率为15%,未治疗为20%。然而,实际上,ATE 和 CATE 的估计通常比预测潜在结果更容易,因此,在足以进行决策时更受青睐。
评估可识别性假设的合理性
重要的是,无论使用因果机器学习方法还是传统的统计方法,都需要这些假设来从数据中一致地估计治疗效果。自然地,评估假设的合理性通常很困难。稍后,我们将讨论检查假设是否成立的可信性的潜在策略。尽管如此,还存在具有替代设计的问题设置。例如,某些问题设置允许放宽SUTVA假设(例如,允许溢出效应)。还存在在特定设置中假设无混杂性的替代方法,例如通过使用工具变量。最后,还有一些问题设置不是静态的,而是随时间变化的,因此会随时间做出一系列治疗决策。研究人员也在开发有效结合观察性和实验性数据的方法。
选择并拟合因果机器学习方法
现有的因果机器学习方法通常生成点估计。在医学应用中,这可能是一个严重的限制,其中不确定性估计,如标准误差或置信区间对于可靠的决策至关重要。然而,也有一些进展。例如,对于CATE估计,因果森林是一种提供严格不确定性估计的方法。此外,最近还开发了几种其他策略,如贝叶斯方法和共形预测,但仍需要更多研究。
模型不可知的方法用于CATE估计
上述元学习者各有优势和劣势。不幸的是,选择元学习者没有明确的规则,只有高层次的推荐。
评估因果机器学习方法
可以说,评估因果机器学习方法的最佳方式是评估从随机数据预测患者结果的准确性。虽然这不允许评估个别患者的治疗效果,但它仍然有助于模型选择,使得在平均或异质性治疗效果方面表现最佳的模型受到青睐。相比之下,出于模型选择的目的进行基准测试是具有挑战性的,因为反事实结果和治疗效果的真实值是未知的。作为补救措施,通常有两种策略。一个简单的策略是仅基于预测事实结果的表现比较因果机器学习的方法(从而忽略预测反事实结果的表现)。这可能提供一些洞察,即数据中的基础疾病机制是否被捕获。然而,它有一个主要限制,即未评估关键的因果量——治疗效果。另一种方法是使用伪结果。在这里,首先使用一个独立的次级模型估计伪结果,以近似未知的反事实结果,然后使用伪结果来基准测试估计的CATE。然而,这种方法取决于次级模型对伪结果的表现,并倾向于偏爱某些方法。总的来说,这两种策略都只是启发式的,没有“完美”的解决方案。
执行稳健性检查
为了验证治疗效果估计对不同假设的明确违反的稳健性,使用所谓的反驳方法。常见的反驳方法包括添加一个随机变量以检查治疗效果估计是否保持一致(因为这样的变量不应影响估计),或者用随机变量替换实际的治疗变量以检查估计的治疗效果是否归零。此外,可以进行模拟,其中结果通过半合成数据替换,以检查在新的数据生成机制下(对于模拟结果)治疗效果是否正确估计。总之,选择用于验证因果机器学习方法的反驳方法在很大程度上取决于具体问题设置,并应仔细选择和实施。即使反驳方法产生积极结果,这也不能保证假设得到满足。尽管如此,机器学习中的最佳实践稳健性检查仍然是必需的——例如,为了减轻偏见的风险——特别是因为治疗效果估计的结果可能严重依赖于数据和模型选择。
技术建议
为确保在临床实践中谨慎且可靠地使用因果机器学习,研究团队提出了几项技术建议。
检查假设的合理性
验证无混杂性假设对于现实世界数据尤其具有挑战性。避免违反无混杂性假设的最佳方式是咨询领域知识,以确保在现实世界数据中捕捉到所有相关因素。另一种选择是采用工具变量方法;但是,在医学应用中合适的工具往往很少,并且再次,无法测试工具的有效性。如果无法排除未观察到的混杂因素,进行因果敏感性分析可能有助于评估结果对潜在未观察到的混杂因素的鲁棒性。因果敏感性分析可追溯至1959年的一项研究,表明未观察到的混杂因素无法解释吸烟对癌症的因果效应。因果敏感性分析在一些关于混杂程度的限制下计算感兴趣的因果效应的界限,从而意味着治疗效果不能被解释掉。关于混杂程度的限制是基于领域专业知识,通常通过与已知的重要原因进行比较来进行(例如,风险因素如年龄)。最近,提出了一系列提供严格界限的因果机器学习方法。然而,因果敏感性分析仍然要求对重要疾病原因的人体病理生理学和药理学有足够的知识,这在观察性研究中并非总是如此。
报告
估计的治疗效果的可靠性还取决于潜在数据的质量和代表性。此外,通过因果机器学习进行的分析涉及多个假设检验,因此存在假阳性的风险。同样,由于这种分析的回顾性特点,另一个风险是选择性地报告积极结果。为了减轻这些风险,强烈推荐预注册的分析协议。最后,当因果机器学习与现实世界数据一起使用时,应公开承认做出因果结论的限制,并且如果可能的话,应考虑使用随机对照试验进行验证。
临床转化
通过从医疗数据中估算治疗效果,因果机器学习提供了个性化治疗策略并改善患者健康的巨大潜力。然而,还有很长的路要走。未来研究的一个关键焦点必须是弥合机器学习研究与临床实践中患者直接受益之间的差距。
临床用例
最终,特定估计量的选择取决于使用因果机器学习的环境。对于监管机构来说,可能相关的是评估对广大患者的总体净效益,例如,当将新药与标准护理相比较时。这将需要估算 ATE。为确保患者安全,监管机构还可以评估治疗效果在不同亚群中的变化,这将涉及 CATE。同样,CATE 可能有助于识别对治疗特别敏感的亚群(例如,用于假设生成)或将从新开发的药物中受益的亚群,从而有助于加速药物开发。当因果机器学习集成到日常护理中的临床决策支持系统时,临床专业人员可能希望对患者在不同治疗选择下的健康状况变化进行个性化预测。这将需要用于 CATE 估算甚至预测潜在患者结果的方法。
挑战和未来方向
到目前为止,因果机器学习的研究主要通过模拟评估不同方法的性能。然而,模拟涉及(半)合成数据集,这些数据集不能完全捕捉现实世界疾病动态的细微差别。因此,通过谨慎使用创新的因果机器学习方法生成临床见解可以提供重要的第一步。这将有助于理解因果机器学习在医学背景下的优势和局限性,尤其是与已建立的临床试验方法相比。对于缺乏明确指南的设置,这可能是合适的,因果机器学习可以为临床专业人员的决策提供输入。预测治疗结果的因果机器学习需要方法学知识以及疾病动态的领域知识;因此,机器学习专家与临床医生之间的跨学科合作对于开发临床使用工具至关重要。最终,基于因果机器学习的工具可能通过临床决策支持系统集成到日常护理中。这样的系统可以直接预测不同治疗选项下个别患者的结果,从而支持临床专业人员的决策。
结论
因果机器学习提供了关于治疗效果和安全性的新颖结论的可能性,并能个性化治疗策略,从而改善患者健康。然而,在实际操作中,会出现几个挑战,尤其是确保这些方法的可靠性和稳健性。在临床使用中成功的因果机器学习例子仍然缺乏,因此,作为重要的第一步,应优先考虑涉及在临床实践中谨慎使用的概念验证研究。
链接
引文:Feuerriegel, S., Frauen, D., Melnychuk, V. et al. Causal machine learning for predicting treatment outcomes. Nat Med 30, 958–968 (2024).
如果有帮助记得关注+收藏~
原文链接:https://doi.org/10.1038/s41591-024-02902-1
启发
这篇文章基于因果机器学习(Causal ML)在医疗领域的应用启发了几个具体的研究方向,展示了深化技术应用的潜力。首先,研究可以着眼于发展能够处理多种治疗相互作用的复合因果模型,这对于评估联合药物治疗的综合效果至关重要。其次,深入探索模型在捕捉治疗效果异质性方面的能力,特别是根据个体的基因和生活方式等因素,有助于发现特定人群对特定治疗的响应模式。此外,因果推断模型在急诊和重症监护等急性医疗情况下的实时应用也非常有价值,可以支持快速决策。同时,增强模型的解释性和透明度是提高临床医生对模型输出信任度的关键,因此开发可以帮助医疗专业人员理解模型决策过程的工具和算法尤为重要。此外,自动化工具和框架的开发,用于执行模型的反驳性检验和健全性分析,可以帮助快速评估模型预测的可靠性,尤其在模型调整或应用于新的患者群体时。最后,随着临床实践和疾病模式的变化,开发能够自适应更新的动态因果模型将极大提升治疗预测的准确性,使模型能够自动调整其结构和参数以反映复杂的临床环境。这些研究方向不仅推动了因果机器学习技术在医疗决策中的应用,也为未来医疗创新提供了坚实的基础。
本文荟萃自公众号: Geminikey、Medi AdvanceBC,只做学术交流学习使用,不做为临床指导,本文观点不代表数字监护立场。