Nat. Med. | 临床治疗中的因果机器学习

2024年4月19日,Stefan Feuerriegel 、 Dennis Frauen和Valentyn Melnychuk等人在Nature Medicine期刊上发表了一篇题为“Causal machine learning for predicting treatment outcomes”的研究文章。该文探讨了因果机器学习(Causal ML)在医学领域的应用,特别是如何利用这些先进方法来预测治疗结果,包括药物的有效性和毒性。文章强调,因果机器学习能够为临床决策提供个性化的支持,通过估计个体化的治疗效果来提高治疗的安全性和有效性。此外,文章详细讨论了在临床实践中使用因果机器学习的关键步骤和技术挑战,以及如何通过健全的方法来验证这些估计的可靠性。这些前沿的观点和方法为改善患者治疗提供了新的视角,对于那些寻求最新医疗技术进展的读者而言,无疑具有很高的吸引力。

Nat. Med. | 临床治疗中的因果机器学习

引言

 

   

在医学领域,预测和个性化治疗结果的准确性对于优化患者护理至关重要。传统的统计和机器学习方法虽然在预测患者结果方面取得了一定进展,但它们往往无法处理由于治疗引起的结果变化。这篇综述文章深入探讨了因果机器学习(Causal ML)在医疗领域的应用,尤其是其在预测治疗结果方面的潜力和挑战。

 

研究团队指出,因果机器学习提供了一种新的视角和工具,可以更精准地估计治疗效果,并针对个体患者制定治疗计划。这种方法不仅可以用于临床试验数据,还可以整合现实世界的数据资源,如临床注册和电子健康记录。然而,要有效地应用因果ML,需要对其方法学基础和实施过程有深入的了解和适当的评估。

 

此外,研究团队强调,尽管因果ML在处理复杂和高维度数据集(包括图像、文本和时间序列数据)方面具有明显优势,但在临床应用中,这些方法必须经过严格的验证和调整,以确保其预测结果的准确性和可靠性。文章详细讨论了这些方法的关键组成部分,以及如何系统地评估和优化这些模型以满足医疗实践的需求。

 

总的来说,该综述提供了一个全面的概述,关于因果ML如何在医疗领域中创造价值,尤其是在提高治疗方案的个性化和精准性方面的潜力。通过这种创新的方法,研究团队期望能够推动医疗决策过程向更加数据驱动和个性化的方向发展。

关键字:异质性治疗效应、自适应模型更新、高维数据处理

因果机器学习在医学中的应用

 

   

在医学领域,因果机器学习(causal ML)为从数据中估算个体化治疗效果提供了多个机会,最终有助于提高护理的个性化程度首先,在患者层面上,因果机器学习能够处理高维度和非结构化的数据,包括患者的协变量,从而能从包含图像、文本或时间序列以及遗传数据的多模态数据集中估算治疗效果。例如,研究团队可以从计算机断层扫描或完整的电子健康记录中估算治疗效果。其次,在结果层面上,因果机器学习有助于为亚群体制定个性化的治疗效果估算,甚至可以预测单个患者的治疗结果。例如,药物代谢的个体差异可能导致某些患者出现严重的副作用,但对其他人却可能救命,因此因果机器学习方法可以学习这种差异,从而帮助设计个性化的治疗策略。第三,在治疗层面上,因果机器学习在数据驱动的方式中,对患者间治疗效果的异质性进行估算是有效的,以识别哪些患者亚群的治疗是有效的(见图1c)。尽管这些潜在的好处,因果机器学习也提出了一些独特的挑战,这需要定制方法。此外,正确应用这种方法需要理解因果机器学习与传统的统计和机器学习方法的区别。

 

Nat. Med. | 临床治疗中的因果机器学习

图1:预测治疗结果的因果机器学习

何时应使用因果机器学习?

 

   

因果机器学习用于估计处理效果与传统的预测性机器学习不同。直观地讲,传统的机器学习旨在预测结果,而因果机器学习则量化处理导致的结果变化,以便估算处理效果(见图1a)。传统机器学习的典型用例是风险评分,比如预测糖尿病发病概率,以了解哪些患者风险较高——但不指明最佳治疗方案。

 

相比之下,因果机器学习旨在回答“如果”问题。例如,因果机器学习可以估计如果患者接受抗糖尿病药物,糖尿病发病风险将如何变化,从而可以做出是否使用此类药物的决策。因果机器学习还可用于预测不同治疗方案对患者潜在结果的影响。例如,在肿瘤学中,因果机器学习可以对不同治疗计划下的生存预测进行个体化预测,这可以帮助医疗从业者选择承诺生存机会最大或生存时间最长的治疗计划。

 

估计治疗效果的方法在统计文献中有着悠久的传统。因果机器学习在相同的问题设置上进行构建,但对估算策略进行了更改。因此,使用因果机器学习的主要好处通常不在于可以提出的问题类型,而在于这些问题如何被回答。因此,因果机器学习相对于统计文献中的替代方法可以带来好处。首先,来自经典统计的方法常常假设对患者特征与结果之间的关联有参数形式的知识,例如线性依赖。然而,这种知识常常是不可得或不现实的,特别是对于高维数据集,如电子健康记录,这很容易导致模型设定错误。相比之下,因果机器学习通常允许更灵活的模型,这有助于捕捉复杂的疾病动态以及人类的生理病理和药理学。尽管如此,因果机器学习通常需要更大的样本量,这是一个权衡。

因果机器学习常用术语词汇表

 

   

因果图:用于表示变量之间因果关系的图形表示,通常使用有向无环图来描绘因果路径。
因果机器学习:机器学习的一个分支,旨在估计因果量(例如,ATE和CATE)或预测潜在结果。在这里,“因果”意味着在满足某些关于数据生成机制的假设时,目标是一个因果量。
混杂因子:同时影响治疗分配和结果的变量。
一致性:潜在结果等于在选定治疗下观察到的患者结果,这意味着潜在结果原则上是清晰定义的并且可观察的。
反事实结果:在不同治疗下本应发生的无法观察到的患者结果。
事实结果:在观察到的治疗下发生的患者实际结果。
可识别性:一个统计概念,指从观察数据中唯一推断因果量(如治疗效果)的能力。
正性:每位患者接受/不接受治疗的概率大于零。这也被称为重叠假设。
潜在结果:如果进行了某种治疗,则会观察到的假设患者结果。
倾向评分:在观察到特定患者特征的情况下接受治疗的概率。
SUTVA:任何患者的结果不依赖于其他患者的治疗分配,且在不同环境或人群中治疗效果没有隐藏的变异。

无混杂性:在观察到的协变量给定的情况下,治疗分配与潜在结果独立。例如,当不存在未观察到的混杂因子时,即影响治疗和结果的变量时,就是这种情况。这个假设也被称为可忽略性。

因果机器学习与传统统计的比较

 

   

由于处理效果估计在许多应用领域的重要性,不同学科已经开发了处理效果估计方法,包括统计学、生物统计学、计量经济学和机器学习。然而,并不存在“二分法”,因为许多概念在各学科之间是共享的。例如,许多用于估计处理效果的最先进方法是模型不可知的,这意味着它们可以与来自传统统计学的任意模型以及更现代的机器学习模型结合使用。

 

最终,选择依赖传统统计模型还是更现代的机器学习方法呈现出一个取决于基础设置的权衡。例如,对于小样本量,人们通常更倾向于使用简单模型(如线性回归或其他参数模型)。对于大样本量,则可以使用更复杂的非线性模型来捕捉处理效果的异质性。尽管如此,处理非线性关系和处理效果异质性的能力并非因果机器学习所独有,原则上也可以依赖于允许纳入预先指定非线性的传统统计模型。因此,当基础数据生成过程复杂且先验知识有限时,因果机器学习可能具有优势。

因果推断的基本问题

 

   

从数据中估计治疗效果需要定制方法。这是因为由于所谓的因果推断的基本问题,个别患者的治疗效果无法观察到:也就是说,研究团队只能观察到在给定治疗下的实际患者结果,但永远无法观察到在不同的、假设的治疗下的反事实患者结果(见图1b)。因此,基于这些未观察到的结果来估计治疗效果或其他因果量会带来传统预测性机器学习中不存在的挑战。

首先,为了获得可估计的因果量(如治疗反应),必须对问题的因果结构做出某些假设特别是,通常需要假设没有未测量的混杂因子;也就是说,不存在既驱动治疗决策又影响后续患者结果的未观察因素如果存在未测量的混杂因子,估计的治疗效果可能会受到混杂偏差的影响,因此可能是错误的。此外,为了估计治疗效果,需要考虑治疗、结果和患者特征之间的依赖结构,通过建模潜在的因果关系来实现。这是因为干预治疗变量也可能影响其他患者特征。例如,考虑一个体质指数较高的患者,其医生建议其戒烟,并预测其糖尿病风险。传统机器学习的文献可能会建议使用体质指数和吸烟行为来预测在吸烟与不吸烟的情况下的糖尿病风险;然而,这种方法会忽略戒烟也会改变患者的体质指数。为了解决这个问题,需要在因果框架中嵌入机器学习。

因果机器学习工作流程

 

   

使用因果机器学习预测治疗结果的过程可以分解为几个关键步骤见图2),这些步骤将在下面的章节中讨论。遵循这一工作流程应该能帮助研究人员清晰地定义研究问题,然后指导他们构建问题结构、选择感兴趣的因果量、因果机器学习方法、评估指标以及进行适当的稳健性检验以验证估计的可靠性。

 

Nat. Med. | 临床治疗中的因果机器学习

图2:医学中因果机器学习的工作流程

构建问题的因果结构

 

   

为了估计治疗的有效性,需要关于以下变量的信息:感兴趣的治疗、观察到的患者结果和患者特征(协变量)年龄、性别和医疗历史。例如,在癌症护理中,可以使用包含化疗类型(治疗)、癌症肿瘤大小(结果)和以往医疗历史(协变量)的电子患者记录。在标准设置中,变量可以像因果图中所示的那样相互影响。为了使因果量可识别,我们稍后需要假设对因果图的了解。

 

上述变量的信息可以来自观察性数据或实验数据。在观察性数据中,如临床注册和电子健康记录,治疗分配遵循某种通常未知的程序,这取决于患者特征。例如,病情非常严重的患者可能会得到更激进的治疗形式,这意味着患者特征在不同的治疗组中有所不同。这与随机对照试验(RCTs)形成对比,在RCTs中,治疗是随机分配的,因此,患者特征在不同的治疗组中相似。这一点由倾向评分所捕捉,即在给定患者协变量的情况下接受治疗的概率。在RCTs中,倾向评分是已知的(例如,在两个治疗组大小相等的完全随机化试验中,倾向评分为50%)。相比之下,现实世界数据中的倾向评分是未知的,但可以估计以解释患者群体间的差异。

选择感兴趣的因果量

 

   

因果量,如治疗反应,通常基于“潜在结果框架”来形式化。该框架概念化了潜在结果,即如果施加某种治疗,患者可能会观察到的结果。然后,根据实际应用,可以关注不同的因果量。这些包括治疗效果,它量化了在不同治疗下两个潜在结果的预期差异。常见的治疗效果选择可以大致分为两个维度(见图3b):效果异质性的程度和治疗类型通过选择一个特定的感兴趣的治疗效果,就定义了所谓的估计量,即因果机器学习方法应预测的因果量。

 

Nat. Med. | 临床治疗中的因果机器学习
图3:因果机器学习的任务形式化

 

效果异质性的程度。传统上,平均治疗效果(ATE)在临床试验中广泛使用。ATE 在研究人群水平上测量效果。通过比较接受治疗者与未接受治疗者(对照组)的平均患者结果,ATE 帮助了解一种治疗在特定患者群体中平均有多有效。例如,当分析一种新药与标准治疗的比较效果,或评估一种新药的总体有效性或安全性时,这一点很重要。然而,ATE 无法提供关于具有特定协变量的患者是否可能特别受益于治疗的详细见解,尽管这种治疗效果的异质性在临床实践中可能非常重要(见图1c)。为了更详细的视角,人们通常会估计条件平均治疗效果(CATE),即治疗对由协变量定义的特定患者亚组的效果。了解治疗效果的异质性有助于了解哪些亚组中治疗无效或甚至可能有害,这与为特定患者个性化治疗建议相关。

 

治疗类型。二元(离散)治疗是指治疗变量的一种类型,该类型是二分的,因此只有两个(或更多)类别,例如,在回答是否治疗或不治疗的问题时。相比之下,连续治疗是指可以取一系列值的治疗变量类型,而不是仅限于两个(或少数几个)类别。连续治疗变量常见于治疗强度、剂量或暴露水平可以灵活选择的情况。例如,在放射治疗中,辐射剂量通常从取决于癌症类型和其他患者特征的相当广泛的范围中选择。对于连续治疗,治疗效果通常也通过剂量-反应曲线进行总结。

 

个别患者结果。除上述应用外,一些医学应用还对预测个别患者结果感兴趣。预测患者结果与治疗效果不同,前者提供了在不同治疗下潜在结果的详细预测,而后者仅估计结果的比较变化,而不是结果本身。因此,治疗效果主要说明一种治疗相对于另一种治疗的优势,而潜在结果可以通过帮助临床医生推理在不同治疗选项下预期的结果来支持常规护理中的决策。这可能被视为“干预下的风险”估计量,需要仔细的建模策略。例如,虽然治疗效果可能表明一种药物可以将5年内死亡率降低五个百分点,但预测结果可能告诉我们治疗后的死亡率为15%,未治疗为20%。然而,实际上,ATE 和 CATE 的估计通常比预测潜在结果更容易,因此,在足以进行决策时更受青睐。

评估可识别性假设的合理性

 

   

治疗效果的估计涉及到反事实结果,这些结果是无法观察到的。因此,必须对数据生成过程做出正式假设,以确保从数据中识别治疗效果的可能性。直观上,可识别性是一个理论概念,指的是是否可以从数据中唯一推断出因果量(如治疗效果)。确保可识别性是必要的步骤,因为否则,即使有无限的数据,也无法无偏估计治疗效果。

 

随机对照试验(RCTs)通过完全随机的治疗分配来确保治疗效果的可识别性。然而,现实世界数据中的治疗分配并非完全随机,而是依赖于协变量,因此必须制定正式假设。具体的假设集取决于选择哪种类型的治疗效果。对于上述讨论的治疗效果,除了拥有独立同分布的数据外,三个“因果”假设是标准的。首先,稳定单元治疗价值假设(SUTVA)要求给定治疗的潜在结果与观察结果一致,且一个患者的观察潜在结果不应受到对其他患者的特定治疗分配的影响。这一假设意味着没有干扰,即治疗一个患者不会影响研究人群中另一个患者的结果(例如,由于溢出效应或同伴效应)。SUTVA假设还意味着治疗效果在不同医院或人群中存在隐藏的变化。SUTVA也被称为一致性假设和无干扰假设。其次,正性(也称为重叠)要求接受治疗的概率非零。正性意味着,对于每一种可能的患者特征组合,我们可以观察到接受治疗和未接受治疗的患者。第三,无混杂性(也称为可忽略性)表明,在给定观察到的协变量的情况下,治疗分配与潜在结果独立。特别是,如果患者协变量包括所有可能的混杂因素——换句话说,影响治疗和结果的变量,则满足此条件。例如,如果具有某些社会人口统计特征(如种族或收入水平)的患者更容易获得治疗,且原因未在数据中捕捉到,无混杂性可能会被违反。原则上,通过捕捉驱动治疗分配的所有相关因素,可以解决无混杂性问题,但在实践中验证这一点通常很有挑战性。如果未观察到混杂因子或未对其建模(甚至未知),则估计的治疗效果可能存在偏差,因此是不正确的

 

重要的是,无论使用因果机器学习方法还是传统的统计方法,都需要这些假设来从数据中一致地估计治疗效果。自然地,评估假设的合理性通常很困难。稍后,我们将讨论检查假设是否成立的可信性的潜在策略。尽管如此,还存在具有替代设计的问题设置。例如,某些问题设置允许放宽SUTVA假设(例如,允许溢出效应)。还存在在特定设置中假设无混杂性的替代方法,例如通过使用工具变量。最后,还有一些问题设置不是静态的,而是随时间变化的,因此会随时间做出一系列治疗决策。研究人员也在开发有效结合观察性和实验性数据的方法。

选择并拟合因果机器学习方法

 

   

存在不同的因果机器学习方法,这些方法根据所处理的因果图和感兴趣的因果量而有所不同。例如,大量文献集中在用于ATEs的因果机器学习上。在这里,一种显著的方法是基于所谓的目标化,以获得满足半参数高效估计方程的估计量。对于具有二元治疗的CATE估计,有两个更广泛的方法类别。一方面,所谓的元学习者是用于CATE估计的模型不可知方法,可以与选择的任意机器学习模型结合使用(例如,决策树或神经网络)。模型不可知方法的一个关键优势是可以选择基础的机器学习模型来灵活处理如电子健康记录等临床数据来源。另一方面,模型特定方法对现有的机器学习模型进行调整,以应对治疗效果估计中出现的统计挑战,从而提高性能。在此,特别适用于临床应用的显著例子包括因果树因果森林,它们分别适应决策树和随机森林,用于治疗效果估计。还有其他方法调整表示学习,利用神经网络进行治疗效果估计。对于连续治疗变量的反应预测需要一组不同的方法——在这些设置中,可以灵活选择治疗的强度、剂量或暴露水平。这是因为治疗值的数量是无限的,而且并非每个值都在数据中观察到——这使得在这种情况下治疗效果估计尤为具有挑战性。

 

现有的因果机器学习方法通常生成点估计。在医学应用中,这可能是一个严重的限制,其中不确定性估计,如标准误差或置信区间对于可靠的决策至关重要。然而,也有一些进展。例如,对于CATE估计,因果森林是一种提供严格不确定性估计的方法。此外,最近还开发了几种其他策略,如贝叶斯方法和共形预测,但仍需要更多研究。

模型不可知的方法用于CATE估计

 

   

元学习者可以通过不同的方式利用监督学习环境中的数据来估计CATE。

 

插件学习者:一种方法是训练一个单一的机器学习模型来预测患者结果,但在其中将治疗作为一个单独的变量加入到协变量中(称为S-learner)。另一种方式是为每种治疗训练两个单独的机器学习模型(称为T-learner)。这里,一个机器学习模型被训练用于预测治疗组的患者结果,另一个机器学习模型用于对照组。在计算出机器学习模型后,只需使用估计的治疗和对照结果,将它们“插入”到计算治疗效果的公式中。

 

两步学习者:另一种方法是直接针对CATE,这可以导致更快的收敛。然而,因为事实和反事实结果在数据中从未被观察到,所以所谓的伪结果被用作替代,它们具有与CATE相同的期望值。著名的例子包括所谓的DR-learner和所谓的R-learner,它们带有一定的稳健性保证。

 

上述元学习者各有优势和劣势。不幸的是,选择元学习者没有明确的规则,只有高层次的推荐。

评估因果机器学习方法

 

   

可以说,评估因果机器学习方法的最佳方式是评估从随机数据预测患者结果的准确性。虽然这不允许评估个别患者的治疗效果,但它仍然有助于模型选择,使得在平均或异质性治疗效果方面表现最佳的模型受到青睐。相比之下,出于模型选择的目的进行基准测试是具有挑战性的,因为反事实结果和治疗效果的真实值是未知的。作为补救措施,通常有两种策略。一个简单的策略是仅基于预测事实结果的表现比较因果机器学习的方法(从而忽略预测反事实结果的表现)。这可能提供一些洞察,即数据中的基础疾病机制是否被捕获。然而,它有一个主要限制,即未评估关键的因果量——治疗效果。另一种方法是使用伪结果。在这里,首先使用一个独立的次级模型估计伪结果,以近似未知的反事实结果,然后使用伪结果来基准测试估计的CATE。然而,这种方法取决于次级模型对伪结果的表现,并倾向于偏爱某些方法。总的来说,这两种策略都只是启发式的,没有“完美”的解决方案。

执行稳健性检查

 

   

为了验证治疗效果估计对不同假设的明确违反的稳健性,使用所谓的反驳方法。常见的反驳方法包括添加一个随机变量以检查治疗效果估计是否保持一致(因为这样的变量不应影响估计),或者用随机变量替换实际的治疗变量以检查估计的治疗效果是否归零。此外,可以进行模拟,其中结果通过半合成数据替换,以检查在新的数据生成机制下(对于模拟结果)治疗效果是否正确估计。总之,选择用于验证因果机器学习方法的反驳方法在很大程度上取决于具体问题设置,并应仔细选择和实施。即使反驳方法产生积极结果,这也不能保证假设得到满足。尽管如此,机器学习中的最佳实践稳健性检查仍然是必需的——例如,为了减轻偏见的风险——特别是因为治疗效果估计的结果可能严重依赖于数据和模型选择。

 

技术建议

 

   

为确保在临床实践中谨慎且可靠地使用因果机器学习,研究团队提出了几项技术建议。

检查假设的合理性

 

   

评估潜在假设的合理性对于治疗效果估计的有效性至关重要,但这也具有挑战性。对于一致性假设,应根据领域知识断言一个患者的治疗不会影响另一个患者的结果。对于正性假设,通常会绘制倾向得分以检查它们是否过小或过大;否则,数据中可能没有足够的支持来进行可靠的推断。另一种策略是依赖于不确定性量化方法,因为某些治疗可能很少给予特定患者群体,这意味着在这些患者群体中进行推断的数据支持有限,因此不确定性较大。如果违反了正性假设,一种策略是从分析中排除某些亚组,因为无法为它们做出可靠的推断。

 

验证无混杂性假设对于现实世界数据尤其具有挑战性。避免违反无混杂性假设的最佳方式是咨询领域知识,以确保在现实世界数据中捕捉到所有相关因素。另一种选择是采用工具变量方法;但是,在医学应用中合适的工具往往很少,并且再次,无法测试工具的有效性。如果无法排除未观察到的混杂因素,进行因果敏感性分析可能有助于评估结果对潜在未观察到的混杂因素的鲁棒性。因果敏感性分析可追溯至1959年的一项研究,表明未观察到的混杂因素无法解释吸烟对癌症的因果效应。因果敏感性分析在一些关于混杂程度的限制下计算感兴趣的因果效应的界限,从而意味着治疗效果不能被解释掉。关于混杂程度的限制是基于领域专业知识,通常通过与已知的重要原因进行比较来进行(例如,风险因素如年龄)。最近,提出了一系列提供严格界限的因果机器学习方法。然而,因果敏感性分析仍然要求对重要疾病原因的人体病理生理学和药理学有足够的知识,这在观察性研究中并非总是如此。

报告

 

   

应该非常小心地解释和报告发现。特别是,假设、选择因果机器学习方法的理由以及稳健性检查应明确说明。如果可能的话,应该将现实世界数据中估计的治疗效果与随机对照试验中的效果进行比较。这有助于验证因果机器学习方法的可靠性,但也可能揭示临床试验和常规护理之间的差异(例如,由于不同的患者群体或不同程度的依从性)。

 

估计的治疗效果的可靠性还取决于潜在数据的质量和代表性。此外,通过因果机器学习进行的分析涉及多个假设检验,因此存在假阳性的风险。同样,由于这种分析的回顾性特点,另一个风险是选择性地报告积极结果。为了减轻这些风险,强烈推荐预注册的分析协议。最后,当因果机器学习与现实世界数据一起使用时,应公开承认做出因果结论的限制,并且如果可能的话,应考虑使用随机对照试验进行验证。

临床转化

 

   

通过从医疗数据中估算治疗效果,因果机器学习提供了个性化治疗策略并改善患者健康的巨大潜力。然而,还有很长的路要走。未来研究的一个关键焦点必须是弥合机器学习研究与临床实践中患者直接受益之间的差距。

临床用例

 

   

因果机器学习可以帮助生成新的临床证据。对于随机对照试验(RCTs),因果机器学习可能确定人群中可能对某种治疗有积极(或消极)反应的特定患者群体。例如,与安慰剂相比,抗抑郁药的治疗效果差异很大,并且随着抑郁症基线严重程度的增加而增加。然而,RCTs 通常比较两个(或更多)治疗组的患者结果,这将返回人群水平上的 ATE,使用因果机器学习可能有助于定义临床试验的纳入标准或识别预测生物标志物(例如,肿瘤中的某些遗传突变)。

 

此外,因果机器学习可能提供灵活的、数据驱动的方法来分析 RWD 中的治疗效果异质性,包括临床注册和电子健康记录。这一点很重要,因为 RCTs 可能受到限制;例如,成本可能过高或对易受伤害的人群(例如,孕妇)进行治疗随机化可能是不道德的。RWD 与因果机器学习结合可以估算易受伤害群体、罕见疾病、长期结果和不常见副作用的异质治疗效果,这些往往不能通过传统 RCTs 充分捕获。例如,因为随机化住院通常不可能,一项研究使用因果机器学习从 RWD 估计住院对自杀风险的影响。同样,RCTs 中的患者群体通常不能代表更广泛的人群,但可以通过因果机器学习来考虑这一点,以更好地了解治疗的批准后效果。然而,尽管 RWD 的潜力已被广泛认识到,许多方法学问题仍未解决,因此因果机器学习可能有助于将数据转化为临床证据。

 

最终,特定估计量的选择取决于使用因果机器学习的环境。对于监管机构来说,可能相关的是评估对广大患者的总体净效益,例如,当将新药与标准护理相比较时。这将需要估算 ATE。为确保患者安全,监管机构还可以评估治疗效果在不同亚群中的变化,这将涉及 CATE。同样,CATE 可能有助于识别对治疗特别敏感的亚群(例如,用于假设生成)或将从新开发的药物中受益的亚群,从而有助于加速药物开发。当因果机器学习集成到日常护理中的临床决策支持系统时,临床专业人员可能希望对患者在不同治疗选择下的健康状况变化进行个性化预测。这将需要用于 CATE 估算甚至预测潜在患者结果的方法。

挑战和未来方向

 

   

因果机器学习在临床转化中的几个挑战位于技术层面首先,估计异质性治疗效果和预测个别患者结果本质上都是困难的。在实践中,这通常需要强大的治疗效果预测因子和大样本量。虽然前者取决于特定疾病设置中的人体病理生理学和药理学,后者可能随着电子健康记录的日益普及而随时间改善。另一个挑战是,许多因果机器学习方法缺乏不确定性量化。然而,不确定性量化对于可靠的决策至关重要,因此对于建立临床证据也至关重要。例如,点估计可能表明异质性显著,尤其是在数据有限的设置中,而事实上可能异质性很小,只是因为结果难以预测而存在较大的(随机性)不确定性。因此,仅提供点估计而不传达预测中的适当不确定性的因果机器学习方法可能导致潜在的误导性或不适当的结论。最后,许多因果机器学习方法只在专门的软件库中实现。因此,需要综合软件工具,这些工具提高了可靠性和易用性,并考虑了医学中的实际需求(例如,严格的不确定性量化)。

 

为因果机器学习应用开发标准化协议、道德指南和监管框架将是确保安全和有效治疗决策的关键。例如,将需要开发基于共识的、量身定制的报告和质量检查表。虽然有传统的预测性机器学习检查表和生成真实世界证据的检查表,未来的研究需要调整这些检查表以满足医学中因果机器学习的需求。同样,将需要开发定制的审查流程,这些流程定义了通过因果机器学习方法生成的证据如何经过监管审查批准。

 

到目前为止,因果机器学习的研究主要通过模拟评估不同方法的性能。然而,模拟涉及(半)合成数据集,这些数据集不能完全捕捉现实世界疾病动态的细微差别。因此,通过谨慎使用创新的因果机器学习方法生成临床见解可以提供重要的第一步。这将有助于理解因果机器学习在医学背景下的优势和局限性,尤其是与已建立的临床试验方法相比。对于缺乏明确指南的设置,这可能是合适的,因果机器学习可以为临床专业人员的决策提供输入。预测治疗结果的因果机器学习需要方法学知识以及疾病动态的领域知识;因此,机器学习专家与临床医生之间的跨学科合作对于开发临床使用工具至关重要。最终,基于因果机器学习的工具可能通过临床决策支持系统集成到日常护理中。这样的系统可以直接预测不同治疗选项下个别患者的结果,从而支持临床专业人员的决策。

结论

 

   

因果机器学习提供了关于治疗效果和安全性的新颖结论的可能性,并能个性化治疗策略,从而改善患者健康。然而,在实际操作中,会出现几个挑战,尤其是确保这些方法的可靠性和稳健性。在临床使用中成功的因果机器学习例子仍然缺乏,因此,作为重要的第一步,应优先考虑涉及在临床实践中谨慎使用的概念验证研究。

链接

 

   

引文:Feuerriegel, S., Frauen, D., Melnychuk, V. et al. Causal machine learning for predicting treatment outcomes. Nat Med 30, 958–968 (2024).

如果有帮助记得关注+收藏~

原文链接:https://doi.org/10.1038/s41591-024-02902-1

启发

 

   

这篇文章基于因果机器学习(Causal ML)在医疗领域的应用启发了几个具体的研究方向,展示了深化技术应用的潜力。首先,研究可以着眼于发展能够处理多种治疗相互作用的复合因果模型,这对于评估联合药物治疗的综合效果至关重要。其次,深入探索模型在捕捉治疗效果异质性方面的能力,特别是根据个体的基因和生活方式等因素,有助于发现特定人群对特定治疗的响应模式。此外,因果推断模型在急诊和重症监护等急性医疗情况下的实时应用也非常有价值,可以支持快速决策。同时,增强模型的解释性和透明度是提高临床医生对模型输出信任度的关键,因此开发可以帮助医疗专业人员理解模型决策过程的工具和算法尤为重要。此外,自动化工具和框架的开发,用于执行模型的反驳性检验和健全性分析,可以帮助快速评估模型预测的可靠性,尤其在模型调整或应用于新的患者群体时。最后,随着临床实践和疾病模式的变化,开发能够自适应更新的动态因果模型将极大提升治疗预测的准确性,使模型能够自动调整其结构和参数以反映复杂的临床环境。这些研究方向不仅推动了因果机器学习技术在医疗决策中的应用,也为未来医疗创新提供了坚实的基础。

 

本文荟萃自公众号: Geminikey、Medi AdvanceBC,只做学术交流学习使用,不做为临床指导,本文观点不代表数字监护立场。

(0)
打赏 微信扫一扫 微信扫一扫
Chu的头像Chu
上一篇 2024年5月3日 上午8:53
下一篇 2024年5月4日 下午10:15

相关推荐