使用机器学习对ICU血流动力学干预的早期预测

【朝乾夕惕】使用机器学习对ICU血流动力学干预的早期预测

摘 要

背景:重症患者血流动力学不稳定的及时识别可以提高警惕和早期治疗的机会。我们开发了血流动力学稳定指数(HemodynamicStability Index,HSI),以突出对床旁可能发生的血流动力学不稳定的情境意识,并积极评估潜在的血流动力学干预措施。

方法:我们使用一组决策树来获得实时风险评分,预测未来一小时内开始的血流动力学干预。我们使用eICU研究所(eICUResearch Institute,eRI)数据库,基于2012年至2016年成人ICU住院病例开发了该模型。共有208,375例ICU住院患者符合纳入标准,其中32,896例患者(患病率=18%)在住院期间接受了其中一种干预措施,至少经历了一次不稳定事件。预测指标包括生命体征、实验室测量和通气设置。

结果:与收缩压和休克指数(心率/收缩压)等单一参数相比,HSI表现出明显更好的性能,并在患者亚组中具有良好的泛化性。HSIAUC为0.82,预测了所有血流动力学干预的52%,领先时间为1小时,特异性为92%。除了预测未来的血流动力学干预,我们的模型还提供了对每个预测有贡献的置信区间和临床特征的排名列表。重要的是,HSI可以使用一组稀疏的生理变量,并在置信度低于可接受阈值时避免作出预测。

结论:HSI算法提供了一个单一的评分,利用患者监护仪和电子病历(EMR)中的多个生理参数,实时总结了血流动力学状态。重要的是,HSI是为现实世界部署而设计的,在不同的数据可用性条件下展示了通用性和强大的性能,并以功能重要性和预测置信度的形式提供模型解释。

关键词:血流动力学,血管升压药治疗,机器学习,临床决策支持

介 绍

       对于低血压患者器官灌注支持,液体复苏和血管活性药物治疗至关重要。2016年拯救脓毒症运动(SSC)指南建议,针对平均动脉压≥65mmHg的患者,尽早开始使用血管升压药。根据该指南,如果在液体复苏后仍存在血流动力学不稳定,应评估是否需要开始应用血管升压药治疗。尽管SSC指南对血管升压药的开始应用时间并不精确,但最近的研究表明,血管升压药的延迟使用与较高的死亡率、更少的无血管升压药应用天数和更长的达到目标平均动脉压的时间有关。

临床决策支持系统的设计旨在持续监测和识别具有血流动力学不稳定高风险的患者,有潜力提高对需要立即给予压力支持的及时认识。基于这些系统的早期血流动力学干预可能有助于避免器官灌注不足引起的并发症和降低死亡率。常用的单参数测量包括血压和心率在床旁很容易获得,可以作为检测血流动力学参数变化的风险分层工具。然而,单参数监测不能完全描述患者的整个状态,可能导致对不稳定性的误解和低估。多参数评分系统使用机器学习量化生理变量和不良事件之间的关联,已被提出作为一种方法,以准确分层ICU患者。

血流动力学干预包括血管升压药或正性肌力药的开始应用、输液和输血,是ICU患者血流动力学不稳定的显著标志。在本研究中,我们的目的是(1)建立一个多参数风险评分,将接受血流动力学干预的高概率患者进行分层。(2)识别影响风险的重要生理参数,并量化模型预测的可信度。(3)评价ICU患者亚组和独立验证队列模型的性能。

方 法

      我们利用ICU患者的回顾性数据开发了一个机器学习模型,以预测未来一小时内血流动力学干预的开始。eICU研究所(eRI)数据库用于培训和验证(Pollard等人)。完整的数据集由美国各地364个ICU中的330万例患者组成。为了确保在培训和验证队列中绘制血流动力学干预数据的准确性,我们的分析仅限于2012年至2016年期间有可靠的输注药物和通气图表数据的入院患者。如果医院每天为每位患者绘制≥7个输注药物条目,包括每位患者每天在患者护理计划中有≥0.75个通气和气道记录,以及在eRI数据库中的呼吸记录表中有≥10个条目,则认为医院是可靠的。我们进一步将队列限制在年龄≥18岁、在ICU中没有不复苏(DNR)指征的成年患者。该过滤步骤从54个ICU的初始数据集大小减少到292,856例患者(图1)。

【朝乾夕惕】使用机器学习对ICU血流动力学干预的早期预测

       ICU患者分为稳定组和不稳定组。稳定患者未接受表1中的任何血流动力学干预。不稳定患者在ICU期间至少接受表1中的一种干预措施,包括启动血管升压药或正性肌力药,在短时间内给予大剂量液体,或浓缩红细胞输注。当满足任何一项干预标准时,干预阶段就开始了。干预部分继续进行,直到连续使用血管血管升压药或正性肌力药、输液或输注PRBC间隔超过12小时。将干预前1小时观察到的最后一组生理变量作为阳性组样本,选择一名稳定患者的随机时间作为阴性样本进行模型训练。无论是在训练期间的血流动力学稳定组还是不稳定组,我们都没有任何来自ICU住院前6小时的样本。保留20%的eRI数据的分层抽样用于模型评估,其余80%用于训练模型。对样本进行分层,使患者只出现在一个测试集中,而不是同时出现在两个测试集中。此外,我们通过一个独立医院的外部数据集,即MIMICIII数据库,验证了在eRI患者身上所训练的模型。我们按照上述相同的过程从MIMICIII中提取稳定和不稳定的样本,然而,结果标签仅包括给予血管升压药或正性肌力药。

【朝乾夕惕】使用机器学习对ICU血流动力学干预的早期预测

临床观察

我们选择了33个在ICU中常规获得的变量,包括生命体征、实验室测量、血气测量和通气设置(附加文件1:图S3)。将心率和收缩压变量向前填充至2小时,将实验室测量和呼吸机参数设置向前填充至26小时。将有创和无创血压合并为一个单一变量,当两者都有时,有创血压优先于无创血压。我们要求在训练和评估期间至少有一个心率和收缩压来计算风险评分。如果一个变量因未被测量或前向填充值过期而缺失,则使用ICU患者的训练数据总体平均值(除了三个通气参数:吸入氧气浓度(FiO2)、平均气道压力(M-AWP)和吸气正压(PIP)外的所有特征)计算该值。估算FiO2的室内氧水平为0.21,MAWP和PIP缺失,以避免估算未进行机械通气患者的通气设置。

血流动力学干预的监督学习

我们训练了一个Abstain-Boost模型,这是一个强大的单变量分类器集合,由一个深度决策树组成,根据患者的测量结果预测未来的血流动力学状态(稳定或不稳定)。33个分类器(每个生理变量一个)都输出一个真实值,值越大表示血流动力学干预风险越大。对可变风险进行求和,并对血流动力学干预的最终概率进行s型变换。对模型进行200轮加速训练,学习率设为0.1。模型训练后,利用Platt缩放对预测概率进行校正,以匹配数据中观测到的经验不稳定率。我们定义了血流动力学稳定性指数,即较高的概率表明较低的血流动力学干预风险(稳定性)。我们使用TRIPOD检查表来报告模型开发和验证步骤。

我们还计算置信区间来量化模型预测中的不确定性。图2显示了一个典型病例的HSI评分和置信区间。模型预测中的不确定性可以分解为模型不确定性,这是由模型不规范(例如,如果算法没有捕捉到非线性关系)和由噪声测量和缺失变量驱动的特征不确定性所产生的不确定性水平。我们量化这些不确定性的来源来计算置信区间(详见附加文件1)。该模型可以根据患者从稳定过渡到不稳定的HSI风险评分的置信区间和临界值之间的重叠程度来避免进行预测。置信区间和临界阈值的高度重叠表明患者是否需要干预的不确定性更大,因此我们可以避免作出预测。有关技术细节和弃权试验,请参阅附加文件1。

【朝乾夕惕】使用机器学习对ICU血流动力学干预的早期预测

临床风险预测模型易受临床行为学习模式的影响,而不仅仅是患者的生理指标。在模型训练中,我们尝试通过以下三方面消除临床医生行为中的偏差,即(1)合并有创血压和无创血压来消除侵入性测量的影响。侵入性测量的存在表明更高的临床关注,该模型将学习简单地基于侵入性变量的存在来分配更高的风险。(2)缺失值是用总体均值估算的,因此模型没有从缺失模式中学习。(3)我们尝试在模型中加入缺失的变量指标,提高了模型的性能。然而,我们决定排除缺失变量指标,纯粹是从生理上学习,而不是临床实践模式。

评估

我们使用ROC曲线下面积(AUC)来报告模型性能;敏感性(Se),也称为召回率,这是模型预测患者接受血流动力学干预的能力;特异性(Sp),它量化了当患者没有接受血流动力学干预时的错误预测;阳性预测值(positivepredictive value,PPV)也被称为精确度,它是所有预测中真正导致干预的部分。性能指标在平衡点(BE)处进行报告,其中精度等于召回率,精度为90%,特异性为95%。该模型使用了所有33个输入变量,并在四种不同的操作模式下进行了评估,这四种模式代表了医院实际部署情况,不同数据源的整合程度不同:(1)一个“基本”模式,模型可以获得一些少量的生命体征包括心率、血压、休克指数和年龄,(2)一个“基本+实验室”模式,除了使用基本模式的变量外还使用了可用的实验室测量值,(3)一个“基本+通气”模式,除了基本模式变量外,还使用了呼吸机设置,(4)“所有特征”模式,其中所有可用变量都呈现给预测模型。通过将不包含在各自操作模式中的变量作为缺失值来模拟操作模式。我们还报告了患者亚组的模型性能,包括ICU住院类型(例如,从转到过渡单元、从普通病房转出、再入院)、ICU单元类型(例如,外科ICU,心内监护病房)、入院来源(例如,基层医院、ICU)以及预测时的通气状态。

结果

队列选择标准(图1)确定了32,896例导致血流动力学干预的不稳定事件和183,420例未接受任何血流动力学干预的稳定事件(发生率为18%)。不稳定组患者ICU住院时间更长(中位数;稳定:29h;不稳定:95h),有创机械通气时间更长(稳定:22h;不稳定:75h),较高的住院死亡率(稳定:1.9%,不稳定:9.0%),在ICU入院时APACHEIV评分较高(稳定:46,不稳定:62)。在32,896例不稳定事件中,19,044例导致血管升压药应用(58%),5,159例导致PRBC输血(16%),和11,918例导致大量液体复苏(36%)。

在事件发生前1小时预测所有结果(包括血管升压药或正性肌力药、液体和PRBC输注)(患病率=15%)时,从所有33个生理变量中使用可用的测量值,对eRI数据库的保留数据集进行了预测,HSI模型AUC为0.82(在平衡点时Sp=0.92,PPV=0.52)。单独预测血管升压药时,HSI模型AUC改善到0.88(Sp=0.95,PPV=0.55)(患病率=11%)(表2)。HSI甚至在事件发生前12小时也具有很高的预测准确性,并且在预测血流动力学干预方面明显优于休克指数和收缩压等单一参数。

【朝乾夕惕】使用机器学习对ICU血流动力学干预的早期预测

缺少变量的模型性能

HSI能够在一些无法测量的有限数据条件下准确预测不稳定性,如表3所示(工作模式的详细定义见“方法”中的“评估”部分)。当只有年龄、心率、血压和休克指数(基本模式)可用,且实验室测量和通气设置作为缺失变量时,AUC降至0.72(PPV: 0.39, AUPRC),仍然优于血压和休克指数。当我们比较基本模式和“基本+实验室模式”时,实验室测量的AUC增加了8%(AUC从0.72到0.8;PPV从0.39到0.48)。

【朝乾夕惕】使用机器学习对ICU血流动力学干预的早期预测

 

【朝乾夕惕】使用机器学习对ICU血流动力学干预的早期预测

患者亚组中的模型性能

我们验证了HSI模型在ICU住院类型、ICU单元类型、入院来源和通气状态定义的不同患者组中均能很好地推广,如附加文件1所述:表S1所示。在血流动力学干预较低的过渡单元和神经系统ICU中,HSI预测明显较差(PPV从0.529下降到0.146)。详细分析见附加文件1。

外部验证

HSI是在MIMICIII数据库上进行外部验证的,该数据库独立于用于培训的eRI数据库。按照与eRI数据库相同的程序,我们确定了15,981个符合我们提取标准的ICU患者。结局指标包括接受血管升压药或正性肌力药但不接受液体和PRBC的患者。在MIMICIII数据库中流行率明显更高(37.8%)。在干预前1小时进行评估时,我们观察到MIMICIII的AUC较高,为0.90(PPV: 0.79,平衡点Sp:0.87)。将MIMICIII的流行率调整为11%的血管升压药eRI流行率(仅通过二次采样),得出的AUC为0.90(PPV: 0.61, Sp: 0.95)。这些结果表明,我们的模型训练了不同的医院,可以推广到不同的医疗机构。

特征重要性

全局特征重要性可以用如图4所示的风险曲线来表示。HSI了解到休克的早期生理信号,包括心率加快和血压降低,增加血流动力学干预的风险。低于正常的红细胞比容水平,表明健康红细胞供应不足,导致输血等血流动力学干预的风险更高。图2显示了一个示例患者的单个生理变量的单变量风险评分。单变量风险(用于计算总HSI评分)用于识别导致风险发生的主要特征,并为医务人员提供预测背景以及如何对此做出反应的线索。

【朝乾夕惕】使用机器学习对ICU血流动力学干预的早期预测

讨 论

      HSI模型通过检测是否需要显著的血流动力学干预,提供了血流动力学不稳定的早期预警。本研究的主要原因是,HSI是一种新颖的多参数机器学习模型,在预测血流动力学干预的需求方面,远远超过了休克指数和收缩压等传统指标。虽然在事件发生前1小时用于预测血流动力学干预时,鉴别准确性最好,但即使在血流动力学干预开始前12小时,它也具有很高的预测性。重要的是,HSI了解了生理变量和血流动力学干预风险之间的临床意义和两者的关系。

HSI在大多数亚组和独立验证队列中都能很好地推广。在结果指标仅包括血管升压药的外部验证数据集上,HSI具有与我们在eRI数据库中保留的评估数据相同的AUC。然而,过渡单元中患者的表现较其他单元差。这是因为过渡单元的特征分布和标签分布与普通ICU患者人群的特征分布和标签分布存在显著的不匹配。具体来说,我们发现在过渡单元中接受血流动力学干预的不稳定患者组在生理上更稳定(收缩压更高,机械通气率更低),这些因素导致过渡单元中不稳定患者进行血流动力学干预的预测风险较低(假阴性率较高),使得使用HSI将不稳定患者与稳定患者分离更加困难。

同样,尽管HSI在大多数ICU病房具有较强的预测性能,但在神经系统ICU患者中其AUC和PPV较低。在不稳定组中,神经系统ICU患者的血流动力学不稳定的风险明显低于其他ICU单元的患者,因此,模型的真阳性率较低。在神经系统ICU中不稳定组的患者有明显较高的收缩压,较低的心率,较高的红细胞压积和血红蛋白。临床上,神经系统患者经常使用血管血管升压药使血压升高,这与那些用于定义模型干预的药物重叠。神经系统ICU患者使用血管升压药并不一定表明出现血流动力学不稳定,但反映了神经系统ICU患者的常规治疗模式。

我们的工作与先前在早期发现不良血流动力学事件方面的工作有一些相似之处,在这些研究中,给予血管升压药被用作血流动力学不稳定的替代标记[8,16-18]。与之前的工作相比,我们定义了血流动力学干预,使用了更广泛的治疗类别,包括在短时间内液体复苏,在血管升压药或正性肌力药应用的同时输注PRBC。例如,Hyland等人(2020年)使用乳酸、平均动脉压和血管血管升压药或正性肌力药来定义循环衰竭,而我们对不良血流动力学事件的定义涵盖了更普遍的情况。例如,我们的指标包括在开始使用血管升压药之前短时间内给予液体复苏的情况。HSI和先前研究的其他技术差异是,我们使用一些常用的生命体征和实验室测量,实现了良好的预测性能和广泛化。与之前的研究相比,我们的模型还提供了置信区间,在不确定性高的情况下可以避免进行预测,并且由于我们使用了决策树的集合,因此具有内在的可解释性。这与Hyland等人(2020)形成对比,他们的最终模型使用了具有4级交互的深度决策树集合,并依赖于事后分析(Shapley值)来提供全局特征的重要性。TREWScore是HSI的另一种替代方法,旨在预测感染性休克的发生。TREWScore是针对一个队列或脓毒症患者开发的,不像HSI是针对更大的异质性患者群体,包括脓毒症休克患者。我们假设我们所描述的辅助分析(操作模式、亚组)和算法增强(置信区间、弃权、特征重要性)将支持HSI和类似决策支持算法在真实临床环境中的部署。

HSI通过学习临床医生的行为进行培训,如血管升压药,正性肌力药,液体和PRBC的管理。该方法遵循的基本原理是,临床医生的干预决定考虑关于患者的广泛和多样化的信息(其中一部分甚至没有抓取或在EMR系统中没有及时抓取),经验丰富的临床医生由于多年的培训和经验,对这些信息更加了解。通过从临床医生对数千名患者的行动中学习,而不是从基于生理或实验室测量跨越一个固定的、预先定义的、适用于所有阈值的血流动力学不稳定事件的任意定义中学习,HSI向个性化治疗迈进了一步。此外,HSI使用的是实验室检测的结果而不是实验室检测是否存在来拟合患者的生理状态,而不是机构特定治疗模式。

目前的研究有几个局限性。首先,我们的模型仅在回顾性收集的数据集上进行测试。然而,使用一个训练数据集来抓取全美各地的ICUs的实践变化,使该算法有一个很好的推广机会。此外,我们在外部数据集和患者亚组上显示了较高的外部效度,表明了潜在的通用性。其次,由于缺乏先进的血流动力学参数,如心输出量、每搏量和每搏量变化,HSI的优势——使用一组有限的生理变量——可以被认为是一种局限性,也可能反而会增加HSI的预测能力,使HSI更适用于评估液体反应性。我们的模型中也没有包含药物信息。直觉上,某些生理参数可能有条件地依赖于药物。未来的工作将集中于在ICU设置的HSI的前瞻性验证,以表明这样的系统可以影响患者的结果。

结 论

我们开发了一种准确、自动化的早期预测算法,利用常用测量的生理变量来识别ICU患者出现血流动力学不稳定的风险。HSI模型在ICU单元、患者亚群、机构和操作模式中具有通用性。重要的是,我们将算法发展成一个决策支持工具,提供可解释的特征重要性,实时测量不确定性,避免做出高不确定性的预测,并根据特征影响评分提供可操作的提示,以采取新的测量。围绕HSI提出的分析和支持算法在现实世界的部署场景中尤其重要,这些场景需要良好的通用性,处理不同的数据可用性,并以特征重要性和预测置信度的形式解释算法输出。

本文荟萃自公众号: 重症超声研究组,只做学术交流学习使用,不做为临床指导,本文观点不代表数字日志立场。

(0)
打赏 微信扫一扫 微信扫一扫
Chu的头像Chu
上一篇 2023年4月30日 下午3:23
下一篇 2023年5月1日 下午8:56

相关推荐