Introduction
急性肾损伤在住院患者中很常见,并且与较高的发病率和死亡率相关。在重症监护病房(ICU)的危重患者中,急性肾损伤经常与脓毒症相关。最初认为脓毒症相关急性肾损伤是由于全身性低血压导致肾脏灌注减少,导致缺血和急性肾小管坏死(ATN)。然而,越来越多的证据表明脓毒症相关急性肾损伤的不同机制具有潜在的不同临床特征和结果。因此,AKI可能不是一个单一的临床实体,而是一个由几种不同亚型组成的总体临床综合征。先前的工作表明,潜在类别分析(一种根据一组分类指标变量的结果将患者分组的统计方法)可以识别AKI中具有不同结果和治疗反应的亚表型。然而,该分析利用了精心策划和前瞻性收集的数据和生物标志物,而不是作为常规临床护理的一部分生成的电子健康记录(EHR)数据。深度学习技术—人工智能领域的一个子集,其中计算机程序使用多层从原始输入中逐步提取更高级别的特征—可以利用这些数据来识别复杂疾病中的模式,揭示亚表型。据我们所知,还没有任何研究利用常规EHR数据使用深度学习来识别脓毒症相关急性肾损伤的亚表型。
我们的主要目的是确定我们是否可以利用传统特征(如年龄、性别、和种族。我们试图整合EHR常规收集的数百个数据特征,以确定重症监护室收治的脓毒症患者中急性肾损伤的亚表型,并探讨他们之间患者预后的差异。
Materials and Methods
研究人群:我们利用重症监护医疗信息市场数据库来识别败血症相关急性肾损伤患者。MIMICIII是一个从2001年到2012年来自大型单中心三级护理医院的患者的免费可访问的危重病数据库。这包括患者人口统计、生命体征、实验室结果、账单代码和注释。根据肾病改善全球结果(KDIGO)指南,我们纳入了在重症监护室入院48小时内出现急性肾损伤的患者。我们使用肌酐和尿量值来鉴别急性肾损伤患者。我们使用ICU入院前7天的最低肌酐作为基线,并将其与ICU入院后48小时内的最高肌酐进行比较。重症监护室入院后48小时的尿量被分成6小时的时间段,如果任何6小时的时间间隔低于KDIGO指南的限制,患者被认为患有AKI。然后,我们使用之前验证过的国际诊断分类第九修订版(ICD9)代码来定义脓毒症。我们使用埃利克斯豪斯共病软件定义了共病,该软件通过对国际疾病分类临床修改代码进行分组来识别共病。排除标准:<18岁或>89岁、入院时间为<24小时、患有ESKD或缺少生命体征的患者。还排除了在急性肾损伤诊断后48小时内任何时间点进行透析的患者,以及在该时间窗内死亡的患者(图1)。我们这样做是为了确保结果不会因纳入晚期患者而出现偏差。由于患者在此期间可能会多次入院,我们只考虑了来自第一个美国糖尿病学会的数据。
数据处理:我们利用实验室值和生命体征测量值来确定聚类,并包括从入院到诊断为AKI后48小时的所有实验室值和生命体征测量值。特征空间是被放入深度学习架构中的所有特征,以使其能够辨别模式。对于实验室值和生命体征测量值,我们计算了导出的特征,如中位数、可变性和测量次数,导致生命体征测量值的特征空间为52,实验室值的特征空间为2464。只包括70%患者的特征,将特征空间减少到188个特征。此外,我们考虑了共病、结果用于血液和尿液培养、机械通气和使用升压药,最终特征空间为225。缺失值使用K-近邻插补进行插补。接下来,我们对结果数据执行最小最大缩放,以将特征空间中的所有值都缩放到可比较的比例。一些机器学习算法对高维空间中的距离很敏感。缩放很重要,既可以确保算法不会仅基于测量单位而曲解一个特征相对于另一个特征的重要性,也可以加快训练神经网络的计算速度。自动编码器是一种非线性维度分解深度学习架构,它采用许多特征,并将它们组合成更低维度的更少生成的特征。聚类考虑了高维空间中的距离。特征空间维数的增加也会增加其稀疏性。这被称为“维度的诅咒”因此,聚类算法变得既慢又不准确。利用自动编码器可以让我们避开这一点,并检测出在更高维度中无法检测到的数据固有模式。我们使用了一个五层深的自动编码器,每个隐藏层分别有32、8、2、8和32个神经元。为了进一步分析,我们考虑了自动编码器中间层之前的层的输出(图1)。
聚类分析:利用所有样本的组合实验室值、生命体征测量值和共病的最终降维特征矩阵,我们执行因子分析以进一步分解数据帧,从而帮助提高聚类算法的性能。然后,我们对结果数据进行无监督的K均值聚类测试,聚类大小从K52到K55不等。为了验证所发现的子表型的稳定性,我们计算了轮廓分数(一种衡量样本与其自身聚类相似程度的方法)、戴维斯-波尔丁分数(一种衡量每个聚类与其最相似聚类的平均相似性的方法)和卡林斯基-哈拉巴斯分数(聚类内离差和聚类间离差之比)。在获得子表型标签后,我们使用t分布随机邻居嵌入技术将数据简化为三维,以获得更好的可视化效果。我们使用scikit-learn的t分布随机邻居嵌入将8维自动编码器输出(瓶颈层的潜在特征)分解为3维。最后,使用Python中的matplotlib包在三维空间中可视化集群。
手动图表审查:为了确保这些聚类并非完全由已知的肾脏疾病病理生理学驱动(肾前表型与ATN表型),我们从每个亚表型(约占总人口的2%)中随机选择了30个患者图表进行广泛的医生临床审查。两名独立的医生,在对所有可用的医生进展记录和出院总结进行审查后,将患者分为ATN病、肾前病、其他有记录的病因学或其他病。
亚表型的持久性分析:为了评估亚表型的差异是否由急性肾损伤持续时间驱动,我们检查了持久性的差异。如果在ICU入院前7天,最后一次可获得的肌酐高于最低肌酐,我们定义为持续性。该分析仅针对符合肌酐KDIGO标准的患者进行。
统计分析:在聚类识别之后,我们进行分析以探索聚类之间的差异。我们对连续变量使用克鲁斯卡尔-沃利斯检验,对分类变量使用费希尔精确或卡方检验。我们将透析需求和AKI后28天死亡率作为研究结果。我们使用逻辑回归来确定聚类和死亡率之间的联系。年龄;种族/族裔;CKD肝病;高血压;充血性心力衰竭;AKI阶段;和通过肌酐、尿量或两者诊断急性肾损伤。我们使用χ2检验来评估AKI阶段和持久性的差异。由于这项研究是在公开的、经鉴定的数据基础上进行的,因此被认为是机构审查委员会豁免的。使用SAS 9.4和R 3.4.3软件进行分析。
Results
脓毒症相关急性肾损伤患者的临床特征:在46520例患者中,4858例(10%)有脓毒症相关急性肾损伤。排除所有病例后,我们纳入了4001名患者(图1)。患者的平均年龄为66岁;57%是男性,73%是白人。大多数病人的入院类型是通过急诊科。患者中高血压(49%)、充血性心力衰竭(37%)和糖尿病(31%)的患病率较高;139人(4%)没有足够的信息来计算尿量,因此仅通过肌酐标准进行识别。
无监督聚类识别子表型:从这些具有变换值的组合特征中,我们实现了从K52到K55的K均值聚类。与K53的聚类被发现具有0.61的轮廓分数,0.53的低戴维斯-波尔丁分数,和6939的高卡林斯基-哈拉巴斯分数。(侧影分数是从21分开始测量的—越接近1分越好。戴维斯—波尔丁分数从零开始测量—越接近零的值越好。卡林斯基-哈拉巴斯分数是从零开始测量的—值越高越好。)亚表型1有1443名(36%)患者,亚表型2有1898名(47%)患者,亚表型3有660名(16%)患者(图2)。
每种表型的临床和生物学特征:三组的基线特征见表1。亚表型3的患者年龄最小(63岁;四分位区间[IQR],52-73岁与66岁;IQR,54-77岁[副表型2]对70岁;IQR,58-79岁的[sub pheno type 1];p<0.001)。虽然3号亚表型的高血压、充血性心力衰竭和糖尿病患者比例较低,但肝病患者比例明显较高(27%对18%[2号亚表型]对5%[1号亚表型];p<0.001)。2型下慢性肾病患者比例最高(21%对15%[1型下]对15%[3型下];p,0.001)。简化急性生理学评分ⅱ(SAPSⅱ)评分在3号亚表型中最高(54对47[2号亚表型]对38[1号亚表型];p<0.001)。三种亚表型的血压差异虽小但显著;然而,需要升压药支持的患者比例有很大差异(76%[3号分型]对62%[2号分型]对39%[1号分型];p,0.001)。不明败血症是所有三种亚表型的主要出院诊断(补充表1)。几个实验室特征的显著差异(表1)。我们计算了亚表型1和3之间差异最大的前18个特征(图3)。3型亚表型胆红素中值水平明显较高(2.7对1.1对0.7毫克/分升;p<0.001),较高的天冬氨酸转氨酶中值(103对44对38U/L;p<0.001)和更高的丙氨酸氨基转移酶中值(71对33对31U/L;p<0.001)分别与亚表型2和1相比较。与1号和2号亚表型患者相比,3号亚表型患者的乳酸中值、乳酸脱氢酶和白细胞计数也较高。3型下的患者也有更差的肾功能参数,包括更高的肌酐(1.6对1.2对1.0mg/dl;p<0.001),较高的尿素氮(32对29对22毫克/分升;p<0.001),和较低的碳酸氢盐(22对22对25毫当量/升;p<0.001)分别高于亚表型2和1的患者。补充表2中包含了所有考虑纳入的实验室特征及其相关的磷值和缺失的完整列表。
亚表型间急性肾损伤的特征:在所有三种亚表型中,AKI的主要原因是ATN: 1型亚表型30例患者中的14例(47%),2型亚表型30例患者中的19例(63%),3型亚表型30例患者中的23例(77%)。三种亚表型之间急性肾损伤的病因有显著差异(P=0.001)(表2)。KDIGO AKI分期有统计学显著性差异,3期AKI在3型下的比例较高(58%对35%[2型下]对20%[1型下];p<0.001)。根据KDIGO肌酐或肌酐和尿量标准,更多的3型下患者出现AKI型下87%,2型下61%,1型下30%(P,0.001)。补充表3中列出了仅根据KDIGO尿量标准、仅根据肌酐标准或尿量和肌酐标准确定的患者特征。年龄、性别和种族之间存在微小但显著的差异。根据肌酐和尿量标准患有急性肾损伤的患者,高血压、充血性心力衰竭、肝病和慢性肾病的比例较高(补充表3)。3型糖尿病患者中AKI持续时间较长的比例较高(33%对22%[2型糖尿病]对17%[1型糖尿病];P=0.03)。
亚表型与预后的关系: 亚表型3的患者死亡率明显较高(49%对35%对23%;p<0.001),更多患者接受透析(26%对7%对4%;p<0.001),分别与亚表型2和1相比较(图4)。在未经调整的分析中,与1型隐球菌相比,2型隐球菌住院死亡率的几率几乎是1倍(比值比,1.8;95%置信区间[95%置信区间],1.5到2.1),和3型亚表型有三倍的优势(优势比,3.2;95%置信区间,2.6至3.9)。调整后,亚表型2(调整后的优势比[aOR],1.4;95%置信区间,1.2至1.6)和3(主动脉,1.93;95%置信区间,1.5至2.4)比1型亚表型有更高的几率或死亡率。在未经调整的分析中,2号和3号亚表型也比1号亚表型有更高的透析几率(主动脉,2;95%置信区间,1.5-2.7,aOR,8.8;95% CI,分别为6.4 ~ 12.1);然而,在调整后,只有3和1亚型之间的关联仍然显著(主动脉,3.6;95%置信区间,2.5至5.4)。
Discussion
使用深度学习技术来分析常规测量的实验室测量值和生命体征,我们在脓毒症相关AKI的较大综合征中确定了三种不同的患者亚表型。我们发现,在共病、实验室测量和生命体征方面,聚类有显著差异。我们还发现,这些亚表型在死亡率方面有显著差异,即使在调整人口统计学、共病以及AKI的阶段和定义后,这种差异仍然存在。
有人推测脓毒症相关急性肾损伤不是一个单一的临床实体,而是一个由几种不同亚型组成的复杂综合征。由于EHRs的广泛使用,收集了重症监护室每个患者的详细数据。这为我们提供了以数据驱动的方式研究这一假设的机会。使用EHR数据在其他疾病(如糖尿病)中进行的亚表型分析取得了巨大成功,发现患者亚组具有不同的结果和遗传途径。此外,以前使用急性呼吸窘迫综合征试验的临床试验数据的研究表明,急性肾损伤中的不同亚型具有不同的结果。尽管其他人已经应用机器学习来识别术后脓毒症及AKI,据我们所知,这是第一次利用常规收集的EHR数据在重症监护室环境下使用深度学习对脓毒症相关AKI进行亚表型。我们确定了三种亚表型患者,分别具有低、中和高透析风险和28天死亡率。我们通过使用生理生化测量和共病以数据驱动的方式诊断亚表型来实现这一点,不包括大多数重症监护室预测模型中通常包括的特征,如年龄和性别。炎性生物标志物的纳入可能提供额外的见解;然而,由于这是一个临床数据库,而不是一个研究数据库,所以这些是不可用的。我们还选择使用深度学习对这些复杂数据进行降维,以生成潜在的子表型特征。通过这种包容性的数据驱动方法,我们确定了三种亚表型之间存在显著差异的几项实验室结果。肝损伤标记在差异最大的特征中是常见的;这些包括胆红素、天冬氨酸转氨酶和丙氨酸转氨酶。这与3型下肝病患病率较高是一致的。与普通人群相比,肝硬化患者院内脓毒症相关死亡率的较高风险可能解释了我们的亚表型之间结果的一些差异。
过这种包容性的数据驱动方法,我们确定了三种亚表型之间存在显著差异的几项实验室结果。肝损伤标记在差异最大的特征中是常见的;这些包括胆红素、天冬氨酸转氨酶和丙氨酸转氨酶。这与3型下肝病患病率较高是一致的。与普通人群相比,肝硬化患者院内脓毒症相关死亡率的较高风险可能解释了我们的亚表型之间结果的一些差异(22)。CKD在三种亚型中都很常见。虽然2型以下的患者比例最高的慢性肾脏病患者中,3型亚表型肾功能参数较差,包括肌酐、尿素氮和酸中毒。此外,3型下有更多的AKI持续患者和更多的3期AKI患者。几项研究发现,急性肾损伤和急性肾损伤阶段的持续时间与较高的死亡率相关。
最高风险组,亚表型3,具有较高的脓毒症严重程度,表现为较高的脓毒症标志物和急性期反应物,如乳酸、白细胞计数和乳酸脱氢酶。这些特征已被证明与较高的死亡率风险有关。这些实验室测试可能是更严重的败血症或器官衰竭发展的标志。此外,与其他亚表型相比,3型亚表型需要升压药治疗的患者比例更高。亚表型3的高死亡率可能是由共病、AKI的严重程度和持续时间以及脓毒症的严重程度的差异驱动的。我们使用KDIGO尿量和血清肌酐标准来确定我们的AKI队列。虽然这增加了我们的病人数量,但也可能增加假阳性率,因为尿量并不总是准确记录的。我们认识到通过肌酐和尿量标准识别的患者存在差异。然而,即使在调整了用于AKI识别的方法后,3型下的患者死亡率仍明显高于1型下的患者。EHRs的广泛使用允许通过临床决策支持系统实现机器学习模型。这种系统已用于急性肾损伤的预测和预警,从而改善了住院时间和死亡率。在重症监护室早期进行准确的风险评估将使提供者能够分配稀缺的资源,如持续RRT,并帮助与患者及其家人讨论护理目标。然而,在考虑临床实施之前,这里提出的模型需要额外的测试和外部验证。我们也承认一些局限性。我们使用了MIMIC III数据库,该数据库经过了广泛的清理;因此,它可能不能反映其他流行性出血热,这降低了我们发现的普遍性。我们使用ICD9代码来定义我们的脓毒症人群;因此,我们无法确定败血症诊断的时间。因为MIMIC III是一个专属的住院患者数据库,我们无法确定患者的真实基线血清肌酐和肾功能。这将导致我们错过患有社区获得性AKI的患者。然而,通过将急性肾损伤的诊断限制在重症监护室入院后48小时内,从而以较小的样本量为代价识别脓毒症相关急性肾损伤的患者,这种情况得到了缓解。使用肌酐和尿量KDIGO标准进行AKI诊断,尿量记录可能不准确。然而,我们仅在重症监护室入院后48小时内使用尿量测量,这可能优于重症监护室入院前40%的记录。虽然MIMIC III数据库是大型ICU数据库,但它是单中心数据库,需要在来自不同中心的ICU数据库中进行外部验证。
总之,我们使用了一种数据驱动的深度学习方法来识别与急性肾损伤相关的三种亚表型,即使根据公开可用的数据调整了急性肾损伤的阶段、急性严重程度和人口统计数据,这些亚表型也具有显著不同的结果。据我们所知,第一项研究使用常规收集的EHR数据来证明重症监护室中脓毒症相关急性肾损伤综合征的临床亚表型。当与其他生物标志物和组学数据相结合时,这种方法可以进一步加快脓毒症相关急性肾损伤新生物标志物和失调途径的发现研究。
学术交流文章,不做为临床依据,特此声明。发布者:Chu,转转请注明出处:https://www.icu.cn/?p=2458