使用机器学习开发和内部验证术后谵妄预测模型: 一项老年手术患者的前瞻、观察性临床队列研究

2021
08/27

+
分享
评论
古麻今醉
A-
A+

本文研究目标是使用前瞻性临床队列评估机器学习方法在预测术后谵妄方面的性能。 

点击“蓝字”关注,更多精彩内容!

背景:本文研究目标是使用前瞻性临床队列评估机器学习方法在预测术后谵妄方面的性能。

方法:本研究分析了一项观察性队列研究的数据,研究对象为 560 名择期重大非心脏手术无痴呆的老年患者(≥70 岁),使用混淆评估法明确术后谵妄的发生率,并辅以医疗图表审查(N=134, 24%)。在训练样本(80%参与者)中开发五种机器学习算法和一个标准的逐步逻辑回归模型,并使用剩余保留的测试样本进行评估。特征集共包括71个潜在的预测因子形成共识,通过选择一组较小的 18 个特征集,这个特征集不受患者是否进行术前精神状态测量的影响。

结果:与选定的特征集条件(AUC 范围,0.53-0.57)相比,在大特征集条件(AUC 范围,跨算法范围为 0.62-0.71)中,受试者工作特征曲线 (AUC) 下的面积更高。谵妄者具有中等 AUC 值(范围,0.53-0.68)。在全特征集条件下,梯度提升、交叉验证逻辑回归和神经网络等算法(AUC=0.71, 95%CI: 0.58–0.83)与使用传统逐步逻辑回归开发的模型(AUC=0.69, 95%置信区间 0.57–0.82)相似。

结论:本研究开发了用于术后谵妄的机器学习预测模型,其表现与传统的逐步逻辑回归相当,提示对于谵妄的精准难预测仍有待于进一步提升。

关键词:机器学习统计学习;模型预测;谵妄;术后。

前言

谵妄是 65 岁以上成年人最常见的术后并发症,在择期大手术的发生率为 15-25%。发生谵妄罹患短期或长期的临床并发症及痴呆症的风险更大。谵妄预测算法可以根据谵妄风险在术前对患者进行分层,以改善患者护理,降低不良预后的风险。既往已有研究提出多种方法预测谵妄,但很少有研究采用机器学习 (machine learning, ML) 算法。数据丰富时机器学习方法是最佳的应用选择。然而,需要重点考虑的是ML 算法是否可以有效地应用于较小的数据集,在谵妄等疾病的临床队列研究中更为常见。本研究的目标是在一项严格的、特征明确的、前瞻性的、观察性谵妄队列研究中确定预测谵妄的最佳 ML 方法,并将其与传统的统计预测模型进行比较。

我们分析了关于择期手术后衰老进展研究 (Successful Aging after Elective Surgery,SAGES) 的数据,研究使用参考标准方法来评估术前认知功能和术后谵妄,而这通常在常用的电子病历数据中无法获取。基于先前的工作,我们假设可以确定一个 ML 模型来预测谵妄,如受试者工作特征曲线 (AUC) 下的面积大于 0.70,表明诊断准确性良好,表明该 ML 模型具有比逐步逻辑回归模型的 AUC更高,研究进一步尝试通过在特征集中加入术前认知功能的测量以明确该模型能够改善预测性能的程度。

方法

研究人群:能够使用英语进行交流,70 岁及以上计划在哈佛附属的两个学术医疗中心接受择期手术,预计住院时间至少为 3 天的患者。纳入的外科手术包括:全髋或膝关节置换术;腰椎、颈椎或骶椎椎板切除术;下肢动脉搭桥术;开放式腹主动脉瘤修复术;开腹或腹腔镜结肠切除术。排除标准:痴呆、谵妄、过去 3 个月内住院、绝症、失明、重度耳聋、精神分裂症或精神病史以及酗酒或戒断史的病人。2010 年 6 月 18 日至 2013 年 8 月期间,共有 560 名患者符合所有入选标准。

数据收集:参与者在手术前大约 2 周在家中接受基线评估。每 6 个月对所有关键研究变量(包括谵妄评估)进行可靠性评估和标准化。其中研究临床医生审查医疗记录以收集有关手术、麻醉类型和持续时间、异常实验室结果、基线诊断、谵妄的发展、谵妄的诱发因素(如,药物、医源性事件或导管)、术后并发症的信息,对 10% 的图表子集进行重复提取进行可靠性检验。

谵妄的评估:谵妄评估需要 10-15 分钟,包括每日简短的认知测试、 谵妄症状访谈 (DSI),以及从术后第一天到出院进行的家庭和护士访谈。谵妄使用混淆评估方法 (the Confusion Assessment Method, CAM) 进行评级,CAM 是一种标准化方法,既往研究报道具有高灵敏度 (94–100%) 和特异性 (90–95%)。 SAGES 的评分者间可靠性很高(71 个配对评分中的 kappa 统计值 = 0.92)。谵妄症状访谈(Delirium Symptom Interview, DSI) 用于评估 CAM 症状,即使用既定的图表审查方法来捕捉访谈之间的谵妄症状。如果满足 CAM 或图表审查标准,则患者被归类为谵妄。使用该程序约 83% 确诊病例由谵妄评估(其中 31% 也通过图表审查确定)所确定,17% 谵妄病例是通过图表审查确定的,鉴于谵妄的总体发生率为 24%,这意味着 CAM评估谵妄的发生率为 20%,而图表审查评估为谵妄的发生率约为10%。

预测变量集的识别和形式化  我们通过审查病历收集外科手术、麻醉类型和持续时间、基线诊断和合并症、异常实验室结果、谵妄的发生、谵妄的诱发因素(如药物、医源性事件、导管)或身体被束缚、术后并发症和并发疾病。我们确定了预测模型中使用的特征集所需潜在的预测因子,包括术前变量、人口学特征、生活方式、认知功能、身体功能、心理社会因素、虚弱、感觉功能、医疗条件和实验室值等变量作为完整功能集,同时特征集中的缺失数据将通过链式方程进行多重插补。除了使用完整的特征集之外,还确定了一个预测变量数量的选定特征集。  

18 个预测因子最终集合的分析均使用三个重叠的特征集进行:(1)由专家小组使用迭代过程选择的选定特征集(q = 18 个特征); (2) 选择的特征集加3MS(q=19个特征);(3) 完整的特征集 (q = 71个特征)

机器学习算法和比较统计预测模型  用于预测谵妄的机器学习算法包括交叉验证逻辑、梯度提升、神经网络、随机森林和正则化回归(Lasso 回归和岭回归)。此外,研究中使用两种集成方法评估模型性能,两种策略比较 ML 算法与谵妄预测的标准方法。首先,使用标准的逐步逻辑回归评估预测;其次,使用先前发布的住院内科患者谵妄风险预测规则来获得用于模型测试的 SAGES 样本进行谵妄的预测。

模型分析比较  为了实现ML算法,将 SAGES 样本分成用于模型推导的训练集 (80%) 和用于模型验证的测试集 (20%)。根据谵妄状态对训练/测试集的随机分配进行分层。对于 ML 模型,进行重复的 k 折交叉验证(k = 4, 10 次重复),通过基于训练集中 AUC 的优化来确定最佳模型参数。根据以下标准在测试集中基于性能的比较模型:AUC、敏感性、特异性、阳性预测值 (PPV)、阴性预测值 (NPV)、检出率和平衡准确度。

为了跨模型比较这些性能特征,将发生率设置在25%,与样本中的24%发生率相似,根据谵妄发生率与ML预测的谵妄比例进行对照生成校准曲线。

结果

所选特征训练集和测试集之间的效应差异都没有超过0.15,远低于小效应的传统阈值。所有特征的平均效应大小为 0.07。根据设计谵妄的发生率在整个样本 (24%)、训练样本 (24%) 和测试样本 (23%) 中是恒定的。

图 1a、b 和 c 说明了预测模型下的受试者工作特征 (receiver operating

characteristic,ROC) 曲线分别是选定的、选定且包含改良微型精神状态检查的(modified mini-mental status examination,+3MS) 和完整的功能集。在选定的特征集下,所有模型的表现相当且接近主对角线,表明相对于机会的预测较差。这些模型通过增加认知表现的衡量标准 3MS(b)而得到改善,其中最高的AUC是使用完整特征集(c)观察得到的。

表 2 总结了预测建模的详细结果。表中总结并描述了在这些训练数据中成功预测谵妄的算法,包括接收者操作特征曲线下的面积(AUC 和 95% 置信区间)(如果出现随机病例和随机对照,病例的概率会有更高的预测值)。

相对于选定的特征集,+ 3MS特征集具有更高的 AUC(表 2)。其中逐步逻辑回归在所有预测建模方法中具有最高的 AUC (0.68)。在 ML 模型中,正则化回归和交叉验证逻辑回归的 AUC 最高(0.66)。正则化回归的阳性预测值(Positive predictive value ,PPV)为0.36,阴性预测值(Negative predictive value ,NPV)为0.81,敏感性为0.38,特异性为0.79。

图 1 不同机器学习 (ML) 算法对谵妄预测的接受者操作曲线 (ROC) 的比较;a 不包含3MS在所选特征集中时的 ROC 曲线;b 当 3MS 包含在所选特征集中时的 ROC 曲线;c 完整特征集的 ROC 曲线。

表 2 三个重叠特征集中预测谵妄的机器学习算法比较

3MS,改良的微型精神状态检查; AUC,受试者工作特征曲线下面积; CI,置信区间; 

SEN,灵敏度;SPEC,特异性; PPV,阳性预测值; NPV,阴性预测值; q,特征数量

所有统计数据都反映了在训练数据中评估以及演算了保留样本的模型

†经过评估和比较:向后逐步逻辑回归是一种统计模型(不是 ML 算法)

汇总统计的计算:SEN(Sensitivity)  = 灵敏度 = TP/(TP + FN);SPEC(Specificity ) = 特异性 = TN/(TN + FP);PPV = 正预测值 = TP/(TP + FP);NPV = 负预测值 = TN/(TN + FN);TP(true positive ) = 真阳性;TN(true negative ) = 真阴;FP(false positive ) = 误报;FN(false negative ) = 假阴性

当使用完整特征集中的 71 个预测变量时,预测性最强(表 2)。研究发现使用神经网络算法得到最高的AUC (0.71)。当检测率设置为 25% 以进行模型比较时,神经网络模型具有最高的 PPV (0.46)、NPV(0.84)、灵敏度 (0.50) 和特异性 (0.82)。

集成联合方法实现了最高灵敏度 (0.62)。请注意,集成联合方法是检测率(被确定为可能的谵妄病例的样本比例)偏离 0.25 的唯一方法。

图 2 小提琴图显示了整个 ML 模型和逐步逻辑回归的谵妄概率分布。除了数据中位数的标记和指示四分位距的框(如标准箱线图)之外,这些小提琴图还显示了非谵妄患者(绿色)和精神错乱患者(橙红色)在不同值下数据的核概率密度,水平线条表示检测率为 25%。

与 ML 模型类似,使用逐步逻辑回归的谵妄预测很差(AUC = 0.54;图1a表2),而将 3MS 添加到潜在预测因子集后,逐步逻辑回归显示模型性能有所提高(AUC = 0.68,灵敏度 = 0.42;特异性 = 0.80;PPV = 0.39;NPV = 0.82;图 1b;表2)。图 2 表明对于使用完整数据集的验证数据集(保留样本)中的谵妄/没有谵妄患者的术后谵妄预测概率的范围和分布。没有谵妄患者的分布呈小提琴状,说明预测模型的特异性相对较高;谵妄患者的分布呈矩形状,说明所有预测建模方法的敏感性相对较低(表 2)。

最后,使用已发布的谵妄预测模型根据谵妄的风险对住院患者进行分类。预测模型根据视力障碍、严重疾病、认知障碍和高血尿素氮/肌氨酸比率发生精神错乱的风险对患者进行分层,除视力障碍外(缺乏特异性),其余都是完整功能集的特征之一。已发布的算法将 59/111 (53%) 的测试集识别为精神错乱,正预测值为 25%,灵敏度为 58%,特异性为 48%,AUC 是 0.55。

结论

使用多种 ML 和标准的统计方法,能够根据在临床中(如入院时)容易获得或收集的最少变量,以中等准确度预测谵妄,研究证明ML 方法可用于开发预测算法,ML预测结果表明:谵妄风险低的患者可能趋向于相似的因素,但确实发生谵妄的患者是由各种难以确定的因素所导致,但谵妄本质上是一种复杂的、多因素的状况,预测模型的整体性能和跨人群概括的能力相对有限。样本中当特征集中包含术前认知功能 (3MS) 时,显示预测性更好。

当特征集包含大量临床变量时,能够观察到性能进一步改进,证实使用 ML 进行含大量预测因子和高质量数据队列研究的优势。既往研究中的样本大小、谵妄识别、患者群体和评估的 ML 算法类型方面均存在很大差异。

检测谵妄的方法至关重要,因为某些方法敏感性大小不一。开发模型的性能根据所研究的人群及开发和测试谵妄预测模型所包含的因素不同而有很大差异。模型性能在使用 ML 或统计模型预测谵妄的研究中也有所不同,AUC 范围从 0.56 到 0.94;本研究的结果(AUC = 0.70)在此范围内。与在其他 ML 谵妄研究中观察到的比率(3-9%)相比,本研究中的谵妄发生率(24%)要高得多,其原因可能是 ML 更适合应用于较大的数据集。

总之,本研究开发术后谵妄的预测模型,研究表明即使通过可用的最少临床数据、机器学习或更传统的逐步逻辑回归方法均可用于识别手术后发生谵妄的高风险患者。这些模型能够应用于识别谵妄的高危人群,或优化招募到旨在改善术后结果的临床试验中。 

通过术中的脑电监测,既往已有研究开发基于EEG预测深低温停循环(deep hypothermia circulatory arrest, DHCA)心脏手术后谵妄的预测方法,使用爆发抑制占空比(burst suppression duty cycle, BSDC)能够作为早期检测术后谵妄的有效指标,提示BSDC能够准确预测地术后谵妄,而这项研究通过根据临床中容易获得或收集的最少变量,能够实现以中等准确度预测谵妄,证明ML 方法可用于开发预测算法,而当特征集包含大量临床变量时,能够观察到性能进一步改进,证实使用 ML 进行含大量预测因子和高质量数据队列研究的优势。值得注意的是因为方法敏感性不一,检测谵妄的方法至关重要,此外该研究同样也有局限性。首先SAGES 研究虽然是对手术患者进行详细术前评估的最大研究之一,但相比与ML 的大多数数据集小。其次,需注意的是谵妄的预测可能已经通过纳入额外的变量得到改善,为了提高结果的临床适用性,研究者使用的是从临床环境招募的适用于大型多地点临床试验的模型。

述评:花明秀 审校:罗猛强

原始文献

Racine AM, Tommet D, D'Aquila ML, et al. Machine Learning to Develop and Internally Validate a Predictive Model for Post-operative Delirium in a Prospective, Observational Clinical Cohort Study of Older Surgical Patients. J Gen Intern Med. 2021 Feb;36(2):265-273.

声明:古麻今醉公众号为舒医汇旗下,古麻今醉公众号所发表内容之知识产权为舒医汇及主办方、原作者等相关权利人所有。未经许可,禁止进行转载、摘编、复制、裁切、录制等。经许可授权使用,亦须注明来源。欢迎转发、分享。

不感兴趣

看过了

取消

本文由“健康号”用户上传、授权发布,以上内容(含文字、图片、视频)不代表健康界立场。“健康号”系信息发布平台,仅提供信息存储服务,如有转载、侵权等任何问题,请联系健康界(jkh@hmkx.cn)处理。
关键词:
模型,使用,谵妄,研究,预测

人点赞

收藏

人收藏

打赏

打赏

不感兴趣

看过了

取消

我有话说

0条评论

0/500

评论字数超出限制

表情
评论

为你推荐

推荐课程


社群

  • 第九季擂台赛官方群 加入
  • 手术室精益管理联盟 加入
  • 健康界VIP专属优惠 加入
  • 健康界药学专业社群 加入
  • 医健企业伴飞计划 加入

精彩视频

您的申请提交成功

确定 取消
5秒后自动关闭

您已认证成功

您已认证成功,可享专属会员优惠,买1年送3个月!
开通会员,资料、课程、直播、报告等海量内容免费看!

忽略 去看看
×

打赏金额

认可我就打赏我~

1元 5元 10元 20元 50元 其它

打赏

打赏作者

认可我就打赏我~

×

扫描二维码

立即打赏给Ta吧!

温馨提示:仅支持微信支付!

已收到您的咨询诉求 我们会尽快联系您

添加微信客服 快速领取解决方案 您还可以去留言您想解决的问题
去留言
立即提交