多中心评估机器学习和深度学习方法在预测青光眼手术结果方面的效果
《Frontiers in Artificial Intelligence》:Multicenter evaluation of machine and deep learning methods to predict glaucoma surgical outcomes
【字体:
大
中
小
】
时间:2025年10月23日
来源:Frontiers in Artificial Intelligence 4.7
编辑推荐:
青光眼手术预后预测模型研究:利用多中心电子健康记录构建机器学习和深度学习模型,预测术后眼压失控、需增药或二次手术等失败风险,1D-CNN和随机森林模型表现最佳,内部测试集AUROC达76.4%,外部验证性能稳定。
在本研究中,我们利用大规模的多中心电子健康记录(EHR)数据,开发了机器学习和深度学习模型,以预测青光眼手术的术后结果。这些结果包括眼内压(IOP)控制情况、术后是否需要使用抗青光眼药物,以及是否需要进行额外的青光眼手术。研究的主要目标是通过分析术前的EHR数据,识别出那些在术后可能面临较差结果的患者,从而为临床决策提供支持。这一研究的背景源于青光眼作为全球致盲的主要原因之一,其患病率预计将在2020年至2040年间增长超过50%。许多接受青光眼手术的患者往往病情较为严重,且存在视力损害的风险,若不及时进行手术干预,病情可能进一步恶化。然而,青光眼手术的术后效果具有高度的变异性,一些患者可以通过一次手术实现长期的疾病控制,而另一些患者则可能在术后早期出现手术失败,表现为IOP控制不佳、需要增加抗青光眼药物种类或进行重复手术。
传统的研究在探索青光眼手术预后预测时,往往只关注有限的患者特征,如年龄、既往手术史等。然而,每位患者都具有独特的临床表现,涉及多种可能影响手术结果的因素,这种复杂性使得精确预测术后结果变得极具挑战。此外,手术的成功与否还可能受到手术类型以及患者个体特征的交互影响。因此,本研究采用了更全面的预测框架,不仅考虑了IOP控制、药物使用和是否需要再次手术等复合失败标准,还对每种单独的失败标准进行了分析,以提高预测的灵活性和临床实用性。
为了实现这一目标,我们构建了包括决策树、随机森林、XGBoost、逻辑回归、支持向量机、多层感知机、高斯朴素贝叶斯、线性判别分析等在内的多种经典机器学习模型,以及1D卷积神经网络(1D-CNN)和TabNet等深度学习模型。在模型训练过程中,我们采用了网格搜索和五折交叉验证对超参数进行优化,并在训练集上进行了充分的调整。为了防止过拟合,我们在1D-CNN模型中引入了Dropout层。此外,我们还对模型的泛化能力进行了评估,通过将数据划分为内部验证集和外部验证集,以测试模型在不同数据分布下的表现。外部验证集来自一个未在训练或内部验证集中出现的独立临床中心,这一设计使得模型能够评估其对未见过数据的适应性。
在模型性能评估方面,我们采用了多种标准分类指标,包括准确率、召回率、特异度、精确度、负预测值和F1分数。此外,我们还评估了受试者工作特征曲线(ROC)和精确-召回曲线(PRC)的面积,以衡量模型的预测能力。结果显示,8,743例(66.4%)手术符合失败标准,其中IOP相关的失败最为常见,占比达到88%。在内部验证集上,1D-CNN模型的ROC面积(AUROC)为76.4%,准确率为71.6%,而随机森林模型在内部验证集上同样表现优异,其AUROC为76.2%,准确率为72.1%。在外部验证集上,随机森林模型的性能略优于1D-CNN,但两者的AUROC均略有下降,降幅在2%至4%之间。这表明模型在面对不同数据分布时,其泛化能力仍有一定的局限。
进一步分析显示,对于IOP相关的失败预测,随机森林模型的AUROC达到0.823,而用于预测药物使用增加的失败和需要再次手术的失败,随机森林模型的AUROC分别为0.797和0.684。这表明随机森林在预测药物相关失败方面表现更佳,而1D-CNN在预测IOP失败方面具有一定的优势。然而,整体来看,随机森林在预测综合失败方面表现出更强的泛化能力,尤其是在外部验证集上,其AUROC始终高于1D-CNN。此外,我们还发现,随着训练数据集的增大,1D-CNN模型的性能逐渐接近甚至超过随机森林模型,但随机森林在所有训练集规模下均优于1D-CNN在外部验证集上的表现。这表明在数据量较小的情况下,随机森林可能更适合,而在数据量较大时,1D-CNN可能更具优势。
为了提高模型的可解释性,我们采用了SHAP(Shapley Additive exPlanations)方法,对随机森林模型在内部和外部验证集上的特征重要性进行了分析。结果显示,IOP、视力、球镜度、联合白内障手术以及手术类型等临床相关特征是预测术后结果的关键因素。这些特征的重要性在不同数据集之间表现出较高的稳定性,表明模型在不同临床环境中仍能依赖相似的特征进行预测。此外,我们还通过排列重要性(permutation importance)分析了每个模型的前五重要特征,发现IOP在所有模型中都是最重要的特征之一,而其他如手术类型、年龄和球镜度等临床特征也频繁出现在模型的前五名中。这一结果表明,模型在预测术后结果时,能够依赖于具有临床意义的特征,从而增强其可信度和实用性。
本研究的一个重要优势在于使用了来自美国多个学术眼科中心的多中心数据集,即Sight Outcomes Research Collaborative(SOURCE)数据库。该数据库收集了经过去标识化的EHR数据,包括详细的结构化信息,如眼科手术和眼检查结果。相比以往的研究,本研究的数据集更加广泛,涵盖了多种类型的青光眼手术,包括滤过手术、微创青光眼手术(MIGS)和睫状体破坏手术等。此外,我们还对不同子群体(如按手术类型、种族、年龄和IOP分类)进行了分析,以评估模型在不同人群中的表现。结果显示,尽管在某些子群体中存在一定的性能差异,但整体来看,模型在不同种族和年龄组中的表现相对稳定,这表明模型具有一定的泛化能力。然而,不同中心的患者群体存在显著的差异,这可能会影响模型的校准和可迁移性,因此测试模型在多样化人群中的表现对于临床决策工具的部署至关重要。
尽管本研究取得了显著进展,但仍存在一些局限。例如,由于EHR数据的局限性,一些患者可能因被转诊至非SOURCE中心而未被纳入研究,导致既往眼科手术信息缺失。此外,部分患者可能在术后前往外部机构进行随访或手术,这可能影响模型的准确性。同时,编码或药物记录可能存在不准确之处,特别是在患者被医生口头告知停药但未在EHR中更新的情况下,这也可能影响模型的训练效果。然而,由于新药物处方通常需要电子订单,因此可以较为准确地记录药物使用情况。此外,由于术前数据在特征工程过程中被总结,可能无法充分反映数据的时间特性。因此,未来的研究可以探索新的模型架构,以更好地整合EHR数据的时间维度,从而捕捉患者病情随时间的变化。这一任务仍然是一个挑战,因为患者病史高度多样化且不规则采样,使得统一的序列建模变得困难。
此外,本研究的数据仅包括结构化数据,未纳入图像和文本数据,而SOURCE数据库正逐步引入这些数据类型。未来的研究可以通过整合这些多模态数据,如光学相干断层扫描、视网膜摄影和视野检查等,来进一步提高模型的预测准确性。多中心数据共享这些数据类型仍面临标准化的挑战,但具有巨大的潜力,能够推动青光眼手术预测算法的发展。此外,利用先进的自然语言处理(NLP)技术,如Transformer模型或长短期记忆(LSTM)网络,对自由文本的手术记录进行分析,也可能成为未来研究的一个重要方向。这些技术已被证明在眼科任务中具有显著的预测能力,能够提供关于手术技术的更详细信息,从而提高模型的解释力和实用性。
本研究的最终结论是,通过利用大规模的多中心EHR数据,我们成功开发了机器学习和深度学习模型,以预测青光眼手术的术后结果。结果显示,1D-CNN和随机森林模型在预测综合手术失败方面表现最佳,而随机森林模型在外部验证集上表现出更强的泛化能力。未来的研究可以进一步探索将文本和图像数据纳入多模态模型中,以提高预测的准确性。这些模型有望成为未来临床应用的基础,帮助青光眼外科医生根据患者的个体情况,优化手术选择,从而改善患者的预后和生活质量。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号