《Nature Communications》:Multi-modal AI for opportunistic screening, staging and progression risk stratification of steatotic liver disease
编辑推荐:
本研究针对脂肪性肝病(SLD)全球流行带来的重大公共卫生挑战,开发了一种多模态AI模型MAOSS,通过整合非增强CT(NCCT)图像、影像学生物标志物和血清生物标志物,实现对肝脂肪变性和纤维化的准确检测与分级。研究基于大规模组织病理学(n=968)和放射学确认(n=1103)数据集进行训练,并以组织学(n=660)和MRI-PDFF(n=375)作为金标准验证,结果显示模型在检测轻度至重度脂肪变性(AUC:0.904–0.929)和临床显著纤维化(AUC:0.824–0.888)方面具有高精度。进一步将模型整合至标准临床路径中,可显著提高原发性风险筛查效率,在回顾性队列(n=1192)中多识别36%的纤维化进展风险患者。Cox比例风险模型表明,经优化临床路径识别的中高风险患者肝硬化发生率显著更高(风险比:5.54;95%CI:2.69–11.42),凸显该模型在SLD早期检测与管理方面的潜力。
随着全球生活方式和饮食结构的改变,脂肪性肝病(Steatotic Liver Disease, SLD)已成为最常见的慢性肝病之一,影响约30.1%的全球人口。若不进行有效干预,预计到2040年这一比例将攀升至55.7%。SLD疾病谱广泛,从单纯性脂肪变性到脂肪性肝炎,均可增加进展为晚期肝病(如肝硬化和肝细胞癌)的风险。此外,SLD还被确认为心血管疾病的独立危险因素。近年来,针对SLD的靶向药物已获FDA批准,更多有前景的疗法正在研发中,这些进展凸显了早期检测的迫切性——及时干预可显著改变疾病病理生理轨迹,减轻肝脏和心血管并发症负担。
然而,当前SLD的诊断与筛查工具存在明显局限。肝活检虽是评估肝脂肪变性的金标准,但具有侵入性,难以用于大规模人群的检测与监测。B超检查高度依赖操作者,且对早期脂肪变性缺乏足够敏感性。血清生物标志物(如广泛使用的脂肪肝指数)面临时间需求大、准确性欠佳等挑战。先进影像技术如MRI-质子密度脂肪分数(MRI-PDFF)虽灵敏度高,但成本高昂、可及性差、每次检查耗时较长。振动控制瞬时弹性成像(VCTE)提供了一种非侵入性替代方案,但并非广泛可用,尤其在资源有限的环境中。
计算机断层扫描(CT)在肝脂肪变性和纤维化诊断中已被广泛研究和应用。传统的非增强CT(NCCT)与肝脏脂肪定量已建立良好相关性,并在多项研究中得到验证。值得注意的是,NCCT在检测中度至重度肝脂肪变性方面表现出高可靠性,并且因各种健康问题接受检查的患者广泛采集。如果NCCT扫描能够适应性地准确评估SLD和纤维化风险,将超越其原始诊断意图,为接受NCCT检查的患者提供大规模机遇性肝病筛查的显著附加价值。
尽管前景可观,开发可扩展且稳健的深度学习系统用于同步进行脂肪变性和纤维化分级仍面临挑战。可扩展性是关键限制之一。虽然深度学习已整合至诊断工作流,但大多数研究依赖于传统生物标志物——例如用于脂肪变性定量的肝衰减值,或用于纤维化检测的组合体积参数(如肝段体积比[LSVR]、脾体积[SV]和衰减偏差)。然而,专注于开发能够直接将CT图像映射至双重诊断结果(脂肪变性和纤维化)而无需依赖传统生物标志物的端到端框架的研究有限。此外,缺乏具有活检确认诊断的大规模数据集(这对组织学验证至关重要)严重制约了模型的泛化能力和临床转化。稳健性也需要进一步精炼。现有研究主要集中于孤立的数据模态:要么是影像生物标志物,要么是血清/蛋白质组学标志物。然而,尽管证据表明结合影像与临床数据可提高诊断准确性,但研究多模态整合的却很少。
为了解决这些挑战,研究人员开展了名为"多模态人工智能机遇性肝脂肪变性筛查"(Multi-modal AI for Opportunistic Hepatic Steatosis Screening, MAOSS)的研究。该研究旨在开发和验证一个端到端的多模态深度学习模型,能够灵活整合3D NCCT图像、传统影像生物标志物和血清生物标志物,用于预测和分级肝脂肪变性及纤维化。MAOSS在一个包含病理确认SLD和放射学报告SLD病例的大规模、异质性数据集上进行训练,并在多中心和真实世界数据集中进行验证。此外,研究还进行了AI辅助的阅片者研究,以评估该模型对放射科医生诊断准确性的影响。最终,通过将脂肪变性和纤维化分期能力与临床护理路径对齐,该模型不仅能正确分类SLD患者,还能对其进展为严重慢性肝病(如脂肪性肝炎和晚期肝纤维化)的风险进行分层。这项研究成果发表在《Nature Communications》上。
关键技术方法
研究基于多中心回顾性数据,开发了MAOSS模型。模型输入包括3D NCCT肝脏图像、 demographics、血清实验室检查、体格测试及CT生物标志物等数值特征,允许特征缺失。模型架构包含图像编码器(用于提取3D肝脏NCCT的纹理和图像特征)、数值特征嵌入处理以及提出的缺失感知模态对齐(Missing-Aware Modality Alignment, MAMA)模块,通过Transformer骨干网络进行多模态特征融合与预测。训练策略结合了基于组织学金标准的序数回归学习和基于放射学报告(非金标准)的 curated distillation(提炼)学习,以利用更广泛的数据。模型在内部开发队列(n=2071,含金标准和非金标准子集)上训练,并在独立的内部测试集(n=191)、MRI-PDFF测试集(n=375)、外部多中心测试集(n=347)、增强CT测试集(n=122)以及大规模真实世界数据集(n=18,504)上进行性能评估。此外,还进行了包含11名不同资历放射科医生的阅片者研究,并构建了风险分层队列(n=1192)以评估模型整合到临床路径后的效果。
MAOSS诊断性能评估
MAOSS在内部和外部测试中评估肝脂肪变性和纤维化表现出高性能。对于肝脂肪变性分期(S0 vs ≥S1, ≤S1 vs ≥S2, ≤S2 vs S3),内部测试AUC分别为0.917、0.922、0.923,外部测试AUC分别为0.904、0.934、0.963。对于肝纤维化分期(F0-1 vs ≥F2, ≤F2 vs ≥F3, ≤F3 vs F4),内部测试AUC分别为0.888、0.912、0.941,外部测试AUC分别为0.824、0.905、0.930。模型在MRI-PDFF验证集上也表现出良好的泛化能力。与单模态模型(仅临床或仅图像)和瞬时弹性成像(TE-CAP用于脂肪变性,TE-LSM用于纤维化)相比,MAOSS在大多数比较中显示出显著优势,特别是在检测中度以上脂肪变性和晚期纤维化方面。消融研究表明,所提出的组件(如Boosted Distillation、纹理编码、多模态学习)对模型性能有积极贡献。
模型可解释性
利用积分梯度(Integrated Gradients, IG)方法对MAOSS进行可视化解释,结果显示模型学习到的特征与肝脂肪变性引起的改变相关。IG值的分布在不同脂肪变性分级间存在差异,且其空间分布与MRI-PDFF测量的脂肪积累区域有良好对应,表明MAOSS不仅能区分脂肪变性等级,还能有效识别肝脏内发生脂肪变性的感兴趣区域。
真实世界机遇性筛查性能
MAOSS在大型真实世界NCCT数据集(包含体检、门诊、住院、急诊等不同场景)上进行评估,与放射科医生的报告相比,在识别脂肪变性(HS)和非脂肪变性(Non-HS)方面表现出高度一致性。在不同场景下,MAOSS识别HS的召回率(即与放射报告的一致性)在92.1%至96.6%之间,识别Non-HS的精确度在82.4%至99.4%之间。Cohen's kappa值显示中度至高度的一致性。MAOSS在不同临床场景和扫描类型(胸片CT vs 腹部CT)下均表现出可靠的 discriminatory power(判别力)。
MAOSS增强的阅片者研究
包含11名不同级别放射科医生的多阅片者多病例研究表明,在MAOSS辅助下,放射科医生诊断脂肪变性的AUC显著高于独立诊断,特别是在区分S0与≥S1以及≤S1与≥S2时。MAOSS辅助显著提高了放射科医生的诊断敏感性,同时保持了高特异性。各级别放射科医生的诊断平衡准确率均有提升。
原发性风险分层
将MAOSS整合到美国肝病研究协会(AASLD)标准临床路径中,形成MAOSS路径,用于筛查有进展风险的SLD患者。在包含1192名患者的风险分层队列中,与基于瞬时弹性成像的AASLD路径相比,MAOSS路径识别出更多的中高风险患者(21.9% vs 6.9%),并且在识别有脂肪性肝炎进展风险(NAS≥4且纤维化≥F2)和晚期纤维化(≥F3)风险的患者方面,表现出显著更高的敏感性和阴性预测值(NPV)。对236名患者(基线纤维化F0-F3)的纵向随访分析显示,根据MAOSS路径划分的中高风险组,其肝硬化的累积发生率显著高于低风险组。Cox回归分析表明,MAOSS路径识别出的中高风险是后续发生肝硬化的独立预测因子(风险比5.56)。
研究结论与意义
本研究开发的MAOSS模型是一种端到端的多模态深度学习工具,能够利用广泛可及的NCCT扫描和血清检验数据,实现对肝脂肪变性和纤维化的高精度、可扩展筛查与风险分层。研究通过大规模金标准验证证实了其卓越性能,其诊断准确性可与先进的蛋白质组学方法相媲美,且优于现有的传统CT生物标志物和放射科医生独立诊断。MAOSS不仅提升了放射科医生的诊断能力,更重要的是,当其整合到标准临床路径中时,能够更有效地识别出有进展为严重肝病风险的患者群体,为早期干预和管理提供了有力工具。模型的成功开发和应用,为应对日益严峻的SLD公共卫生挑战提供了新的解决方案,展示了人工智能在提升医疗诊断效率和精准医疗方面的巨大潜力。尽管存在一些局限性(如真实世界评估中假阴性率的潜在低估、风险分层敏感性仍需提高、纵向队列样本量相对有限),但本研究为SLD的机遇性筛查和管理模式转变奠定了坚实基础,预示着AI驱动的新型临床路径在改善患者预后方面的广阔前景。