基于磁控胶囊内镜与视觉语言模型的AI驱动幽门螺杆菌三分类诊断系统:一项多中心验证研究及其在胃癌风险分层中的意义

【字体: 时间:2025年10月14日 来源:Frontiers in Microbiology 4.5

编辑推荐:

  本研究开发并验证了一种名为MC-CLIP的视觉语言基础模型,用于通过磁控胶囊内镜(MCCE)实现幽门螺杆菌(H. pylori)感染状态(现症感染、非感染和既往感染)的全自动三分类诊断。该模型在大型图像-文本数据集上预训练后经专家标注图像微调,能够自主选择代表性图像进行端到端分类,在多中心验证中展现出高准确性(内部验证89.6%,外部验证86.6%),其敏感性和特异性均显著优于资深和内镜医师,尤其在检测既往感染和识别根除治疗后黏膜细微变化方面表现突出,为基于MCCE的胃癌筛查提供了更可靠的工具。

  
引言
胃癌(GC)是全球癌症相关死亡的第三大原因,尤其在东亚国家造成严重的健康负担。通过食管胃十二指肠镜(EGD)早期检测胃癌并成功根除幽门螺杆菌(H. pylori)——胃癌的主要致癌原,可有效降低胃癌相关死亡率。目前,技术进步使得内镜胃癌筛查能够以无创且舒适的方式进行。先前的大型基于人群的横断面研究表明,磁控胶囊内镜(MCCE)在胃癌筛查中表现良好。
尽管MCCE具有安全性和舒适性,但通过MCCE诊断为胃癌或发现高度怀疑胃癌或高级别癌前病变的患者仍需要后续进行EGD以确认诊断。因此,对于基于MCCE的人群胃癌筛查,通过将幽门螺杆菌感染状态准确分为三类(即现症感染、非感染和既往感染(已根除))进行风险分层是必要的。先前的工作表明,基于京都胃炎分类(KCG),使用MCCE对幽门螺杆菌感染状态进行三分类诊断可以很好地完成,准确率达到80.3%,与EGD研究相当。
然而,通过MCCE进行幽门螺杆菌感染的三分类诊断是一项具有挑战性的任务,它不仅耗时,还需要相当水平的专业知识。人工智能(AI)在临床环境中的整合有望改善这种情况。基于卷积神经网络(CNN)模型的AI系统已应用于胃肠内镜的各个方面,包括幽门螺杆菌感染的诊断。
尽管它们广泛使用且在幽门螺杆菌感染的二元诊断中取得了优异结果,但ResNet-50和Inception-v3等CNN架构对于三分类幽门螺杆菌感染诊断存在固有局限。它们的单图像处理范式忽略了胃区域之间的上下文关系,这是一个关键缺陷,因为三分类诊断需要综合来自多个解剖部位的发现。此外,手动图像选择的需求造成了操作者依赖的变异性,特别是对于根除后病例,细微的黏膜变化可能被忽略。这些缺点凸显了需要能够分析全面图像集同时最小化人为干预的端到端系统。
AI算法的快速技术进步导致了大型语言模型(LLM)的出现,这是一种在全球范围内非常成功的模型。LLM,例如对比语言-图像预训练(CLIP),能够同时处理多种语言和图像,实现端到端诊断。先前的研究表明,LLM在计算病理学任务中表现良好,但它们是否适用于确定幽门螺杆菌感染的三分类诊断尚不清楚。
本研究旨在开发并验证一种视觉语言基础模型(MC-CLIP),用于使用MCCE自动进行幽门螺杆菌感染状态的三分类诊断。我们设想该模型主要作为内镜医师的辅助工具。其输出旨在直接为临床决策提供信息,例如对“现症感染”启动根除治疗,或为“既往感染”确定适当的内镜监测间隔,从而整合到舒适的MCCE胃癌筛查路径中以提高效率。
方法
研究设计
这是一项多中心研究,经中国人民解放军总医院伦理委员会批准(IRB编号:2021-674-02)。研究参与者在2021年12月至2024年5月期间入选。对于训练队列和内部验证队列,我们招募了到中国人民解放军总医院第二医学中心进行MCCE检查的个体。外部验证队列从另外两个三级中心(中国人民解放军总医院第七医学中心、北京大学第一医院)招募。
所有招募的参与者在研究前都接受了MCCE以及尿素呼气试验(UBT)或血清学检测以筛查幽门螺杆菌抗体。训练队列回顾性招募自2021年12月至2023年10月期间接受MCCE检查的患者。为了验证,内部和外部验证队列是通过在2024年1月至2024年8月期间连续纳入自然分布的病例建立的。
那些有胃部手术史、图像质量差、胃准备不充分以及最近服用影响胃黏膜药物(如抗生素或质子泵抑制剂/PPI)的人被排除在研究之外。
MCCE程序和幽门螺杆菌感染状态的定义
本研究使用NaviCam MCCE系统(安翰科技(武汉)股份有限公司)进行胃癌筛查,所有MCCE程序均按照先前出版物中描述的指南进行。
幽门螺杆菌感染状态三个类别的定义如下:UBT低于4.0 U/mL、声称无幽门螺杆菌根除史且血清学抗体检测阴性的个体被定义为“非感染”;而声称有根除史且血清学抗体检测阳性的个体被定义为“既往感染”。UBT等于或高于4.0 U/mL的个体被归类为“现症感染”,无论其根除史如何。
训练数据集
为了对模型进行预训练,我们广泛收集了来自123,543例MCCE病例的超过2,427,475个MCCE图像-文本数据来构建一个对比语言-图像预训练(CLIP)模型。CLIP模型是由Open AI开发的一种多模态预训练神经网络,致力于通过对比研究调查图像和文本之间的对齐关系。这个MC-CLIP包括一个图像编码器和一个文本编码器,并通过微调以最大化正确文本-图像对的余弦相似度并最小化不正确文本-图像对的余弦相似度。我们使用了三个Nvidia A100 GPU进行模型训练,迭代了50个周期,并最终选择最佳模型作为MCCE图像的预训练模型。
随后建立了幽门螺杆菌分类模型用于后训练。两位MCCE专家从训练队列中864个个体的数据中提取了总共40,695张三分类幽门螺杆菌感染状态的图像。两位专家之间的标注差异通过相互讨论解决。根据KCG,幽门螺杆菌感染状态的特征性发现大多位于胃体(弥漫性发红、黏膜肿胀、集合静脉的规则排列、RAC)和胃窦(结节性、地图状发红)。提取这些位置的图像来训练模型。
在训练幽门螺杆菌分类模型,即多层感知器(MLP)模型之前,我们对幽门螺杆菌分类数据集中的每个案例应用了数据增强技术。每张图像使用随机旋转、水平和垂直翻转以及随机失真等技术进行了大约10倍的数据增强。使用MC-CLIP模型的图像编码器对图像进行编码,产生30 * 512的特征向量,作为幽门螺杆菌分类模型的输入数据。
验证数据集
数据集验证的第一步是图像选择。基于上述MC-CLIP模型,我们使用文本提示从每个个体的MCCE数据中检索所有胃体和胃窦图像。将这些图像与预定义的幽门螺杆菌图谱(源自训练集)进行相似性检索,保留余弦相似度>0.96的图像——该阈值是根据与专家标注图像一致性>95%的试点分析选择的。在去除冗余或曝光不良的图像后,我们选择了30张图像,包括20张胃体图像和10张胃窦图像(反映了京都分类对这些区域的重视)。如果初始池超过30张图像,则选择相似度最高的前30张;如果可用图像较少,则重复使用相似度最高的图像以确保一致的输入维度。
第二步是图像分类。我们使用如前所述的MLP来设置一个分类器,将MCCE图像分类为非感染、既往感染和现症感染。MC-CLIP图像编码器生成的特征向量维度为1 * 512。对第一步中选择的30张图像进行特征提取,创建一个30 * 512维的特征向量。同时处理这30张图像后,MLP输出每个患者的三分类幽门螺杆菌感染结果。
资深和初级医师的诊断性能
将内部验证队列的MCCE数据发送给一名资深医师(EGD经验>10,000例,MCCE经验>2000例)和一名初级医师(EGD经验3,000~5,000例,MCCE经验<500例)进行幽门螺杆菌感染状态的三分类诊断。两位医师均未参与训练阶段,并且对临床结果和AI诊断均不知情。每位医师在审阅每个MCCE病例的视频和图像后独立做出其三分类诊断。
样本量计算和统计分析
样本量计算使用R软件包(版本4.3.2)完成。根据我们的试点数据,幽门螺杆菌感染状态的预期患病率为45%非感染、30%现症感染和25%既往感染。为了以90%的效力(α=0.05)检测类别之间0.10的最小AUC差异,我们需要总共196个验证病例。
统计分析比较了不同组之间的诊断性能指标(敏感性、特异性、PPV和NPV),结果以百分比和95%置信区间(CI)报告。使用McNemar检验比较MC-CLIP模型与每位内镜医师的这些指标,因为两者都是在同一组患者上进行评估的。除了p值,还计算了风险差(RD)及其95%置信区间(CI)以量化MC-CLIP模型与内镜医师之间性能指标的差异幅度。RD从配对的2×2列联表中得出,其CI使用Wald方法计算。
对于基线特征,连续变量(如年龄)使用单因素方差分析(ANOVA)进行比较,分类变量(如性别分布、幽门螺杆菌状态)使用卡方检验进行比较。所有统计检验均为双尾,p值小于0.05被认为具有统计学意义。
所有统计分析,包括McNemar检验和风险差(RD)与置信区间的计算,均使用R软件(版本4.3.2;R统计计算基金会)进行。配对比例的分析使用了stats包(版本4.3.2;用于McNemar检验)和PropCIs包(版本0.3-0;用于根据配对数据计算风险差和置信区间)。混淆矩阵使用Python(版本3.10.12)和scikit-learn库(版本1.2.2)生成。
结果
研究参与者的招募和基线特征
对于训练队列,最初评估了2021年12月至2023年10月期间接受MCCE检查的共1,012名个体的资格。应用排除标准后——包括胃切除术史(n=48)、检查前4周内近期使用质子泵抑制剂或抗生素(n=67)、以及图像质量差不足以分析(n=33)——最终共有864名符合条件的参与者被纳入训练队列。其中,384人(44.4%)为非感染,224人(25.9%)为既往感染,256人(29.6%)为现症感染。
对于内部验证队列,筛选了2024年1月至2024年8月期间连续纳入的252个病例。其中,30例因近期使用PPI/抗生素(n=13)、图像质量不足(n=12)或既往胃部手术史(n=7)被排除,剩下220名符合条件的个体。其中,101人为非感染,49人为既往感染,70人为现症感染。对于外部验证队列,筛选了来自两个参与三级中心的244个病例。排除了近期用药(n=15)、图像质量差(n=13)和胃切除术史(n=8)的病例,最终得到208名符合条件的参与者用于最终的外部验证队列,分为94例非感染病例、51例既往感染病例和63例现症感染病例。
训练队列、内部验证队列和外部验证队列患者的平均年龄分别为53.2岁、54.6岁和53.8岁。
MC-CLIP的内部与外部验证性能
MC-CLIP模型在内部和外部验证队列中均表现出稳健且一致的诊断性能。MC-CLIP在内部验证集上的总体诊断准确率为89.55%(95% CI: 85.5–93.6%)(197/220),在外部验证集上为85.58%(95% CI: 80.8–90.3%)(178/208)。非感染的诊断准确率内部为91.4%,外部为89.9%;既往感染为90.0%对87.0%;现症感染为96.4%对94.2%。最显著的下降是既往感染的敏感性(从83.7%降至72.5%)。特异性保持稳定(既往感染为91.8%对91.7%)。
MC-CLIP与医师诊断性能的比较分析
内部验证队列
MC-CLIP模型对非感染的总体诊断准确率为91.4%(95% CI: 87.6–94.2%),对既往感染为90.0%(85.5–93.4%),对现症感染为96.4%(93.1–98.2%),显著优于资深和初级医师。值得注意的是,MC-CLIP对既往感染表现出更高的敏感性(83.7% 对 71.4%;RD: 12.3, 95% CI: 2.1–22.5%;p<0.05)和PPV(74.5% 对 59.3% 和 44.3%,p<0.05),并且在所有类别中都具有更高的特异性(例如,现症感染为98.7% 对 98.0% 和 92.0%)。
外部验证队列
MC-CLIP保持了稳健的性能,非感染、既往感染和现症感染的准确率分别为89.9%(85.1–93.4%)、87.0%(81.9–91.0%)和94.2%(90.1–96.9%)。虽然资深医师对非感染的敏感性相当(91.5% 对 89.4%,p=0.541),但MC-CLIP对现症感染(90.5% 对 81.0%,p=0.002)和既往感染(72.5% 对 68.6%,p=0.493)分别表现出显著和中等程度更高的敏感性。
年龄分层亚组分析
我们进行的年龄分层亚组分析进一步显示,在内部和外部验证队列中,MC-CLIP对老年患者(≥60岁)既往感染的诊断性能显著低于年轻个体(<60岁)。值得注意的是,既往感染的敏感性在内部队列中从91.9%下降到58.3%(p<0.001),在外部队列中从80.0%下降到53.9%(p=0.011)。相比之下,该模型在现症感染和非感染类别中 across age groups 保持了稳健且相当的性能,在大多数比较中未观察到敏感性或特异性的统计学显著下降。
说明性病例
呈现了三种不同幽门螺杆菌感染状态的代表性病例,每个病例都展示了特征性的KCG特征。MC-CLIP和资深医师对所有这3个病例都做出了正确诊断,但初级医师将既往感染病例误诊为现症感染。
展示了一个具有挑战性的既往感染病例,其中缺乏特定的发现地图状发红。MC-CLIP识别出细微的黏膜形态学变化,并在整合了30张图像的特征后正确地将该病例分类为既往感染,而资深和初级医师,无论其专业水平如何,由于孤立的模糊发现而将其误诊为非感染。
讨论
人工智能近年来得到广泛应用,其在医疗领域的应用产生了许多积极影响,包括提高诊断效率、促进医疗同质化和降低医疗成本。胃肠内镜是AI在医疗领域应用的关键领域。能够辅助检测结肠息肉的商业化AI系统,包括GI Genius(美敦力)、EndoBRAIN(AI Medical Service)和ENDO-AID(奥林巴斯公司),目前已在临床实践中可用。然而,尚未报道针对幽门螺杆菌感染状态内镜三分类诊断的成熟且商业化的AI系统。虽然现有的用于内镜幽门螺杆菌检测的AI模型显示出前景,但需要解决两个关键挑战以进行改进。
首先,在这些研究中,AI对幽门螺杆菌感染状态的三分类诊断准确性显著低于二元分类。对于胃癌筛查,通过内镜准确确定幽门螺杆菌的既往感染状态是必不可少的。这种类型的早期胃癌很容易被忽视,需要包括背景黏膜形态(萎缩和肠上皮化生)在内的全面评估来评估胃癌风险。此外,幽门螺杆菌根除后个体的内镜随访策略也与其他两个分类类别的个体明显不同。不幸的是,先前研究中既往感染的诊断敏感性范围在40%~65%之间,这显著削弱了真实世界实践中胃癌筛查的性能。
其次,如前所述,传统的CNN在幽门螺杆菌感染诊断方面存在关键局限:(1)碎片化评估——孤立分析单张图像无法整合准确分期所必需的跨区域特征,因为病理体征通常跨越多个胃区;(2)选择主观性——依赖医师图像预选引入了观察者间的变异性,这对于根除后的细微变化尤其具有挑战性。这些限制阻碍了可靠的三分类,因为临床诊断本质上需要综合来自不同解剖部位的发现,这是单图像CNN范式根本缺乏的能力。
为了提高MCCE筛查胃癌的能力,开发基于AI的幽门螺杆菌感染状态三分类是必要但困难的。MCCE捕获的胃图像数量远远超过传统EGD,这使得建立这样的AI分类模型更具挑战性。大型语言模型在AI辅助病理诊断领域展示了卓越性能。因此,我们正在探索应用这项尖端技术来构建用于MCCE的三分类幽门螺杆菌分类模型。
我们开发的MC-CLIP在训练和验证阶段都实现了技术突破。在训练阶段,预训练模型建立在包含数十万例MCCE病例、超过200万对视觉-语言对齐的数据集上,与先前的CNN模型相比,训练效率显著提高。在验证阶段,MC-CLIP能够根据先前构建的幽门螺杆菌模板自主地从大量个体MCCE数据中识别图像,并以端到端的方式输出每个患者的结果,这是一个无需医师主导图像预选的诊断工作流程。
这项研究的结果表明,我们的MC-CLIP方法实现了高度准确的幽门螺杆菌感染状态三分类诊断。内部和外部验证队列的总体准确率分别为89.6%和85.6%。在既往感染患者的诊断性能方面差异更为显著;MC-CLIP在内部和外部验证队列中的敏感性分别为83.7%和72.5%,而资深医师的敏感性则低得多,分别为71.4%和68.6%。
根据KCG,现症感染和非感染患者都呈现许多特征性内镜发现,但既往感染患者除地图状发红外缺乏特定的内镜发现。因此,既往感染个体中地图状发红的缺失构成了重大的诊断困境。例如,如所示,既往感染胃的胃体黏膜表面仅表现出细微变化,而胃窦的形态和表面黏膜特征强烈提示未感染状态。即使是资深医师也可能将此病例诊断为非感染。与先前对单张图像进行诊断然后汇总结果以得出每个患者诊断的CNN模型不同,MC-CLIP通过联合分析30张选定的图像直接提供每个患者的诊断,从而提高了既往感染的诊断敏感性,其表现超过了我们研究中的资深医师和先前研究中的CNN模型。
这项研究有几个优势。首先,这项多中心研究设计严谨,样本量计算充分,训练集数据量充足,验证集包含内部和外部验证子集。使用内部和外部验证集数据将MC-CLIP的诊断结果与不同专业水平的医师进行了比较。其次,这是第一个用于基于MCCE的幽门螺杆菌感染三分类的视觉-语言基础模型(CLIP)。医师和AI工程师进行了深度合作,克服了基于CNN方法的关键局限,实现了端到端自动化,总体准确率达到89.6%。第三,我们先前评估KCG对MCCE适用性的工作为本研究幽门螺杆菌感染分类模型的训练奠定了坚实基础。
这项研究确实有几个局限性。首先,在外部验证队列中观察到的诊断准确性适度下降反映了真实世界临床实践中固有的异质性,并强调了外部验证对于评估模型泛化能力的必要性。其次,随后的年龄分层分析显示,对老年患者(≥60岁)既往感染的诊断敏感性显著降低。这种下降可能归因于与年龄相关的黏膜变化——如生理性萎缩、肠上皮化生和药物诱导的改变——这些变化可能掩盖根除后的细微特征并使准确分类复杂化。不幸的是,老年亚组中既往感染病例数量有限,无法得出更明确的结论,这突显了未来需要对更大的老年队列进行研究以提高模型在该人群中的性能。
此外,由于研究参与者仅招募自中国北方城市人群,MC-CLIP对其他种族、地理区域和社会经济背景的普适性仍不确定,需要在不同人口统计学环境中进一步研究。最后,幽门螺杆菌的自发根除发生在一定比例的普通人群中,尽管比率很低(<1%)。然而,我们采用的临床诊断金标准可能错误地分类了少数研究参与者的真实感染状态。错误分类的可能性是我们研究和真实世界临床实践的一个局限性。未来采用前瞻性、纵向设计和更明确诊断试验的研究可以进一步细化真实情况。
MC-CLIP模型有望整合到临床工作流程中,例如作为预筛分诊工具优先处理需要医师审阅的MCCE病例,或作为在内镜解读过程中提供实时注释的决策支持系统。这可以提高效率并减少对既往感染细微形态学变化的漏诊。然而,在广泛采用之前必须解决几个挑战,包括需要监管批准、与现有医院信息系统无缝集成,以及通过可解释AI(XAI)技术克服深度学习模型的“黑箱”性质以建立临床信任。此外,通过稳健、合规的部署架构确保数据隐私和安全至关重要。
未来,我们相信大型语言模型(LLM)将继续推动AI在医疗领域应用的边界。使用LLM整合内镜图像和多模态临床记录有望开发出卓越的胃癌风险评估工具,从而从根本上重塑当前的筛查实践。
总之,MC-CLIP展示了出色的诊断性能,特别是在既往感染方面,突出了其在基于MCCE的胃癌筛查中的强大应用潜力。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号