基于医学记录与喉镜图像的多模态深度学习融合网络在声门型癌早期诊断中的突破性研究
《iScience》:A deep learning fusion network trained with medical records and laryngoscopic images in the early diagnosis of glottic carcinoma
【字体:
大
中
小
】
时间:2025年12月11日
来源:iScience 4.1
编辑推荐:
本研究针对声门型癌早期诊断困难、缺乏特异性生物标志物以及医疗资源分布不均等临床挑战,开发了一种融合医学记录和喉镜图像的视觉大语言模型多模态融合网络(VLMN)。该模型在内部测试队列中AUC达到0.971,外部验证中AUC为0.939,显著优于单模态模型,且诊断性能与高级别耳鼻喉科医师相当。该研究为基层医疗机构提供了可靠的AI辅助诊断工具,对改善患者预后具有重要意义。
声门型癌作为喉癌的主要亚型,占喉癌病例的70%以上,其早期诊断直接影响患者治疗效果和生存质量。然而临床实践面临三大难题:早期症状(如声音嘶哑、咽喉异物感)缺乏特异性;喉镜下声带发育不良与早期癌变形态学特征高度相似;窄带成像(NBI)技术受黏膜白斑样病变干扰,导致微血管模式识别困难。更严峻的是,基层医疗机构受限于设备条件和医师经验,早期诊断率不足40%,患者往往确诊时已进展至晚期,出现发声、吞咽、呼吸等功能障碍。
为突破这一瓶颈,中山大学附属第一医院耳鼻喉科医院联合深圳技术大学大数据与互联网学院的研究团队在《iScience》发表了一项创新研究,开发了基于视觉大语言模型的多模态融合网络(Vision Large Language Model based Multimodal Fusion Network, VLMN),首次实现医学记录与喉镜图像的深度融合分析。该研究纳入中国三家医院2015-2024年间的812例经病理确诊的声门病变患者(673例用于训练验证,139例用于外部测试),构建包含10,715张喉镜图像和标准化医学记录的多中心数据集。
研究采用多模态Transformer架构,通过预训练视觉Transformer(ViT)提取喉镜图像特征,利用Llama大语言模型生成标准化句级医学报告,采用对比学习策略实现跨模态特征对齐。为评估临床实用性,研究还设置了人机对抗队列,比较VLMN与不同年资耳鼻喉科医师的诊断性能。
研究团队从电子病历中提取年龄、性别、主诉、现病史等结构化文本,通过提示工程生成标准化诊断摘要。喉镜图像经预处理后输入视觉Transformer提取特征。采用特征级融合策略整合多模态信息,通过交叉熵损失和对比损失联合优化模型。外部验证涵盖不同医疗资源水平的两家医院,人机对抗队列包含100例随机抽样病例。
在内部测试队列中,VLMN模型的AUC值达到0.971(95% CI: 0.968-0.974),显著优于仅使用医学记录的文本模型(AUC: 0.914, p=0.035)和仅使用喉镜图像的图像模型(AUC: 0.791, p<0.0001)。对声带发育不良病变的正确分类率从单模态模型的56%-61%提升至88%,表明多模态融合能有效降低良性病变的误判风险。
决策曲线分析(DCA)显示,当决策阈值概率超过30%时,VLMN模型的临床净收益显著高于"全部治疗"或"全部不治疗"策略,表明该模型能有效平衡早期癌变检出率与避免过度治疗。
在外部测试中,VLMN模型在佛山市第一人民医院(FPHFS)和肇庆市第一人民医院(FPHZQ)分别达到0.956和0.922的AUC值。值得注意的是,尽管FPHZQ医院的喉镜设备相对落后、NBI图像覆盖率低,模型仍保持稳健性能,证明其在医疗资源匮乏地区具备应用潜力。
在与5名低年资和3名高年资耳鼻喉科医师的对比中,VLMN模型的诊断准确率(87.0%)显著优于低年资医师(78.0%, p=0.038),与高年资医师(88.7%)无统计学差异。当低年资医师使用VLMN辅助诊断时,准确率提升至88.0%,接近高年资医师水平(p=0.91),证明该模型能有效弥补经验不足带来的诊断差异。
通过梯度加权类激活映射(Grad-CAM)可视化发现,模型注意力区域与喉镜图像中的病变区域高度重合。文本模态可视化显示模型能聚焦关键临床术语(如声音嘶哑持续时间、呼吸困难、吸烟史等)。图5展示的典型案例中,T2期声门癌患者的医学记录里"症状进行性加重"、"每日吸烟2包"等描述被模型赋予更高权重,印证了其决策逻辑与临床认知的一致性。
本研究揭示了多模态融合在肿瘤早诊中的独特价值:医学记录能捕捉症状演变时序特征(如声音嘶哑进行性加重),而喉镜图像提供形态学证据,二者互补能克服单模态信息局限。特别值得注意的是,研究发现在活检病理与术后病理不一致的病例中(术前活检诊断为发育不良,术后确诊为癌),VLMN模型能通过多模态信息整合减少误判,这对活检取样存在局限性的早期病变具有重要临床意义。
研究同时指出局限性:当前为回顾性研究,需前瞻性临床试验验证;数据集仅包含住院病例可能引入选择偏倚;未来计划纳入HPV状态、环境暴露等更丰富临床指标。
该研究的核心突破在于构建了符合临床诊断逻辑的多模态融合框架,通过可解释的AI决策增强临床信任度。随着医疗AI从"单点突破"向"系统整合"演进,VLMN模型为基层医疗机构的癌症早筛提供了新技术范式,对解决医疗资源分布不均这一全球性难题具有示范意义。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号