
-
生物通官微
陪你抓住生命科技
跳动的脉搏
基于预训练基础模型的迁移学习算法在慢性鼻窦炎术后内镜图像分析中的应用研究
【字体: 大 中 小 】 时间:2025年07月28日 来源:BioMedical Engineering OnLine 2.9
编辑推荐:
本研究针对慢性鼻窦炎(CRS)术后评估主观性强、随访依从性差等临床挑战,开发了基于内镜图像的预训练基础模型迁移学习框架。通过构建包含"息肉"、"水肿"和"光滑"三种状态的CRS术后内镜图像数据集,采用ViT-B/32网络结合Endo-FM预训练模型,实现了91.17%的准确率和0.97的AUC值,较传统方法提升4-15%,为CRS术后标准化评估提供了可重复的AI解决方案。
慢性鼻窦炎(CRS)困扰着全球约8%的人口,在中国患者数量高达1.1亿。当药物治疗失败时,内镜鼻窦手术(ESS)成为重要选择,但术后3-6个月的恢复期评估却面临两大难题:一是医生通过内镜观察手术腔状态时存在强烈主观性,相同表现可能得出不同结论;二是患者需要频繁往返医院进行内镜检查,在快节奏社会中随访依从性往往难以保证。这些痛点严重影响了CRS的规范化全程管理。
上海理工大学健康科学与工程学院联合复旦大学附属眼耳鼻喉科医院的研究团队在《BioMedical Engineering OnLine》发表创新成果,提出基于预训练基础模型的迁移学习算法。研究收集了2000张术后内镜图像,将其分为"息肉"、"水肿"和"光滑"三类,采用ViT-B/32网络架构,对比了从零训练(Scratch)与CLIP、MedSAM、Endo-FM三种预训练模型的迁移学习效果。关键技术包括:多中心回顾性图像数据集构建(复旦大学附属眼耳鼻喉科医院和复旦大学附属中山医院)、Vision Transformer(ViT)网络优化、多模态预训练模型参数迁移策略,以及微平均/宏平均多分类评估体系。
【AI模型性能】
通过8:1:1划分数据集,Endo-FM预训练模型表现最优。在区分"光滑"与异常状态(水肿+息肉)时达到91.17%准确率(95%CI 86.95-96.52)和0.97 AUC值,特异性86.35%,敏感性91.85%。而在识别"息肉"与其他状态的二分类任务中,准确率提升15%(p<0.05),证明内镜专业预训练模型的特征提取优势。

【可视化验证】
注意力热图显示模型能准确定位病变区域(如图3),息肉和水肿的判别依据与临床决策特征高度吻合,证实算法具有临床可解释性。

【技术突破】
研究首次将医疗基础模型(MedSAM)和内镜专用模型(Endo-FM)应用于CRS领域,相比传统CNN方法,ViT架构在有限数据下展现出更强泛化能力。通过多项式学习率调度和交叉熵损失优化,模型在样本量仅400张/类的条件下仍保持稳定性能。
【临床价值】
该成果为CRS数字化诊疗开辟了新路径:一方面通过标准化AI评估减少医生间诊断差异;另一方面为未来家用内镜的远程随访奠定技术基础。随着内镜设备的小型化,患者可居家拍摄手术腔图像,由云端模型自动分析并给出干预建议,这将显著提高随访便捷性和管理质量。
研究团队指出,下一步将构建更大规模的鼻内镜专用数据集,并探索模型在视频动态分析中的应用。这项由国家级科研项目(国家自然科学基金82371123等)支持的工作,标志着人工智能在耳鼻喉科慢性病管理中的创新突破。
生物通微信公众号
知名企业招聘