文本引导扩散模型助力罕见甲状腺癌亚型 AI 诊断模型升级

【字体: 时间:2025年05月14日 来源:Nature Communications 14.7

编辑推荐:

  在肿瘤影像诊断中,人工智能(AI)对罕见肿瘤的诊断面临挑战,如甲状腺癌罕见亚型因数据稀缺易误诊。研究人员提出文本驱动生成方法,构建 Tiger Model。结果显示该模型提升了诊断指标,在多数据集表现良好,为罕见肿瘤检测带来新希望。

  在医学领域,人工智能的发展为临床决策提供了有力支持,但它在面对罕见疾病诊断时却困难重重。就拿甲状腺癌来说,虽然常见的乳头状甲状腺癌(PTC)诊断已有较为成熟的流程,然而罕见亚型,像滤泡状甲状腺癌(FTC)、髓样甲状腺癌(MTC)和未分化甲状腺癌(ATC)等,由于发病率低,导致相关数据极为稀缺,样本多样性严重不足。这使得在训练 AI 模型时,难以涵盖疾病的所有特征,从而造成检测率低、误诊和漏诊率高的问题,严重影响患者的预后,甚至可能导致医疗 AI 的不公平性。而且,这些罕见亚型的误诊或漏诊后果严重,比如 MTC 容易发生区域淋巴结和远处器官转移,若不能准确诊断,将极大地影响治疗效果。因此,如何提高 AI 对罕见甲状腺癌亚型的诊断能力,成为医学领域亟待解决的重要问题。
上海交通大学生命科学与生物技术学院生物信息学与生物统计学系等多机构的研究人员,针对这一难题开展了深入研究。他们提出一种文本驱动的生成方法,构建了 Tiger Model(文本引导医学图像生成深度学习模型),并进行了一系列实验验证。该研究成果发表在《Nature Communications》上,为罕见甲状腺癌亚型的诊断带来了新的曙光。

研究人员为开展此项研究,运用了多种关键技术方法。首先,他们从 10 家医院收集了甲状腺超声报告和病理报告,建立了包含 40,571 名患者的数据集,这为后续研究提供了数据基础。其次,构建了疾病知识库,详细梳理了常见和罕见亚型的成像特征差异。最后,利用文本引导的生成框架,设计并训练了 Tiger Model,通过该模型生成具有真实多样性的罕见亚型特征图像。

研究结果


  1. Tiger Model 概述:研究人员基于疾病亚型特征差异,利用疾病知识构建和训练 Tiger Model。该模型分为粗训练(Coarse - Training)和细训练(Fine - Training)两个阶段,通过从良性和常见肿瘤转移特征来重建罕见亚型肿瘤特征,并设计了详细的前景(FG)和背景(BG)特征控制方法,以增强生成图像的真实性和严谨性。
  2. 数据收集和实验设计:收集了大量甲状腺超声和病理数据,涉及多种甲状腺疾病亚型。为验证模型泛化能力,以甲状腺癌四种亚型的良恶性诊断任务为切入点,同时还训练了甲状腺和结节分割网络辅助研究。
  3. 图像生成质量的定量分析:通过结构相似性指数(SSIM)、CLIP - MMD(CMMD)、梯度相似性(GS)和密度与覆盖率(D&C)等指标评估,Tiger - F 模型在各项指标上均优于稳定扩散模型(SD - S),表明其生成的图像更真实、结构信息保留更好、聚类效果更优。
  4. 医生对图像生成质量的评估:通过三项图灵测试实验,邀请 50 名超声医生参与评估。结果显示,医生对 Tiger - F 生成图像的真实性判断准确率高达 92.2%;在根据描述选择正确图像的测试中,Tiger - F 模型相比其他模型, junior 和 senior 医生的平均准确率分别提高了 31.09% 和 37.01%;在识别特定放射学特征的测试中,Tiger - F 生成样本的特征识别准确率与真实样本相近,且优于其他对比模型。
  5. 罕见甲状腺癌亚型的诊断 - 下游任务:在罕见亚型甲状腺癌的良恶性二元分类任务中,Tiger - F 模型相比基线方法,在 FTC 和 MTC 亚型的预测性能上有显著提升,AUC 分别增加了 14.64% 和 9.45%,敏感性和特异性也有明显提高。此外,Tiger Model 在不同样本量比例的分类任务中均表现出较高的预测效率,且生成数据与真实数据分布相似,可有效扩充真实数据样本。
  6. Tiger Model 在公共数据集上的外部评估:在私有和公共超声数据集上进行外部评估,Tiger - F 模型在良性 - 恶性二元分类任务中,相比其他模型,在 ATC 和乳腺癌罕见亚型(ILC 和 PCB)数据上的测试 AUC 和校准度均有显著提高。在多类分类任务中,使用 VinDr - PCXR 儿科胸部 X 射线数据集进行测试,Tiger - F 方法在四类分类任务中,ACC 提高了 20.3%,部分类别的 AUC 提升明显,Brier Score 降低了 44.7%,验证了模型架构的有效性。

研究结论与讨论


本研究通过训练和验证文本引导的图像生成模型 Tiger Model,显著提升了对罕见甲状腺癌亚型的诊断能力。Tiger Model 利用临床知识引导图像生成,有效解决了罕见病样本稀缺导致的问题,增强了诊断模型在不同亚型数据上的泛化能力。与传统图像生成方法相比,文本引导的图像增强技术能产生更多样、临床相关性更强的数据,大幅提升模型的预测性能。

Tiger Model 在生成图像的真实性、多样性和对特征细节的控制方面表现卓越,通过图灵测试验证了其临床可理解性和实用性。该模型不仅有助于医生更准确地识别罕见疾病的详细特征,降低误诊和漏诊风险,还能辅助医生可视化和解释决策过程,促进医生知识更新。此外,研究还验证了 Tiger Model 的少样本生成能力,即使在少量数据情况下也能生成高质量图像。

不过,该研究也存在一定局限性。研究范围仅局限于甲状腺癌亚型,未来应拓展到更多罕见疾病和患者亚群;未深入分析生成样本数量与预测准确性的关系;部分生成样本存在质量问题。但总体而言,Tiger Model 为罕见疾病和亚群的分析提供了新方法,有望推动医学 AI 在临床实践中的广泛应用,提升医疗服务的公平性和质量,对未来罕见病研究和健康政策制定具有重要意义。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号