语义结构保留技术助力多模态胶质瘤精准诊断

【字体: 时间:2025年03月01日 来源:Scientific Reports 3.8

编辑推荐:

  为解决多模态医学图像分析问题,研究人员提出 RFPMSS 方法,提升了胶质瘤诊断性能。

  在医疗领域,多模态数据融合就像一场 “信息拼图” 游戏,将来自不同模态(如医学影像和文本报告)的信息拼接在一起,以获得更全面、准确的疾病诊断。然而,目前这场 “游戏” 却遇到了重重困难。一方面,医学图像和自然图像之间存在的领域差异就像拼图中的 “异形块”,给诊断带来干扰,降低了诊断的准确性。另一方面,尽管自我监督学习和表征转移技术不断发展,但数据集规模有限、标注效率低下的问题依旧突出。手动标注不仅复杂,还容易出错,哪怕是一个小疏忽,都可能导致标签提取出现重大偏差,进而影响诊断的准确性和可扩展性。
为了攻克这些难题,来自山西工商学院计算机信息工程学院、山西省肿瘤医院、汾阳医院、山西省人民医院等机构的研究人员展开了深入研究。他们提出了一种名为 “Review of Free-Text Reports for Preserving Multimodal Semantic Structure(RFPMSS)” 的方法,该研究成果发表在《Scientific Reports》上。
研究人员在研究中用到了多个关键技术方法。在模型构建上,以医学图像 Transformer 为骨干网络,将多模态医学图像(CT、MRI、病理图像等)处理成特定大小的图像块输入模型,利用其捕捉全局上下文信息的优势进行特征提取。通过引入改进的 Sinkhorn-Knopp 算法(Multi-SK)解决多锚分配问题,学习样本间关系并保留模态特定语义结构。采用交叉监督学习策略,从放射学和病理学的自由文本报告中获取监督信号,实现图像和文本模态的对齐,增强模态融合效果。研究使用的样本队列来自 BraTS2021 数据集、UPENN-GBM 数据集以及山西省人民医院、山西省肿瘤医院和山西汾阳医院收集构建的包含 1016 例患者信息的数据集(EndocrinePatientData)。
下面来看具体的研究结果:
  1. 与现有技术对比:在多个零样本任务(如 MRI 到 CT、CT 到 MRI、病理到 MRI、病理到 CT 检索等图像到图像任务,以及文本到图像、图像到文本检索任务)中,RFPMSS 均优于当前最先进的模型。例如在 BraTS2021 数据集的病理到成像任务中,其在中位数排名上提高了 3% ;在文本到图像检索任务中,在 BraTS2021 数据集上使基线模型的中位数和平均排名提高了 3% ,召回率指标 R@5 和 R@10 也有所增加。这表明 RFPMSS 能更有效地处理多模态医学信息,提升诊断性能。
  2. 可视化分析:通过对联合多模态特征和语义结构的可视化发现,RFPMSS 能有效对齐不同模态信息,使各模态在肿瘤特征表示上具有较高相似性。在 CT 扫描、MRI 图像、病理切片和相关文本报告的语义结构分布可视化中,锚点分配展示了各模态在肿瘤相关结构表示上的相似性,说明该方法能在不同信息通道间保留并对齐语义结构,增强了跨模态肿瘤分析的可靠性。
  3. 消融研究
    • 个体训练与联合训练:在部分任务上,联合训练的 RFPMSS 比单独训练表现更优,尤其在数据稀缺的模态中,联合训练可实现跨模态知识转移,例如从报告中获取信息,提升模型性能。
    • 损失函数的影响:研究对比了不同损失函数组合下模型的性能。结果显示,使用重建损失会使模型性能下降 2% ,证明了所提的语义结构保持一致性损失(SSPC loss)的有效性。去除跨模态 SSPC 损失会显著降低零样本检索性能,R@5 性能在 MSR-VTT 和 YouCook2 数据集上分别下降 2.4% 和 2.5% ,验证了其在实现更好跨模态表示中的作用。去除锚点一致性也会降低零样本检索性能(R@5 下降约 1.5% ),表明 SSPC 损失在保持模态特定语义结构方面的重要性。
    • 锚点数量的影响:随着锚点数量增加,模型性能提升,但选取过多锚点(如本实验中 64 选 48)会引入额外约束,导致性能下降。实验表明,RFPMSS 在锚点数量较少时也能保持较好性能,证明了方法的有效性。
    • 医学图像 Transformer 类型的影响:将放射图像 Transformer 替换为 ResNet-101,模型在 BraTS2021 图像数据集上整体性能下降约 7% ;替换为原始 ViT 架构(无循环连接操作符),性能下降 3.3% 。这验证了放射图像 Transformer 在处理有限注释方面的有效性,以及循环连接学习到的聚合嵌入与块表示的有用性,同时凸显了 Transformer 类架构的优势。
    • 交叉监督学习的影响:去除视图融合模块会使模型在 UPENN-GBM 图像数据集上性能下降近 2% ,说明学习研究级预训练表示优于图像级预训练,因其包含更多患者级信息。将交叉监督学习替换为标签监督学习,模型性能下降 2% 。单独研究两个报告相关学习任务发现,去除任一任务对整体性能影响不大(约 1% ),但两者都对性能有提升,且强化患者研究与其报告表示一致性的任务比报告生成任务更重要,因其能提供更全局的信息,有利于学习更好的研究级放射图像特征。
综合来看,研究人员提出的 RFPMSS 方法在多模态医学图像分析中具有重要意义。它创新性地通过灵活的样本关系建模方法,为每个样本分配多个锚点,成功保留了联合多模态嵌入空间中样本间特定模态的语义关系,还从文本报告中学习医学图像表示,减少了对人工标注的依赖,提高了学习效率。尽管该方法存在一些局限性,如无监督发现语义结构锚点的方式有待优化,未来可探索动态训练锚点分配的方法,以及利用注意力机制更好地捕捉上下文信息、整合时间序列与多视图空间数据,以进一步提升模型在胶质瘤早期筛查、预防和治疗中的临床适用性。但不可否认,RFPMSS 方法在多模态医学图像分析领域取得了重要进展,为胶质瘤诊断提供了更精准、高效的途径,推动了医学人工智能的发展,有望在未来临床实践中发挥重要作用。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号