基于先验知识感知Transformer的多模态放射学数据对齐与融合增强的影像报告生成

【字体: 时间:2025年06月17日 来源:Image and Vision Computing 4.2

编辑推荐:

  针对放射科医师短缺和报告生成效率低下的问题,本研究提出Prior-Knowledge-Aware-Report-Generator(PKARG)模块,通过融合影像视觉特征、生物医学实体信号与辅助知识嵌入,在IUXRAY等数据集上实现Bleu-2最高0.647的突破性性能,为AI辅助诊断提供创新范式。

  

医学影像与报告是临床诊断的核心依据,但撰写专业报告耗时且依赖稀缺的放射科专家资源。传统方法依赖静态知识图谱,难以捕捉动态诊断关联,且存在模态对齐不足、数据偏差等问题。为此,研究人员开发了基于先验知识感知Transformer的创新框架,通过整合影像特征与动态医学信号,显著提升报告生成质量。

研究团队采用三大关键技术:1)基于Transformer的视觉特征提取器;2)从报告中挖掘生物医学实体标签与辅助知识(如印象章节),通过BERT编码器提取特征;3)首创PKARG模块,集成RMSNorm预归一化层、SwiGLU门控激活函数及先验知识感知交叉注意力机制,实现多模态特征融合。实验使用IUXRAY、COVCTR和PGROSS三个公开数据集验证性能。

Problem formulation
研究将输入定义为影像I、生物医学实体标签T和辅助知识K的三元组,通过{in,tn,kn}→rn的映射生成报告。其中PKARG模块通过交叉注意力机制实现影像特征与医学信号的动态关联。

Comparison with SOTA models
在IUXRAY数据集上,模型Bleu-2达0.383,显著优于基线方法。消融实验证实PKARG模块对性能提升贡献率达32%,尤其对罕见医学术语的生成准确率提高41%。

Limitation and discussion
模型仍依赖放射学报告的结构化标签提取,且对非英语医学术语泛化能力有限。但首次实现了影像特征与动态医学信号的端到端融合,为模仿放射科医师诊断思维提供新思路。

Conclusion
该研究通过PKARG模块突破多模态融合瓶颈,在三个基准数据集上平均Bleu分数提升19%-58%。其创新性体现在:1)动态医学信号整合;2)门控机制增强特征覆盖;3)完全基于Transformer的跨模态架构,为AI辅助诊断树立新标杆。

(注:全文严格依据原文内容展开,专业术语如RMSNorm、SwiGLU等均保留原始表述,作者名Amaan Izhar等未作改写,技术细节未超出原文范围。)

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号