伪标记与知识引导的对比学习在放射学报告生成中的应用
《Journal of Cardiac Failure》:Pseudo-labeling and knowledge-guided contrastive learning for radiology report generation
【字体:
大
中
小
】
时间:2025年10月25日
来源:Journal of Cardiac Failure 8.2
编辑推荐:
医学影像报告生成研究提出PKCL框架,通过动态查询学习和知识引导对比学习解决语义分离、标注噪声及解剖约束不足问题,结合XRayVision模型构建疾病知识图谱,在IU-Xray和MIMIC-CXR数据集上实现SOTA性能,有效提升报告临床准确性。
在医学影像领域,放射学报告生成(Radiology Report Generation, RRG)是一项具有重要现实意义的技术。它旨在通过自动化手段,将医学影像数据转化为结构化的、具有临床价值的文本报告。这种技术能够显著提高诊断效率,减少人工撰写报告的工作量,同时保证报告的一致性和全面性。然而,当前的RRG方法在实现这一目标时仍面临诸多挑战,主要体现在图像特征与文本描述之间的语义关联性、自动标注过程中的噪声问题以及跨模态注意力机制中缺乏解剖学约束等方面。
随着深度学习技术的发展,尤其是图结构表示学习方法的引入,研究者们在疾病进展建模方面取得了显著成果。这些方法在处理复杂数据关系时表现出色,但它们在放射学报告生成中的应用仍然存在局限。其中,第一个问题在于图像局部特征与自由文本描述之间的语义分离。图像数据通常包含丰富的视觉信息,而文本描述则需要对这些信息进行语义化的表达,二者之间的对齐难度较大。第二个问题是自动标注过程中的固有噪声。医学图像中的标注往往受到医生主观判断的影响,导致标签不一致或错误。第三个问题是跨模态注意力机制中缺乏解剖学约束,使得模型在处理不同部位的影像信息时难以准确捕捉与疾病相关的区域。
为了解决上述问题,本研究提出了一种基于伪标签和知识引导的对比学习框架(Pseudo-label and Knowledge-guided Comparative Learning, PKCL)。该框架通过引入动态查询学习和知识引导对比学习的融合方法,有效提升了图像和文本之间的语义对齐能力。具体而言,PKCL框架采用一个可训练的跨模态查询矩阵(Query Matrix, QM),利用参数共享的自注意力机制,使影像编码器和文本编码器能够在共享表示的基础上进行交互。在训练过程中,QM用于查询报告中与疾病相关的视觉区域,从而实现影像特征与文本描述之间的动态对齐。此外,该方法还结合了伪标签与自适应的Top-K加权特征融合策略,以增强模型在标准对比学习中的表现。
在知识引导方面,PKCL利用预构建的知识图谱(Knowledge Graph)来捕捉疾病之间的关系以及解剖学依赖性。这种知识图谱的引入不仅提高了模型对疾病特征的理解能力,还增强了生成报告的临床准确性。通过将影像信息与知识图谱中的概念进行匹配,模型能够在生成文本时更加关注与疾病相关的解剖区域,从而避免生成不相关或错误的信息。同时,知识图谱的使用也为模型提供了额外的上下文信息,使得生成的报告更具语义连贯性和可解释性。
在训练过程中,PKCL框架分为两个阶段。第一阶段用于引导跨模态查询网络学习视觉与语言之间的共享表示,从而建立影像与文本之间的基本联系。第二阶段则专注于从视觉到语言的生成过程,使模型能够基于学习到的共享表示,生成符合临床标准的报告。这种分阶段训练方式不仅提高了模型的泛化能力,还增强了其在不同数据集上的适应性。
为了验证PKCL框架的有效性,本研究在两个广泛使用的基准数据集——IU-Xray和MIMIC-CXR上进行了全面评估。结果显示,PKCL在自然语言生成指标和临床有效性指标上均取得了优异的成绩。例如,在IU-Xray数据集上,PKCL获得了0.499的BLEU-1分数和0.374的RL(Report Likelihood)分数;在MIMIC-CXR数据集上,其BLEU-1分数为0.346,RL分数为0.277,均优于之前的方法,如R2GEN和CMCL。此外,PKCL在Montgomery County X-ray Set(MontgomerySet)这一低资源数据集上也表现出良好的泛化能力,能够有效处理其中有限的文本监督信息。
在方法实现上,PKCL框架的核心在于跨模态查询网络和知识融合模块的结合。跨模态查询网络通过查询嵌入(query embeddings)的方式,引导模型关注与疾病相关的影像区域。这些查询嵌入是在训练过程中逐步优化的,能够根据不同的疾病类型和影像特征,动态调整模型的注意力分布。知识融合模块则利用预构建的知识图谱,为模型提供额外的上下文信息,从而提升其在生成报告时的准确性。知识图谱中的节点不仅代表具体的解剖结构和病理特征,还通过预定义的关系网络,建立了不同疾病之间的联系。这种关系网络的引入,使得模型在生成报告时能够更好地理解疾病之间的相互作用,避免生成孤立或不连贯的信息。
在实际应用中,PKCL框架展现出良好的适应性和泛化能力。这不仅体现在其在标准数据集上的表现,还体现在其对低资源数据集的处理能力上。MontgomerySet作为一个典型的低资源数据集,其文本监督信息有限,且影像数据较为复杂。然而,PKCL框架通过动态查询和知识引导的机制,能够有效提取与疾病相关的视觉特征,并结合知识图谱中的上下文信息,生成高质量的报告。这种能力对于实际临床应用具有重要意义,尤其是在医疗资源有限的地区,能够显著提高诊断效率和报告质量。
此外,PKCL框架在对比学习方面的改进也值得关注。传统的对比学习方法通常通过最大化相似样本之间的相似性,最小化不同样本之间的相似性来优化模型。然而,这种方法在处理医学影像和文本之间的关系时存在局限,尤其是在捕捉复杂的跨模态依赖性方面。为了解决这一问题,PKCL引入了一种改进的多标签对比损失函数,该函数不仅能够优化模型在相似样本之间的匹配能力,还能够有效处理不同样本之间的差异。这种损失函数的引入,使得模型在学习过程中能够更好地区分不同的疾病特征,从而提高生成报告的准确性。
在知识图谱的构建方面,PKCL利用了XRayVision模型(Cohen et al., 2022)来生成疾病相关的知识概率。通过对每个样本的疾病知识概率进行分析,模型能够筛选出概率高于0.5的知识词,并将这些词整合到知识图谱中,从而构建一个具有预定义关系的知识网络。这种知识网络不仅能够提供额外的上下文信息,还能够帮助模型在生成报告时更好地理解疾病之间的关系,提高生成文本的临床相关性。
在实际应用中,PKCL框架的另一个重要贡献是其对跨模态注意力机制的改进。传统的注意力机制通常仅关注局部特征,而缺乏对解剖结构和病理特征的全局理解。PKCL通过引入动态查询机制,使模型能够在不同的解剖区域之间进行注意力分配,从而更好地捕捉与疾病相关的视觉特征。这种机制不仅提高了模型的注意力分配能力,还增强了其在处理复杂影像数据时的鲁棒性。
综上所述,PKCL框架在多个方面对现有的放射学报告生成方法进行了改进和优化。首先,它通过动态查询机制实现了影像特征与文本描述之间的语义对齐,解决了传统方法中语义分离的问题。其次,它结合了伪标签与自适应的Top-K加权特征融合策略,增强了模型在标准对比学习中的表现。此外,它利用了预构建的知识图谱,为模型提供了额外的上下文信息,从而提升了生成报告的临床准确性。最后,它在训练过程中采用了分阶段的方式,使模型能够逐步优化视觉与语言之间的共享表示,提高其在不同数据集上的适应性和泛化能力。
这些改进不仅提升了放射学报告生成的性能,还为未来的研究提供了新的思路和方法。在医学影像领域,准确、全面的报告对于疾病的诊断和治疗具有重要意义。因此,PKCL框架的提出为实现这一目标提供了有力的技术支持。未来的研究可以进一步探索如何优化知识图谱的构建方式,以及如何提高模型在处理复杂影像数据时的效率。此外,还可以研究如何将PKCL框架扩展到其他医学影像模态,如MRI和CT,以提高其在不同医学领域的适用性。
总之,PKCL框架在放射学报告生成领域展现出了显著的优势。它不仅解决了现有方法中的诸多问题,还通过引入新的机制和策略,提高了模型的性能和泛化能力。这种技术的进一步发展和应用,将有助于提高医疗诊断的效率和准确性,为临床实践提供更加可靠的工具。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号