基于双视图图对比主题建模的临床编码预测新方法MedConGTM:提升ICD/CPT/LOINC多标签分类的可解释性

【字体: 时间:2025年07月17日 来源:Kidney International 14.8

编辑推荐:

  本研究针对临床编码自动化任务中传统方法缺乏可解释性、难以处理复杂医学分类体系的问题,提出创新性双视图图对比主题模型MedConGTM。通过构建文档-标记语义图和文档-代码共分配图,结合层次敏感的对比学习目标,在MIMIC-III和i2b2数据集上实现了优于基线模型的编码预测准确性和主题连贯性,为医疗信息化提供了兼具高精度与透明性的解决方案。

  

在医疗信息化高速发展的今天,临床编码系统如国际疾病分类(ICD)、当前操作术语(CPT)和逻辑观察标识符命名系统(LOINC)已成为医疗数据标准化处理的基石。然而,从海量非结构化临床文本中人工标注这些代码不仅效率低下,还容易出错。更棘手的是,现有自动化编码模型往往像"黑箱"——它们能预测结果,却无法解释决策依据,这严重阻碍了其在临床审核和监管合规中的应用。传统主题模型虽具可解释性,却难以适应多标签临床编码任务,而深度学习模型又缺乏透明度,这种矛盾成为制约医疗人工智能发展的关键瓶颈。

为突破这一困境,来自土耳其伊兹密尔卡蒂普·切莱比大学(˙Izmir Katip C? elebi University)的研究团队开发了名为MedConGTM的创新框架。这项发表在《Kidney International》的研究,通过双视图图对比学习技术,成功实现了临床编码预测精度与模型可解释性的双重提升。

研究团队采用三大核心技术:首先构建代码感知的词共现图,整合NPMI统计量与医学本体关系;其次设计双视图对比学习目标,对齐文本语义与标签空间的表示;最后开发主题-代码注意力解码器,建立预测结果与潜在主题的可视化关联。实验数据来自MIMIC-III重症监护数据库和i2b2-2006临床标注数据集这两个行业标杆。

【方法论】

MedConGTM通过双视图编码架构同步处理文档-标记语义图和文档-代码共分配图。前者捕捉文本内在语义结构,后者反映标签共现模式。创新性地引入层次敏感的对比损失函数,利用ICD/CPT分类体系的层级关系优化表示学习。

【结果与讨论】

在MIMIC-III数据集上,模型在Micro-F1和AUC等指标上显著超越CAML、ClinicalBERT等基线模型5-8%。主题连贯性评估显示,其生成的主题比传统LDA模型更具临床相关性。案例研究表明,主题-代码注意力机制能准确定位支持预测的关键临床叙述,如将"冠状动脉粥样硬化"代码关联到包含"心绞痛"、"支架植入"等术语的主题簇。

【结论】

该研究开创性地将对比学习与神经主题建模相结合,解决了临床编码自动化中的"可解释性悖论"。其提出的层次感知对比损失和双视图对齐机制,为其他医学多标签分类任务提供了新范式。特别值得注意的是,模型在不牺牲预测性能的前提下,生成的临床编码依据与专业医学逻辑高度一致,这对满足医疗AI的监管要求具有重要实践价值。未来工作可探索将该框架扩展至更多医疗编码体系和语言环境。

相关新闻
生物通微信公众号
微信
新浪微博
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号