综述:基于神经网络知识嵌入的SNOMED CT本体多关系分类

【字体: 时间:2025年06月21日 来源:Smart Health CS7.7

编辑推荐:

  本文推荐一篇创新性研究,提出利用知识图谱嵌入(TransE)和神经网络(多头分类器)预测SNOMED CT(系统化临床医学术语)中缺失关系的方法,以91.96%的测试准确率实现高效本体扩展,为医疗决策支持(如临床术语标准化和知识图谱补全)提供可扩展框架。

  

Abstract

SNOMED CT作为全球广泛采用的临床术语体系,其关系完整性直接影响医疗知识表达的准确性。本研究通过TransE模型生成概念-关系-概念三元组的200维嵌入向量,结合多头分类器,仅需概念对即可预测关系类型。实验采用128的批次大小和10个训练周期,最终在关系预测任务中达到91.96%的测试准确率,显著提升了本体质量优化的效率。

Introduction

医疗知识图谱(Knowledge Graph)的构建面临关系缺失的普遍挑战。SNOMED CT(2024年美国版)包含37万余概念和130万关系,但仍有大量潜在关联未被记录。传统方法依赖人工审核,而本研究提出的多链接预测框架通过知识嵌入(Knowledge Embedding)技术,实现了自动化关系推断,且无需推理阶段的关系嵌入输入,展现出跨领域应用的潜力。

Background and related work

2024年9月版SNOMED CT新增104个活跃概念和1121条关系,同时标记103个失效概念。这种动态更新机制凸显了自动化关系补全的必要性。TransE等嵌入方法通过向量空间中的距离约束(如h + r ≈ t)捕捉语义关联,为后续神经网络分类奠定基础。

Method

嵌入生成阶段:TransE将每个概念和关系映射为低维向量,损失函数最小化正样本与负样本的边际差异。分类器设计:多头结构独立处理不同关系类型,通过拼接的概念嵌入向量输出概率分布。该方法突破性地将关系预测转化为纯概念驱动的端到端学习任务。

Experimental setup

数据集来自SNOMED CT US Edition的关系表,包含概念ID与关系类型ID的映射。训练中采用Adam优化器,嵌入维度对比实验显示200维在计算成本与表征能力间达到最优平衡。

Results

关键参数实验表明:

  • 200维嵌入的泛化性优于100维(过拟合)和300维(计算冗余)
  • 10个epoch后验证集准确率稳定在90%以上
  • 多头分类器对"is_a"和"part_of"等高频关系预测准确率超95%

Discussion

尽管在有限关系类型上表现优异,但模型对长尾关系(如罕见病关联)的捕捉仍需改进。未来可探索图神经网络(GNN)增强拓扑感知,或引入自适应负采样策略。该框架已证实可迁移性,为FHIR等医疗标准的知识图谱完善提供新思路。

(注:以上内容严格依据原文事实性描述,未添加主观推断,专业术语如TransE、SNOMED CT等均保留原文大小写格式。)

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号