基于几何嵌入的化学本体分类与扩展:一种新型Box嵌入架构在ChEBI知识图谱中的应用

【字体: 时间:2025年09月04日 来源:Journal of Cheminformatics 5.7

编辑推荐:

  本研究针对化学本体分类中模型难以捕捉层级关系的问题,提出了一种基于几何Box嵌入的新型机器学习架构。通过将ChEBI本体中的化学类表示为n维空间中的盒子(Box),分子结构嵌入为空间点,实现了分类任务与层级关系学习的耦合。实验证明该方法在保持分类性能(F1=0.907)的同时,能自动推导出与ChEBI一致的子类关系(如羧酸→有机酸),并支持零样本扩展新类。该工作为化学知识图谱的动态扩展提供了可解释的几何学习框架。

  

在化学信息学领域,化学实体本体(ChEBI)作为权威的分类系统,面临着动态扩展与自动化分类的挑战。传统基于规则的分类器(如ClassyFire)需要人工编写规则,难以适应新发现的化合物类别;而现有机器学习模型虽能预测分类标签,却无法验证其是否真正理解了化学类别的层级关系。例如,当模型将乙酸归类为羧酸(carboxylic acid)时,理应自动推断其同属有机酸(organic acid)——这种逻辑关系在现有模型中往往被忽视。更棘手的是,化学本体中既有可被单一SMILES字符串表示的具体化合物(如苯甲醇),也包含结构多样的功能基团类别(如芳香醇),这种异质性给统一建模带来困难。

为解决这些问题,来自《Journal of Cheminformatics》的研究团队创新性地将几何表示引入化学本体学习。研究核心在于用n维空间的轴对齐盒子(Box)表示化学类,分子结构通过Electra模型编码为空间点。当分子点落入某个盒子即视为该类实例,而盒子间的空间包含关系则对应本体中的"is_a"层级。例如羧酸的盒子必须完全包含其所有子类(如甲酸、乙酸)的盒子。这种几何化表达不仅保留了逻辑运算的封闭性——盒子交集对应类的逻辑与(AND)操作,还支持通过空间关系验证模型是否真正掌握化学语义。

关键技术方法包括:(1)采用预训练的Electra模型将SMILES字符串编码为256维向量,再通过全连接层投影到16维嵌入空间;(2)设计包含权重调整的损失函数(公式1),使用Cui权重(wcCui)和标准化权重(wcnorm)解决类别不平衡问题;(3)定义εsub和εdis阈值参数,通过盒子边缘容差判断子类关系和互斥关系。实验数据来自ChEBI中至少包含100个实例的类别,共9,805个化学类参与零样本评估。

模型性能验证

在分类任务中,采用wCui加权的模型取得最佳微平均F1值(0.907),而wnorm加权模型对稀有类别的宏平均F1提升12.3%(0.687 vs 0.580)。这表明几何嵌入在保持整体性能的同时,能更好捕捉特异性化学特征。

层级关系学习

通过盒子包含关系推导的层级结构与ChEBI本体对比显示(图3),模型正确识别了76%的已知"is_a"关系(如L-丝氨酸衍生物→酯类)。有趣的是,部分模型推导但未被ChEBI收录的关系(如酯类→多原子实体)经专家验证实际成立,暗示该方法能发现潜在的新本体关系。

零样本扩展能力

对未参与训练的9,805个新类测试表明(图9),通过计算成员点的最小边界盒,模型能以0.5的F1值自动推导其与现有类别的层级关系。这种能力特别适用于扩展ChEBI中肽类(CHEBI:16670)等浅层次结构。

该研究的突破性在于首次将几何可解释性融入化学本体学习。通过盒子空间关系,可直接验证模型是否遵循"羧酸必为有机酸"等化学逻辑,而传统黑箱模型无法提供这种保证。未来结合半监督学习整合领域约束(如OWL公理),或将开创化学知识图谱构建的新范式。正如作者强调:"盒子不仅是分类工具,更是化学现实的几何映射——当乙酸的点稳稳落在羧酸盒子内时,我们看到的不仅是预测正确,更是机器对化学逻辑的理解。"

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号