多粒度知识嵌入的中草药多标签识别:基于视觉特征与处方知识协同的鲁棒性提升方法

【字体: 时间:2025年06月20日 来源:Neurocomputing 5.5

编辑推荐:

  为解决中草药图像中多目标遮挡和外观相似导致的识别难题,天津大学团队提出多粒度知识嵌入框架(MGKE),通过融合处方共现统计与词向量语义提示,实现视觉特征与领域知识的跨层对齐。实验表明该方法在自制数据集和公共基准上均超越现有技术(SOTA),显著提升相似药材(如"山药"与"桔梗")和遮挡场景(如"白术"缺失时通过"人参"共现推断)的识别准确率,为复杂多标签任务提供通用解决方案。

  

中草药作为天然药物在全球疾病防治中占据重要地位,但其外观相似性和临床配伍时的堆叠遮挡问题,使得传统人工识别效率低下且误差率高。尽管深度学习技术如卷积神经网络(CNN)和Transformer已在单标签药材识别中取得进展,但面对实际场景中多药材共现的复杂情况,现有方法仍存在两大瓶颈:一是视觉特征难以区分高度相似的药材(如白色圆柱状的"山药"与"桔梗"),二是遮挡导致的关键特征缺失(如被遮盖的"白术"需通过配伍规律推测)。更关键的是,当前多标签识别模型多依赖通用标签语义,未能有效整合中医药特有的处方配伍知识,限制了模型的判别能力和临床可解释性。

针对这一挑战,天津大学智能与计算学部的研究团队在《Neurocomputing》发表研究,提出多粒度知识嵌入框架(MGKE)。该研究创新性地将处方配伍规律转化为语义提示,与多层级视觉特征进行协同建模,显著提升了多标签中草药识别的准确性和鲁棒性。研究团队首先构建包含1641张图像、146类标签的多标签中草药数据集,该数据集具有显著的长尾分布特性(部分类别仅3个样本)。通过提取CNN深层全局特征和浅层局部特征构建多粒度视觉表示,同时利用处方大数据统计生成药材共现图(Herb Co-occurrence Graph)和词向量嵌入(Word Embedding)。这些知识特征作为语义提示(Prompt)被嵌入到视觉特征提取过程中,例如当图像中出现易识别的"菊花"时,模型可基于共现概率推断可能被遮挡的"桔梗"。实验证明该方法在自制数据集和公开基准上的平均识别准确率超越现有最优模型(SOTA)2.3%,对相似药材对的误判率降低17.6%。

关键技术方法包括:1)基于ResNet50和FPN(特征金字塔网络)的多粒度视觉特征提取;2)利用300万临床处方构建药材共现图;3)通过GNN(图神经网络)建模标签语义关系;4)跨模态注意力机制实现视觉-知识特征对齐。

【多粒度视觉特征提取】
通过CNN不同层级输出获取全局语义(深层)和局部细节(浅层)特征,FPN结构增强多尺度表征能力。实验显示该策略使遮挡区域的识别准确率提升9.2%。

【知识特征构建】
基于临床处方统计的共现概率矩阵显示,"人参-黄芪-白术"组合出现频率达68%,这些关联被编码为图节点权重。词向量分析发现"补气类"药材在语义空间聚集,为视觉相似但药效迥异的"白术"与"苍术"提供判别依据。

【跨模态特征融合】
设计分层提示机制(Hierarchical Prompt),将共现概率以注意力权重形式注入视觉特征空间。当"黄芪"被识别时,模型对可能共现的"白术"特征响应增强1.8倍,显著改善遮挡场景表现。

【实验结果】
在长尾数据集上,MGKE的尾部类别F1-score达0.72,比基线模型高15%。消融实验证实,引入处方知识使相似药材对(山药/桔梗)的区分度提升23.4%。迁移学习测试显示,该方法在PlantCLEF数据集上mAP达0.81,证明其泛化能力。

该研究的突破性在于首次将中医药配伍规律转化为可计算的语义提示,通过知识嵌入弥补纯视觉模型的局限性。不仅解决了遮挡和相似性带来的识别困境,更开创性地建立了"以药推药"的临床推理范式——例如通过"补气类"药材的语义关联,即使"白术"被遮挡,也能根据"人参-黄芪"的共现推测其存在。这种知识驱动与数据驱动相结合的方法,为多标签学习提供了新思路,可扩展至医疗图像识别、生态物种监测等领域。研究团队特别指出,未来可通过引入药材功效(如"清热""解毒")等更高阶语义,进一步强化模型的逻辑推理能力。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号