基于双分支注意力融合的药用植物识别网络MPR-net:构建喀斯特地貌草药数据集与高效识别新方法

【字体: 时间:2025年07月26日 来源:Pattern Recognition 7.5

编辑推荐:

  为解决药用植物识别领域数据集规模小、多样性不足及现有算法在复杂背景下识别精度低的问题,研究人员提出双分支注意力融合网络MPR-net,并构建包含120类56,650张图像的喀斯特地貌草药数据集。实验表明MPR-net在保持轻量化的同时显著提升识别准确率与鲁棒性,为药用植物智能化鉴定提供新范式。

  

药用植物识别在中医药现代化进程中具有重要价值,但当前面临两大瓶颈:一是全球公开的药用植物数据集如NB-TCM-CHM、Indo Medicinal Plant等样本量有限且仅涵盖局部器官图像;二是传统人工鉴定效率低下且易受主观影响。这些限制严重阻碍了高精度智能识别模型的开发。

针对这一挑战,哈尔滨工业大学(深圳)的Zhanyan Tang等研究人员在《Pattern Recognition》发表研究,提出双分支注意力融合网络MPR-net,并构建迄今最全面的喀斯特地貌草药数据集(含120种56,650张多部位图像)。该研究创新性地整合Pooling-based Vision Transformer(PiT)、窗口多头自注意力(Window MSA)和全局Token模块,通过混合块(Mix Block)实现局部-全局特征协同提取,在复杂背景干扰下仍能保持94.7%的Top-1准确率,参数量仅21.6M。

关键技术包括:1)野外原位拍摄构建多部位、多背景数据集;2)双分支架构融合卷积的局部感知与Transformer的全局建模能力;3)改进的池化模块降低计算复杂度;4)跨数据集验证模型泛化性。

【Karst Landform Herbs Dataset】
团队联合广西植物研究所专家采集87种原生药用植物图像,涵盖根、叶、花、果等器官,其中83%为自然生长环境拍摄。经数据增强后总量达56,650张,较现有数据集规模扩大3-5倍。

【The Proposed MPR-net】
网络采用K层堆叠结构,核心创新在于:1)窗口MSA模块降低自注意力计算量;2)全局Token模块强化跨区域特征关联;3)混合块动态平衡卷积与注意力机制;4)改进池化层保留空间信息。消融实验显示双分支融合使FLOPs降低37%而准确率提升2.3%。

【Experiments】
在自建数据集上,MPR-net以94.7%准确率超越ResNet-152(89.2%)和ViT-Base(91.4%);在跨数据集测试中,对印尼草药叶片的识别F1-score达88.9%,证实其强泛化能力。推理速度达153帧/秒(RTX 3090),满足实时应用需求。

【Conclusion】
该研究首次将Pooling-based Vision Transformer引入药用植物识别,构建的喀斯特地貌数据集填补了该领域基准数据空白。MPR-net通过注意力-卷积混合架构实现精度与效率的平衡,相关技术可扩展至农作物鉴定、生物多样性监测等领域。研究获广西科技重大专项(AA22096020)和广东省基础与应用基础研究基金(2024A1515030213)支持,代码与数据集均已开源。

(注:Zhanyan Tang为哈尔滨工业大学(深圳)计算机专业二年级硕士生,研究方向包括深度学习与图像处理;通讯作者Jie Wen同属该单位。)

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号