
-
生物通官微
陪你抓住生命科技
跳动的脉搏
Herbify:集成卷积神经网络与视觉Transformer的深度学习框架在药用植物精准识别中的突破性应用
【字体: 大 中 小 】 时间:2025年07月29日 来源:Plant Methods 4.7
编辑推荐:
本研究针对传统草药识别依赖专家经验、现有数据集规模小且质量参差的问题,开发了集成CNN和ViT的Herbify框架。通过PAHD预处理算法构建含6104张图像的标准化数据集(91种草药),EfficientNet v2-Large与ViT-Large/16的融合模型达到99.56%的F1-score,并部署为Web应用。该成果为草药数字化识别提供了高精度解决方案,对传统医药现代化具有重要意义。
在传统医学复兴与合成药物副作用凸显的双重背景下,药用植物的精准识别成为研究热点。然而现有技术面临三大困境:一是专业分类依赖植物学家经验,二是公开数据集规模有限(如DeepHerb仅2515张图像),三是单一模型难以兼顾局部特征与全局上下文。这些问题严重制约了草药识别的准确性和普适性应用。
Manipal University Jaipur(印度曼尼帕尔大学斋浦尔校区)的研究团队在《Plant Methods》发表的研究中,创新性地提出Herbify框架。通过融合卷积神经网络(CNN)的局部特征提取优势与视觉Transformer(ViT)的全局建模能力,构建了目前最全面的药用植物图像数据集(6104张图像/91类),并开发出识别准确率达99.56%的智能系统。这项研究为传统草药的数字化识别建立了新标准,其技术路线对植物学、农业和医药领域具有重要启示。
关键技术方法包括:1)PAHD预处理算法实现背景标准化,通过HSV色彩空间转换和形态学处理消除干扰;2)集成EfficientNet v2-Large和ViT-Large/16构建混合模型,采用Adam/AdamW优化器进行30轮微调;3)基于Flask框架开发Web应用,实现云端图像处理与实时识别。数据集整合自DIMPSAR(4735张)和DeepHerb(1835张)两个来源。
研究结果主要体现在四个层面:
通过严格的PAHD预处理流程(包括RGB→HSV转换、颜色分割、形态学膨胀等步骤),将原始图像背景统一替换为白色。最终构建的Herbify数据集包含6104张图像,平均每类67张样本,分辨率范围103×94至4236×4447像素,显著优于现有数据集规模。
在91类分类任务中,CNN架构整体优于ViT:EfficientNet v2-Large以99.13%的F1-score领先,ResNet-152达99.01%,而ViT-Large/16为98.90%。值得注意的是,轻量级MobileNet v3-Large表现惊艳(98.90%),验证了模型压缩的可行性。
创新设计的EfficientL-ViTL(EfficientNet v2-Large + ViT-Large/16)融合模型实现99.56%的F1-score,特异性达99.9951%。八种集成方案中,三模型组合Res152-EfficientL-ViTL(99.46%)和四模型组合VGG19-Res152-EfficientL-ViTL(99.33%)同样表现优异,证实多架构互补的价值。
部署的Web应用在真实场景测试中取得90.2%的top-1准确率(置信度>85%时达95.5%),单次推理耗时3-4秒。系统可输出top-5预测结果及置信度可视化,为实际应用提供可靠参考。
这项研究的核心价值在于:首次系统性地解决了草药识别中的三大瓶颈——数据质量、模型局限和落地应用。通过PAHD算法建立的标准化流程,显著提升了图像数据的可用性;CNN-ViT混合架构的创新设计,突破了单一模型的特征提取局限;而轻量化部署方案则打通了实验室研究到实际应用的最后一公里。Farhan Sheth等作者的工作不仅为药用植物学研究提供了新工具,其技术框架还可拓展至农作物病害识别、濒危植物保护等领域,对推动传统医药数字化和农业智能化具有深远意义。
生物通微信公众号
知名企业招聘