TCMP-300:首个面向传统中药植物识别的多类别细粒度图像数据集及其AI验证

【字体: 时间:2025年07月10日 来源:Scientific Data 5.8

编辑推荐:

  为解决传统中药植物(TCMPs)识别依赖人工专家、现有数据集物种多样性不足且缺乏系统性验证框架的问题,中国科学院计算技术研究所等团队构建了包含300类52,089张图像的TCMP-300数据集。通过Bing搜索引擎采集并经CLIP模型与人工双重清洗,结合HybridMix数据增强技术,该数据集在Swin-Base模型上实现89.64%分类准确率,为AI驱动的药用植物识别提供了标准化资源。

  

在传统中医药领域,药用植物的准确识别直接关系到临床疗效与用药安全。然而,当前识别主要依赖专业人员的感官判断,存在主观性强、效率低下等问题。尽管人工智能(AI)技术为植物识别提供了新思路,但现有药用植物数据集普遍存在物种覆盖有限(如印度MED-117仅117类)、样本质量参差不齐、缺乏系统性验证等缺陷。这些瓶颈严重制约了AI模型在真实场景中的应用。

针对这一挑战,信阳农林学院药学院与中国科学院计算技术研究所的研究团队在《Scientific Data》发表了题为“TCMP-300: A Comprehensive Traditional Chinese Medicinal Plant Dataset for Plant Recognition”的研究。该工作构建了目前规模最大、覆盖最全的传统中药植物图像数据集TCMP-300,包含300个物种的52,089张高分辨率图像,涵盖花、茎、叶、根、果实和全株六大器官。通过自动化网络爬虫采集原始数据后,团队创新性地采用CLIP(Contrastive Language-Image Pre-Training)视觉基础模型进行初筛,再经中医药专家人工复核,最终剔除52.73%的低质量样本。技术验证阶段,研究人员提出混合式数据增强策略HybridMix(结合Mixup与CutMix),在11种主流模型上实现平均1.57%的性能提升,其中Swin-Base模型达到89.64%的顶尖准确率。

关键技术方法包括:(1)基于Bing搜索引擎的自动化图像爬取系统;(2)CLIP模型引导的文本-图像对齐清洗框架;(3)HybridMix混合增强技术(随机选择Mixup全局混合或CutMix局部替换);(4)长尾分布下的类别平衡划分策略(训练集与验证集按7:3比例分层采样)。

数据记录与特性
数据集包含300个子目录,每类以“编号.拉丁学名”格式命名(如“001.Veronica persica Poir.”),图像格式涵盖PNG/JPG/WebP。其核心优势体现在三方面:

  • 全面性:覆盖菊科(27种)、唇形科(18种)等12个主要药用植物科属,包含黄酮类、生物碱等活性成分的物种
  • 多样性:采集场景涵盖室内外环境、多光照条件与复杂背景
  • 长尾分布:样本数量模拟真实世界药用植物使用频率,高频物种图像达354张,低频物种仅101张

技术验证结果
在224×224分辨率下,轻量级模型EfficientNet-B0取得84.62%准确率,而ConvNeXt-Tiny与Swin-Base分别代表CNN和视觉Transformer(ViT)的最高水平(88.18% vs 89.64%)。提升输入分辨率至448×448后,RegNet-X模型表现最优(89.54%)。t-SNE可视化显示,模型能有效学习到类内紧凑、类间分离的特征空间,但对少数变异样本(如罕见形态的接骨木)仍存在混淆。

结论与展望
该研究首次构建了系统性的中药植物AI识别基准,其创新性体现在:(1)建立自动化数据清洗流程,显著降低人工标注成本;(2)验证了Transformer架构在细粒度植物分类中的优势;(3)开源数据集与工具链(GitHub/winycg/TCMP-300)支持社区持续扩展。实际应用中,团队已部署在线识别系统(HuggingFace平台),可输出Top-5预测概率以辅助临床决策。这项工作不仅为《联合国可持续发展目标3》(健康福祉)提供了技术支撑,更为发现新型药用成分(如青蒿素类化合物)的AI筛选奠定了基础。未来可通过增加3D形态特征与分子标记数据,进一步提升多模态识别精度。



相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号