
-
生物通官微
陪你抓住生命科技
跳动的脉搏
基于50万张图像的蝴蝶与蛾类物种深度学习识别数据集构建及MaxViT模型验证
【字体: 大 中 小 】 时间:2025年08月07日 来源:Scientific Data 6.9
编辑推荐:
本研究通过奥地利公民科学项目收集超过54万张蝴蝶和蛾类图像,构建目前最大规模的鳞翅目物种识别数据集。研究团队采用专家验证机制确保数据质量,并利用MaxViT-T模型实现97.87%的测试准确率,为生物多样性监测提供高效的自动化识别方案,相关数据集已在figshare开源。
鳞翅目昆虫作为重要的生物多样性指示物种,其种群监测对生态环境保护具有重要意义。传统依赖专家目视鉴定的方法已难以应对公民科学项目产生的海量图像数据,而现有机器学习数据集普遍存在规模有限、物种覆盖不全等问题。奥地利因斯布鲁克大学(University of Innsbruck)生态系的研究团队联合Billa基金会,通过"Schmetterlinge Osterreichs"公民科学平台历时7年收集了超过54万张图像,构建起目前最大规模的蝴蝶和蛾类识别数据集。
这项发表于《Scientific Data》的研究创新性地采用"专家验证+AI筛选"的双重质量控制机制。项目邀请昆虫学家Helmut Hottinger对所有图像进行人工审核,同时通过训练MaxViT-T深度学习模型自动检测并剔除11,000余张非成虫期或混杂物种的图像。最终数据集涵盖奥地利185种鳞翅目昆虫,其中蝴蝶物种覆盖率达77.6%,单物种图像量最高达29,612张(Aglais io),最低仅1张,典型反映了生物多样性监测中的物种不平衡现象。
研究采用三项关键技术方法:1) 通过移动应用采集公民科学图像数据;2) 使用数据增强技术(随机裁剪、旋转、色彩归一化)处理图像;3) 基于ImageNet预训练的MaxViT-T模型进行迁移学习,采用加权损失函数解决类不平衡问题。实验在EuroHPC超算平台使用8块GPU完成300轮训练。
【数据特征】
数据集包含541,677张JPEG格式图像,平均分辨率1887×1906像素,按物种分类存储。图像呈现高度多样性,包括不同拍摄角度、翅膀展示面和背景环境。特别收录了Pyrgus属等形态相似物种的对比图像,为细粒度分类研究提供珍贵素材。数据分布显示典型长尾特征,62个物种的图像不足100张。

【模型性能】
MaxViT-T模型在测试集达到97.87%的top-1准确率,top-5准确率更高达99.2%。分析显示,图像量超过1000张的物种平均召回率达96.3%,而图像量少于50张的物种召回率波动较大(13-100%)。模型误判分析发现149张漏网的非常规图像(0.28%),包括101张混杂物种和49张非成虫期标本。

【技术验证】
研究团队通过三项措施确保数据质量:1) 专家人工验证所有物种标签;2) 模型辅助检测异常图像;3) 对Aricia agestis等形态近似种进行合并标注。数据增强策略使模型能有效识别不同拍摄条件下的个体,如图4展示的变异角度和背景。


该研究创建了目前最全面的鳞翅目视觉识别基准数据集,其规模是既往最大数据集的15倍以上。实践表明,公民科学项目与专家验证相结合能有效解决AI训练数据短缺难题。所开发的MaxViT-T模型已部署于HuggingFace平台,为生物多样性监测提供即用型工具。研究同时揭示了类不平衡对模型性能的影响,为后续改进指明方向。这项工作为计算机视觉与生态学的跨学科研究树立了新范式,其开源策略(CC BY-NC-ND 4.0)将加速生物多样性监测技术的创新发展。
生物通微信公众号
知名企业招聘