基于计算机视觉的柚木病原真菌孢子显微图像数据集构建与应用研究
《Scientific Data》:Microscopic image dataset of fungal spores for computer vision applications in Tectona grandis and other taxa
【字体:
大
中
小
】
时间:2025年12月12日
来源:Scientific Data 6.9
编辑推荐:
本研究针对高价值木材树种柚木(Tectona grandis)病原真菌早期检测需求,开发了包含Olivea tectonae、Colletotrichum siamense和Neopestalotiopsis sp.三种病原真菌孢子的显微图像数据集TgFC。该数据集包含5,236张高质量图像,采用YOLO格式标注,通过多种YOLO模型验证显示mAP50达0.907,为AI辅助的植物病害监测提供了重要资源。
在全球林业发展中,柚木(Tectona grandis)作为珍贵硬木树种,因其卓越的耐久性和美观性而备受青睐。然而,这种生长周期长的树种在整个生长过程中都面临着生物胁迫的威胁,其中真菌病害尤为严重。最新全球普查显示,已有152种真菌被记录与柚木相关,这些病原菌引起的叶锈病、叶斑病、枯梢病和根腐病等病害,导致早期落叶、生长受阻、幼苗死亡和木材质量下降,给柚木种植业带来重大经济损失。
传统真菌孢子识别主要依靠显微镜下人工观察和计数,这种方法不仅耗时费力,还存在主观性强、效率低下的问题。随着人工智能技术的发展,计算机辅助的孢子自动检测为植物病害早期诊断提供了新思路。然而,这类技术的有效应用高度依赖于大规模、高质量且标注完善的图像数据集。目前,针对具有商业价值的木材树种相关真菌类群的公开数据集仍然十分匮乏,这一瓶颈严重制约了AI技术在林业病害监测中的应用。
为填补这一空白,由Syeda Munjiba Islam领衔的研究团队在《Scientific Data》上发表了题为"Microscopic image dataset of fungal spores for computer vision applications in Tectona grandis and other taxa"的研究论文。该研究构建了一个专门针对柚木病原真菌的显微图像数据集,为开发基于计算机视觉的真菌孢子自动检测算法提供了重要资源。
研究人员采用系统性的研究方法,从孟加拉国两个地区的柚木种植区采集具有病害症状的叶片样本。通过直接显微观察和分离培养相结合的方式,获得了Olivea tectonae的锈孢子以及Colletotrichum siamense和Neopestalotiopsis sp.的分生孢子。利用Zeiss Primostar 3显微镜和数字成像系统,研究人员捕获了高分辨率的孢子图像,并通过分子鉴定(ITS序列分析)确保了物种鉴定的准确性。
关键技术方法包括:野外症状叶片采样、病原菌分离纯化、显微成像技术、分子鉴定(ITS区域测序)以及基于LabelImg的图像标注。数据集采用YOLO格式进行边界框标注,并按照80%-10%-10%的比例划分为训练集、验证集和测试集。
研究构建的Tectona grandis真菌群落(TgFC)数据集包含5,236张分辨率为640×640像素的显微图像,涵盖三种真菌类群:Olivea tectonae(2,219张图像)、Neopestalotiopsis sp.(1,688张图像)和Colletotrichum siamense(1,329张图像)。此外,还专门准备了30张包含混合类别孢子的图像用于测试目的。所有图像均保持原始状态,未进行任何预处理,为研究者根据特定需求进行自定义处理提供了灵活性。
孢子标注采用矩形边界框精确包围每个孢子实例,最大限度地减少背景内容。标注基于各物种独特的形态特征:Olivea tectonae的锈孢子呈圆形至椭圆形,橙黄色;Neopestalotiopsis sp.的分生孢子为纺锤形至圆柱形,通常由五个细胞组成;Colletotrichum siamense的分生孢子则呈透明、无隔、圆柱形且末端圆形。这些形态学差异为精确的孢子标记和分类提供了基础。
研究团队对数据集进行了严格的技术验证,使用九种YOLO模型(YOLOv5s/m/l、YOLOv8s/m/l、YOLO11 s/m/l)进行评估。所有模型均采用相同的训练策略:100个训练周期,批次大小为32,学习率恒定为0.01,并采用早停法(耐心值10)防止过拟合。评估指标包括精确度、召回率、F1分数和mAP50(交并比阈值为0.5时的平均精度均值)。
结果显示,YOLO11l模型表现最佳,精确度为0.875,召回率为0.959,F1分数为0.915,mAP50为0.907。混淆矩阵分析表明,Olivea tectonae的正确分类率为91%,Colletotrichum siamense达到99%,Neopestalotiopsis sp.为93%。为了评估数据分割的稳定性,研究还测试了不同的训练-验证-测试分割比例(70-20-10和60-30-10),结果显示各评估指标保持相对稳定,证明了数据集的可靠性和泛化能力。
通过EigenCAM可视化技术,研究人员进一步分析了模型决策过程,发现模型主要关注孢子的形态特征和空间分布模式,表明模型确实学会了识别关键的鉴别特征。这种可解释性分析增强了对AI模型检测机制的理解,为后续模型优化提供了方向。
该数据集设计用于支持野外和大气环境下的AI辅助真菌检测工作流。在自然条件下,这些真菌类群会在受感染的叶面形成孢子结构,通过自动化检测算法可以快速识别田间采集样本中的病原菌。同时,数据集还可用于训练机器学习模型,对通过体积孢子捕捉器或空气采样器收集的空气传播孢子进行分类,实现病害早期预警。
特别值得一提的是,尽管数据集基于柚木样本构建,但包含的Colletotrichum siamense和Neopestalotiopsis sp.也是多种农林作物常见病原菌,因此具有广泛的跨物种适用性。数据集采用CC BY 4.0许可在Figshare平台公开提供,支持研究者根据需要进行扩展和定制。
研究还探讨了多种图像预处理和增强技术的应用可能性,包括对比度调整、亮度调节、色彩饱和度修改和高斯模糊等,这些技术有助于提高模型在不同成像条件下的鲁棒性。
该研究构建的真菌孢子图像数据集不仅为柚木种植业的病害监测提供了实用工具,也为更广泛的植物保护研究奠定了基础。数据集的高质量标注和多样性使其成为训练和评估深度学习模型的理想资源,支持从样本基础评估到实时大气监测的多种应用场景。
未来,这一数据集可进一步扩展,纳入更多真菌类群和混合培养图像,增强其覆盖范围和代表性。同时,预训练模型可用于迁移学习,适应新的真菌类群或成像环境,加速其他植物-病原菌系统孢子检测技术的开发。
随着便携式成像设备和轻量级AI模型的发展,这一数据集还有望支持田间实时诊断工具的开发,使林业技术人员能够在资源有限的环境中进行快速病害识别,为全球森林健康管理和可持续林业发展提供技术支持。
这项研究通过结合植物病理学、分子生物学和计算机视觉技术,成功构建了一个高质量、多功能的真菌孢子图像资源,为智能植物病害监测系统的开发迈出了重要一步,对保障全球木材生产和森林生态系统健康具有重要意义。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号