DiscoEPG:利用机器学习和深度学习方法实现蚜虫刺吸电位(EPG)波形精准自动注释的Python工具包

《Smart Agricultural Technology》:DiscoEPG: A Python package for characterization of aphid electrical penetration graph (EPG) signals

【字体: 时间:2026年02月16日 来源:Smart Agricultural Technology 5.7

编辑推荐:

  本文推荐:为克服传统蚜虫刺探电位图(Electrical Penetration Graph, EPG)技术中人工注释波形耗时费力、易出错且现有自动注释工具精度不足的难题,研究人员开发了名为DiscoEPG的开源Python软件包。该工具利用经过优化的机器学习(ML)与深度学习(DL)算法,实现了对蚜虫EPG数据的高精度自动注释,并集成了计算EPG行为变量、统计分析及生成出版物级图表等功能,显著提升了该技术的可及性与分析效率,对于深入研究植物-昆虫互作具有重要意义。

  
在植物与昆虫,特别是那些拥有刺吸式口器的害虫之间,存在着一场精密而持久的“攻防战”。为了深入观察蚜虫等小型昆虫如何“品尝”植物汁液,科学家们自1964年便启用了刺吸电位图技术。这项技术能够记录下昆虫口针刺探植物组织时产生的微弱电信号,这些信号呈现出特定的波形模式,对应着诸如非刺探(NP)、路径期(C)、电位降落(pd)、木质部取食(G)、E1和E2等不同取食行为。分析这些波形,可以揭示昆虫的取食偏好、植物的抗性机制等关键信息。然而,解读这些波形图长期以来高度依赖经验丰富的研究人员。他们需要像“心电图医生”一样,在长达8小时的记录中,人工识别和标注每一种波形。这个过程不仅极其耗时——一次标注可能需要超过30分钟,而且容易受到主观判断和疲劳的影响,限制了EPG技术的广泛应用和高通量分析。尽管已有一些利用计算机辅助分析甚至机器学习(ML)进行自动注释的尝试,但这些工具要么预测精度不佳,要么缺乏公开可用的、功能完善的软件包。
为了解决这些瓶颈,一篇发表在《Smart Agricultural Technology》上的研究介绍了DiscoEPG——一个旨在革新蚜虫EPG数据分析的开源Python工具包。研究团队的核心目标是开发一个高精度、自动化且用户友好的分析流程,以替代传统的手工注释,并整合从数据处理到统计分析和结果可视化的完整分析链条。
为达成这一目标,研究人员主要运用了以下关键方法:首先,他们构建了一个大规模、经过人工校验的EPG数据集,涵盖4种蚜虫和6种寄主植物(8个品种)共计332个8小时记录。其次,开发了基于机器学习/深度学习的自动注释算法,该算法将EPG记录分割成等长片段,使用傅里叶变换或小波变换进行特征提取,然后应用多种分类模型(包括1D-CNN、ResNet等深度学习模型和XGBoost等传统机器学习模型)进行波形分类。最后,将整个流程封装成模块化、易用的Python包,核心模块包括用于数据加载、分析和可视化的EPGDataset类,以及用于模型训练与推理的EPGSegmentEPGSegmentML模块。
研究结果
1. 自动注释算法性能卓越
研究团队提出的算法通过将长记录分割为固定长度(默认为10.24秒)的样本,利用机器学习模型进行逐个样本分类,最终拼接成完整的注释。在数据集划分上,他们使用了90%的记录(子集1)训练模型,并评估其在样本分类和完整记录注释两个层面上的性能。评估结果显示,所采用的模型均表现出强大的学习能力。其中,XGBoost在波形样本分类任务中表现尤为突出,整体准确率(OA)和平均F1分数分别达到95.5%和94.0%。在完整的记录注释任务中,ResNet模型在重叠率(OR)指标上与XGBoost表现相当(84.4% vs 84.5%)。研究还发现,深度学习模型(1DCNN, ResNet)在原始信号上表现最佳,而XGBoost则受益于小波变换(WT)带来的降维特征。
2. DiscoEPG显著优于现有公开工具
与目前唯一公开可用的竞争软件A2EPG相比,DiscoEPG在注释精度上展现出巨大优势。在一个具体的记录对比中,DiscoEPG的重叠率(OR)达到92.28%,而A2EPG仅为38.90%。DiscoEPG能更准确地检测长且重复的波形(如G和E2),尽管在检测复杂模式(如C)和短时波形(如pd)时仍有一定挑战。相比之下,A2EPG在处理G、E1和E2等波形时表现较差,且缺乏批量处理记录和标准化输出等功能。
3. 软件包功能全面且易于使用
DiscoEPG不仅提供了自动注释功能,还集成了完整的分析流程。其EPGDataset模块可以快速加载EPG数据,自动计算由领域专家定义的一系列标准EPG行为变量,并能进行组间统计检验(如t检验、Wilcoxon检验等)。同时,该工具包内置了强大的可视化功能,可生成用于出版的高质量图表,支持交互式或静态格式,便于研究人员直观检查和验证预测结果。用户仅需编写少量代码即可完成从数据加载、模型训练、预测到结果分析和可视化的全过程。
研究结论与重要意义
本研究成功开发并验证了DiscoEPG这一开源Python工具包,为蚜虫刺吸电位图分析提供了一套先进、高效且可靠的自动化解决方案。它通过引入优化的机器学习与深度学习算法,显著提升了EPG波形自动注释的准确性和效率,克服了传统人工注释和现有工具的局限性。DiscoEPG将数据读取、自动注释、变量计算、统计分析及可视化集成于一体,极大地简化了EPG数据分析流程,降低了技术门槛。
该研究的成功之处在于:第一,基于大规模、高质量数据集训练模型,确保了算法的泛化能力和可靠性;第二,实现了从信号处理到模型应用的完整技术链条,并提供了用户友好的接口;第三,在性能上超越了现有公开工具,为植物-昆虫互作研究提供了更强大的分析工具。虽然当前版本主要针对蚜虫优化,但其框架设计为未来扩展到其他半翅目昆虫(如叶蝉、木虱、蝽类)奠定了基础,前提是需要相应物种的专家标注数据集。DiscoEPG的发布,有望使EPG技术更广泛地应用于昆虫行为学、植物抗虫性育种、新型杀虫剂评估等多个领域,推动相关研究向更高通量、更精确的方向发展。
相关新闻
生物通微信公众号
微信
新浪微博

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号