
-
生物通官微
陪你抓住生命科技
跳动的脉搏
基于原型网络的eDNA序列物种识别可解释深度学习模型构建
【字体: 大 中 小 】 时间:2025年07月29日 来源:Scientific Reports 3.8
编辑推荐:
本研究针对环境DNA(eDNA)物种监测中传统卷积神经网络(CNN)存在的"黑箱"问题,创新性地将ProtoPNet框架应用于eDNA序列分析领域。研究人员开发了包含跳跃连接的新型原型网络,在保持150倍于ObiTools处理速度的同时,实现了95.31%的分类准确率,并通过可视化10碱基特征序列显著提升模型可解释性。该成果为生物多样性监测提供了兼具高效性和透明性的AI解决方案,对生态保护具有重要实践价值。
在生物多样性监测领域,传统物种鉴定方法如物理观察、拖网捕捞等存在效率低下、侵入性强等问题。虽然环境DNA(eDNA)技术通过分析水体中生物脱落的遗传物质显著提升了监测效率,但主流生物信息学工具ObiTools处理数百万条序列时耗时严重,而替代方案卷积神经网络(CNN)又因决策过程不透明面临信任危机。这种矛盾在气候变暖导致物种迁徙加剧的背景下尤为突出,例如缅因湾水域鱼类分布变化就亟需高效可靠的监测手段。
美国缅因大学计算与信息科学学院的研究团队在《Scientific Reports》发表创新成果,通过改造Chen等提出的ProtoPNet框架,首次构建了面向eDNA序列的可解释深度学习模型。该研究以法属圭亚那河流采集的12S核糖体DNA序列为对象,包含156种鱼类共计两百万条序列。研究人员开发了包含原始序列跳跃连接的混合相似度计算机制,使模型既能保持95.66%的测试准确率,又能可视化每个物种最具判别力的10碱基特征序列。
关键技术包括:1)采用单层CNN架构提取512维潜在特征;2)引入原型层比较输入序列与468个可解释原型(每物种3个);3)创新性添加原始序列比对通道,通过超参数κ=0.7平衡潜在特征与原始序列的相似度计算;4)使用插入/缺失突变和5%碱基替换率的数据增强策略;5)应用聚类损失和分离损失优化原型分布。
模型架构优化
验证数据表明单层CNN在测试集达到94.48%准确率,显著优于多层架构。如图3所示,增加网络深度不仅降低可解释性,还使准确率下降2-5%。Transformer模型表现更差,最高仅75.4%准确率,证实CNN更适合捕获eDNA的短程模式特征。

可解释性突破
如图5所示,当原型比较中原始序列权重(1-κ)提升至0.3时,准确率反超纯潜在特征比较(κ=1)模型0.8%。这颠覆了"更高复杂度必然带来更好性能"的认知,证明适度引入可解释组件能同时提升模型透明度和准确率。

生物学意义发现
通过可视化原型匹配过程(图6),研究发现Gymnotus anguillaris等物种的判别特征集中在特定10碱基序列。NCBIGenBank验证显示,这些原型在组织样本中同样具有高Smith-Waterman比对分数,证实模型捕捉到了真实的生物学特征。

该研究实现了eDNA分析领域三大突破:首先,原型可视化使科研人员能直接审查模型决策依据,如图7所示Cyphocharax gouldingi的判别特征;其次,跳跃连接机制为深度学习可解释性研究提供了新范式;最后,在数据稀缺条件下(平均每物种仅3.02条序列)取得高精度,证明小样本学习在生态学应用的可行性。这些进展为气候变化背景下的生物多样性监测提供了可靠工具,同时其方法论对医疗诊断等需要可解释AI的领域具有重要借鉴意义。

生物通微信公众号
知名企业招聘