基于原型网络的eDNA序列物种识别可解释深度学习模型构建

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

【字体：大中小】 时间：2025年07月29日 来源：Scientific Reports 3.8

编辑推荐：

　　本研究针对环境DNA(eDNA)物种监测中传统卷积神经网络(CNN)存在的"黑箱"问题，创新性地将ProtoPNet框架应用于eDNA序列分析领域。研究人员开发了包含跳跃连接的新型原型网络，在保持150倍于ObiTools处理速度的同时，实现了95.31%的分类准确率，并通过可视化10碱基特征序列显著提升模型可解释性。该成果为生物多样性监测提供了兼具高效性和透明性的AI解决方案，对生态保护具有重要实践价值。

在生物多样性监测领域，传统物种鉴定方法如物理观察、拖网捕捞等存在效率低下、侵入性强等问题。虽然环境DNA(eDNA)技术通过分析水体中生物脱落的遗传物质显著提升了监测效率，但主流生物信息学工具ObiTools处理数百万条序列时耗时严重，而替代方案卷积神经网络(CNN)又因决策过程不透明面临信任危机。这种矛盾在气候变暖导致物种迁徙加剧的背景下尤为突出，例如缅因湾水域鱼类分布变化就亟需高效可靠的监测手段。

美国缅因大学计算与信息科学学院的研究团队在《Scientific Reports》发表创新成果，通过改造Chen等提出的ProtoPNet框架，首次构建了面向eDNA序列的可解释深度学习模型。该研究以法属圭亚那河流采集的12S核糖体DNA序列为对象，包含156种鱼类共计两百万条序列。研究人员开发了包含原始序列跳跃连接的混合相似度计算机制，使模型既能保持95.66%的测试准确率，又能可视化每个物种最具判别力的10碱基特征序列。

关键技术包括：1)采用单层CNN架构提取512维潜在特征；2)引入原型层比较输入序列与468个可解释原型(每物种3个)；3)创新性添加原始序列比对通道，通过超参数κ=0.7平衡潜在特征与原始序列的相似度计算；4)使用插入/缺失突变和5%碱基替换率的数据增强策略；5)应用聚类损失和分离损失优化原型分布。

模型架构优化
验证数据表明单层CNN在测试集达到94.48%准确率，显著优于多层架构。如图3所示，增加网络深度不仅降低可解释性，还使准确率下降2-5%。Transformer模型表现更差，最高仅75.4%准确率，证实CNN更适合捕获eDNA的短程模式特征。

可解释性突破
如图5所示，当原型比较中原始序列权重(1-κ)提升至0.3时，准确率反超纯潜在特征比较(κ=1)模型0.8%。这颠覆了"更高复杂度必然带来更好性能"的认知，证明适度引入可解释组件能同时提升模型透明度和准确率。

生物学意义发现
通过可视化原型匹配过程（图6），研究发现Gymnotus anguillaris等物种的判别特征集中在特定10碱基序列。NCBIGenBank验证显示，这些原型在组织样本中同样具有高Smith-Waterman比对分数，证实模型捕捉到了真实的生物学特征。

该研究实现了eDNA分析领域三大突破：首先，原型可视化使科研人员能直接审查模型决策依据，如图7所示Cyphocharax gouldingi的判别特征；其次，跳跃连接机制为深度学习可解释性研究提供了新范式；最后，在数据稀缺条件下(平均每物种仅3.02条序列)取得高精度，证明小样本学习在生态学应用的可行性。这些进展为气候变化背景下的生物多样性监测提供了可靠工具，同时其方法论对医疗诊断等需要可解释AI的领域具有重要借鉴意义。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号