超保守元件与机器学习分类器赋能线虫系统发育与分类学的稳健研究
【字体:
大
中
小
】
时间:2025年10月11日
来源:Molecular Ecology Resources 5.5
编辑推荐:
本研究开发了首个针对Panagrolaimidae和Rhabditidae线虫家族的UCEs探针组(分别靶向1612和100,397个基因座),通过体外测试在Panagrolaimidae中成功捕获1457个基因座,实现了高分辨率系统发育重建。结合机器学习(XGBoost算法)筛选出关键基因座(Rhabditidae仅需46个,Panagrolaimidae仅需39个),为线虫分类提供了可扩展、低成本的基因组学框架。该方法显著提升了对非模式生物的分类能力,并成功重新鉴定了Neocephalobus halophilus BSS8物种,为生态评估和田间测序提供了创新解决方案。
引言
线虫(Phylum Nematoda)是地球上最多样化和最丰富的动物类群之一,栖息于几乎所有生态系统,在调节微生物和真菌群落、促进营养循环、维持土壤健康和分解过程等方面发挥关键生态作用,同时也是植物、动物和人类的寄生虫。尽管估计存在100万个物种,但仅有约28,000个物种被形态学描述,这种巨大的“分类学差距”限制了对生物多样性和进化历史的理解。传统形态学和单一位点分子方法在解析近期和古代分化事件时缺乏分辨率,因此需要开发新的方法进行稳健的系统发育定位。
材料与方法
2.1 Panagrolaimidae家族的系统基因组学分析:计算机和体外测试
使用Phyluce 1.7.2设计探针组,测试了8个基础基因组,包括Panagrolaimus sp. PS1159、Panagrolaimus kolymaensis等。通过映射读取、合并间隔区域、去除重复和模糊碱基,最终设计出靶向1612个基因座的探针组,并通过Daicel Arbor BioSciences合成。
从琼脂平板中收获线虫,使用Quick-DNA Microprep Plus Kit提取DNA,并通过Illumina NovaSeq平台进行测序。文库制备采用TruSeq Nano DNA Kit,杂交后捕获清洗步骤,最终进行测序。
2.1.3 测序数据分析:体外测试和系统基因组重建
使用Phyluce 1.7.3分析数据,包括修剪适配器、质量评估、组装和提取UCE基因座。通过IQ-TREE进行最大似然系统发育推断,并使用TreeViewer可视化结果。
对先前鉴定为Panagrolaimus detritophagus BSS8的菌株进行形态学测量,包括体长、 vulva位置、唇区宽度等,并与近缘物种比较,最终重新鉴定为Neocephalobus halophilus BSS8。
2.2 精确物种界定的超保守元件:以Caenorhabditis为例的测试案例
以Caenorhabditis elegans Bristol N2为基础基因组,设计靶向10,397个基因座的探针组,用于Rhabditidae家族的系统发育分析。
2.2.2 Caenorhabditis的系统发育重建
使用UCE数据重建Caenorhabditis物种的系统发育树,并与先前基于正交基因的分析结果进行比较,结果显示高度一致。
2.3 基于超保守元件(UCEs)的分类模型
从物种特异性FASTA文件中提取UCE标识符,构建二进制存在-缺失矩阵,并进行探索性数据分析。最终生成属水平的UCE存在-缺失矩阵,用于预测建模。
使用Rhabditidae数据集评估四种机器学习模型:随机森林(RF)、逻辑回归(LR)、k近邻(k-NN)和极限梯度提升(XGBoost)。通过分层分区和五折交叉验证进行训练,XGBoost表现最佳,AUC达0.9997。
2.3.3 优化模型在Panagrolaimidae数据中的应用
将特征选择的XGBoost模型应用于Panagrolaimidae数据集,处理类别不平衡问题,最终实现94.12%的分类准确率。
结果
3.1 探针设计
Panagrolaimidae探针组靶向1612个基因座,Rhabditidae探针组靶向10,397个基因座。计算机测试显示,探针组在不同基础基因组中具有高保守性。
3.2 Panagrolaimidae的体外和计算机测试
SPAdes组装结果显示,Panagrolaimidae样本的contig数量在42,479至28,7752之间,平均长度531.86±269.55 bp。共分析51个数据集,使用1572个基因座进行系统发育重建,支持高分辨率拓扑结构。
3.3 形态学和分子证据的物种重新评估
通过形态学测量和UCE系统发育分析,确认BSS8菌株为Neocephalobus halophilus,而非Panagrolaimus detritophagus。主要诊断特征包括 distinct papilliform precloacal sensillum的存在和尾部长度差异。
3.4 Rhabditidae的计算机测试
从Rhabditidae基因组中收获的UCE基因座数量在1至5700之间,50个UCE在所有属中共享。系统发育重建显示,UCE衍生的拓扑结构与基于正交基因的分析高度一致。
3.5 基于超保守元件(UCEs)的分类模型
3.5.1 Rhabditidae和Panagrolaimidae中UCE的存在和特征
UCE数量在Rhabditidae中范围为26至11,400,中位数7762;在Panagrolaimidae中范围为15至1457,中位数767.5。分布模式显示Rhabditidae为双峰,Panagrolaimidae为单峰。
3.5.2 Rhabditidae数据上的机器学习模型基准测试
XGBoost模型表现最佳,AUC为0.9997,准确率98.51%,仅 misclassified一个Oscheius样本。随机森林、k-NN和逻辑回归表现次之。
3.5.3 Panagrolaimidae UCE数据的分类性能
优化后的XGBoost模型在Panagrolaimidae数据集上达到94.12%的准确率,仅使用39个重要UCE即可实现全特征模型的性能。
讨论
4.1 超保守元件可用于线虫的稳健系统发育重建
设计的探针组成功捕获UCE基因座,支持高分辨率系统发育重建。结果与先前基于分子标记和全基因组数据的研究一致, except for BSS8菌株的重新鉴定。系统发育分析显示, asexual Panagrolaimus菌株聚类 together,与 sexual reproducing菌株分离。
4.2 Panagrolaimus detritophagus BSS8实为Neocephalobus halophilus BSS8
形态学和分子证据确认BSS8菌株为Neocephalobus halophilus,而非Panagrolaimus detritophagus。主要区分特征包括 stoma形状、 sensory structures排列和尾部长度。
4.3 最小UCE信息集可准确分类至属水平
机器学习分析显示,仅需46个UCE即可实现Rhabditidae属级分类,39个UCE即可实现Panagrolaimidae分类。XGBoost模型高效识别重要特征,如uce.15118和uce.1361。
4.4 UCE-based线虫分类在生物多样性评估和农业监测中的潜力
线虫作为土壤质量和生态系统功能的关键生物指示剂,其快速准确分类对环境监测和农业研究至关重要。UCE方法结合便携测序技术(如Nanopore),可实现田间实时检测,特别适用于植物寄生线虫(如Meloidogyne、Heterodera)的早期诊断。未来自动化流程将进一步提升分类效率。
作者贡献
研究由L.V.、L.J.和P.H.S.设计,J.v.S.提供生物信息学支持,实验室工作由L.V.完成,生物信息和统计分析由L.V.和L.J.完成,P.H.S.、A.W.和O.H.提供全程指导。手稿由L.V.和L.J.起草,所有作者共同编辑。
致谢
研究得到DFG资助的CRC1211和ENP grant支持,感谢科隆基因组中心(CCG)和Marie-Anne Félix提供线虫培养物。
利益冲突
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号