Enhancing nucleotide sequence representations in genomic analysis with contrastive optimization:为基因组分析注入新活力的序列优化技术
编辑推荐:
在分析基因组和宏基因组序列面临诸多难题的背景下,研究人员开展了关于 Scorpio(Sequence Contrastive Optimization for Representation and Predictive Inference on DNA)框架的研究。结果显示,该框架在多种任务中表现出色,为基因组分析提供了新的有效方法。
在生命科学领域,随着新一代测序技术的蓬勃发展,海量的基因组和宏基因组数据如潮水般涌现。这些数据蕴含着丰富的生物学信息,仿佛是一座等待挖掘的巨大宝藏,与人类健康、农业、环境系统等众多领域紧密相连。然而,这座宝藏并不好挖掘,分析这些数据面临着重重挑战。比如,进化上相关的核苷酸序列之间差异较大,不同物种基因组内及之间的 k -mer 和密码子使用情况各不相同,而且选择性约束也尚未被完全理解 。传统的序列比对方法在处理日益增长的宏基因组数据时,计算难度越来越大,就像用一把小钥匙去开一把巨大而复杂的锁,力不从心。而现有的一些基于 k -mer 特征的无比对方法,又会丢失重要的位置信息,如同拼图时缺失了关键的几块,无法完整呈现基因组的全貌。
在这样的困境下,来自德雷塞尔大学(Drexel University)的研究人员挺身而出,开展了一项极具意义的研究。他们提出了 Scorpio(Sequence Contrastive Optimization for Representation and Predictive Inference on DNA)框架,旨在利用对比学习来提升核苷酸序列的嵌入表示,为基因组分析开辟新的道路。该研究成果发表在《Communications Biology》上,为相关领域带来了新的希望和突破。
研究人员在这项研究中运用了多种关键技术方法。首先,他们利用预训练的基因组语言模型和 k -mer 频率嵌入来构建 Scorpio 框架。在训练过程中,采用了三元组训练方法,精心选择锚点(anchor)、正样本(positive example)和负样本(negative example),以优化嵌入空间。为了高效检索嵌入,还使用了 FAISS(Facebook AI Similarity Search)技术。同时,通过构建不同类型的数据集,如基因和分类学数据集、短片段数据集、启动子数据集以及抗菌耐药性数据集等,来全面评估模型的性能。
下面让我们详细看看研究结果。
- Scorpio 框架概述:研究人员精心策划,首先构建了一个包含 800,318 条序列的数据集。这个数据集可不简单,它经过层层筛选,去除了未知和假设的蛋白质序列,只保留了那些 “精华”—— 常见、保守且研究充分的基因。在 Scorpio 框架中,采用了三元组训练方式,就像搭建了一个精密的 “学习机器”,有基于 6 - mer 频率的编码器(Scorpio - 6Freq),还有基于 BigBird 嵌入层的两种编码器(Scorpio - BigDynamic 和 Scorpio - BigEmbed)。并且,利用 FAISS 技术来存储和检索预计算的嵌入,还能根据距离计算置信分数,为后续的分析提供可靠的依据。
- Scorpio 嵌入可从全长基因序列中揭示基因类型和分类学水平:在对 800,318 条全长 DNA 基因序列的测试中,Scorpio 与当前领先的方法进行了激烈的 “较量”,如 Kraken2、MMseqs2、DeepMicrobes 和 BERTax 等。在测试集上,MMseqs2 虽然在分类学水平上准确率较高,但 Scorpio 在识别未知基因和分类学分类方面表现得更加出色。尤其是在处理从未见过的代表性基因和分类单元时,Scorpio 的优势更加明显,它能够捕捉到基因序列中的细微模式,就像拥有一双敏锐的 “眼睛”,看穿基因的奥秘。
- Scorpio 嵌入可识别短片段的基因和分类学标签:研究人员还测试了 Scorpio 在短片段上的表现,聚焦于 400bp 的片段,这和下一代测序平台产生的重叠配对读数大小相当。结果发现,Scorpio 在短片段的基因和分类学识别上同样表现优异。与其他方法相比,它不仅训练时间更短,而且在分类新颖生物体和基因方面具有明显优势,能够清晰地区分不同基因和分类单元的短片段,就像在一堆杂乱的拼图碎片中快速准确地找到属于同一类的碎片。
- 评估置信分数:基因和分类学分类方法的比较分析:为了更好地评估分类的质量,研究人员引入了一种基于 Scorpio 嵌入的置信评分方法。通过与 Kraken2 和 MMseqs2 等方法的对比发现,Scorpio 在处理未知基因序列时,能够在保证分类精度的同时,平衡分类序列的数量。就像在走钢丝时,既能保持稳定,又能顺利前行,为宏基因组数据分析提供了更可靠的结果。
- Scorpio 嵌入捕获编码序列的核苷酸水平进化以及密码子适应与序列相似性之间的关系:在分子进化的研究中,密码子适应指数(CAI)是一个重要的指标,它反映了基因在基因组环境中特定密码子的使用频率,以及基因序列与宿主生物翻译机制的适配程度。研究人员发现,Scorpio 嵌入与 CAI 之间存在显著的负相关关系,这表明它能够捕捉到与翻译效率相关的信号,而且这种信号与基因长度无关。同时,Scorpio 嵌入还能反映基因之间的序列相似性,就像一个 “信息探测器”,挖掘出基因背后隐藏的秘密。
- Scorpio 嵌入的微调用于细菌启动子预测:研究人员进一步探索了 Scorpio 在预测细菌启动子区域的能力。启动子是调控下游基因表达的关键区域,对它的准确预测至关重要。Scorpio 在对启动子序列进行微调后,在预测准确性和马修斯相关系数(MCC)等指标上有了显著提升,虽然与专门训练的 ProkBERT 模型相比略有差距,但整体表现仍然优于大多数其他方法,展现出了在处理短序列和跨领域任务的潜力。
- Scorpio 嵌入在其他领域的可转移性:抗生素抗性预测:研究人员还测试了 Scorpio 模型在抗菌抗性(AMR)预测任务中的表现。结果令人惊喜,Scorpio 模型在没有针对 AMR 数据集进行专门训练的情况下,仍然能够在类预测准确性上超越其他模型,尤其是在识别抗性机制方面表现出色。它就像一个 “超级侦探”,能够发现隐藏在基因中的抗性线索,为抗菌药物的研发和使用提供了重要的参考。
在研究结论和讨论部分,Scorpio 框架展现出了强大的实力和潜力。它通过结合预训练语言模型和对比学习,在多种基因组分析任务中表现卓越,提高了分类的准确性和泛化能力。而且,它还能捕捉到基因表达和翻译效率等相关的细微信息,为深入理解基因功能和进化提供了新的视角。此外,Scorpio 框架的通用性使其能够应用于多个领域,如抗菌抗性预测和启动子检测等。不过,研究人员也指出,未来还有很多工作需要完善,比如扩大数据集规模,整合更多的生物学信息,优化计算效率,以及将其应用拓展到更多的生物序列数据领域。
总的来说,这项研究成果为基因组分析提供了一种强大而灵活的工具,就像为生物学家们提供了一把万能钥匙,能够打开更多基因组奥秘的大门,在健康和环境诊断等领域具有广阔的应用前景,有望为相关领域的发展带来新的突破和变革。