一种基于Word2Vec-ResNet的迁移学习模型,用于预测启动子序列,该模型结合了降维技术和跨领域知识整合功能

《Analytical Biochemistry》:A Word2Vec-ResNet Transfer Learning model for promoter prediction with dimensionality reduction and cross-domain knowledge integration

【字体: 时间:2026年02月08日 来源:Analytical Biochemistry 2.5

编辑推荐:

  启动子预测方法研究提出基于Word2Vec-ResNet的跨域迁移学习框架,通过DNA六核苷酸词嵌入实现97.6%维度压缩,并利用源域预训练知识提升四类生物(包括原核和真核)的预测准确率18.12%。

  
Jiale Fu|Xiao Liu
重庆大学微电子与通信工程学院,中国重庆,401331

摘要

启动子预测对于破译转录调控机制至关重要。然而,传统的独热编码策略在词汇量扩展时会出现维度爆炸问题,而单一领域的知识限制了预测性能。因此,我们提出了一种启动子预测方法(Word2Vec-ResNet),该方法创新地将自然语言处理(NLP)技术与跨领域迁移学习相结合。通过在源领域数据上预训练词嵌入,并将预训练的嵌入表转移到目标领域,该方法有效降低了核苷酸序列编码的维度,同时利用跨领域知识增强了模型的泛化能力。在四种代表性生物(枯草芽孢杆菌大肠杆菌酿酒酵母黑腹果蝇)的启动子数据集上的综合实验表明,所提出的方法取得了显著的性能提升:与独热编码相比,其平均编码维度降低了97.6%;与基线方法相比,预测准确性平均提高了18.12%(训练集与测试集的比例为8:2)。

引言

启动子作为DNA序列中的关键调控区域,位于基因的转录起始位点(TSS)附近[1]。它们通过指导RNA聚合酶结合并启动转录,在基因表达中起着关键作用[2]、[3]。最初,手动识别启动子需要大量的生化实验。然而,这种方法的缺点显而易见:耗时、劳动密集且成本高昂。如何从已知的启动子中找出定位启动子的规律已成为当前研究中的一个重要问题。
一种可能的方法是基于计算方法进行启动子预测。通过计算预测启动子可以在一定程度上弥补生化实验方法的不足,并取得了显著的结果。Xu等人[4]使用统计离散度和多个稀疏自编码器在深度学习中提取深度特征,构建了一个用于启动子分类的模型,并取得了良好的效果。此外,Umarov等人[5]提出了一种基于卷积神经网络的方法,该方法使用独热编码来分析启动子序列特征,实现了跨多种生物类型的准确预测。Nguyem等人[6]将DNA序列解释为连续的快速文本词帧的组合,然后将其输入深度神经网络中识别启动子及其强度。还有研究使用卷积神经网络和独热编码来识别人类RNA聚合酶II核心启动子,取得了良好的预测性能[7]。Xu等人[8]使用高效的深度卷积离散度编码方法构建了一个混合识别系统来识别启动子。与上述工作不同,Singh等人[9]首次采用了结合卷积和循环神经网络的级联架构,并利用独热编码来预测增强子-启动子相互作用。Mhaned等人[10]提出了一个结合卷积神经网络和长短期记忆(LSTM)循环神经网络的深度学习框架,将独热编码作为预测任务的关键预处理步骤。此外,Zhuang等人[11]仅使用单层卷积网络来预测增强子-启动子相互作用,其性能与卷积和循环神经网络的混合模型相当。同样,Tayara等人[12]将卷积神经网络与双链核苷酸特征相结合,并采用独热编码进行序列表示,从而获得了出色的预测性能。Amin等人[13]使用结合局部和全局特征的卷积神经网络分类器来识别启动子。此外,Tahir等人[14]提出了一种两步模型。第一步是将序列分割成词,然后使用Word2Vec模型将其映射成空间向量;第二步是基于深度学习算法识别启动子及其强度。Zhang等人[15]使用独热编码结合深度神经网络来预测启动子甲基化位点。Hong等人[16]使用预训练的DNA向量对增强子和启动子进行编码,然后使用卷积神经网络和门控循环单元提取序列的局部和全局特征,并最终通过注意力机制提高了模型的性能。此外,Sun等人[17]构建了一个基于卷积神经网络的模型,利用独热编码区分TATA和非TATA启动子序列。同样,Wang等人[18]结合序列特征和卷积网络来预测启动子。Luo等人[19]提出了HybProm模型,该模型结合了DNA2Vec编码和CNN-BiLSTM-注意力机制,有效提取了DNA序列中的局部特征和长距离依赖性,提高了跨物种启动子预测的准确性和可解释性。除了使用序列特征外,Wang等人[20]通过结合序列特征编码、图嵌入和集成学习来提高真核生物启动子预测性能,并验证了模型的可解释性。近年来,随着预训练模型的兴起,Li等人[21]提出了基于提示学习和预训练语言模型的PLPMpro,有效提高了启动子序列的预测性能。除了编码DNA序列外,一些研究还结合了DNA的物理化学性质。Bansal等人[22]研究了基于DNA序列结构的启动子特征在转录起始和基因表达中的作用,表明内在的DNA结构特性与启动子功能密切相关。Martinez等人[23]利用DNA双链稳定性作为核心特征,开发了一个SVM模型,用于准确分类古菌启动子,从而识别了135种先前未注释的古菌物种中的关键保守区域。
在当前研究中,通常使用独热编码来表示启动子序列。然而,随着词汇量的增加,这种方法会导致表示所需的向量空间迅速膨胀。为了解决这个问题,我们结合了自然语言处理中的迁移学习和词嵌入方法,提出了一种基于Word2Vec-ResNet的迁移学习启动子预测方法。具体来说,我们首先使用滑动窗口对序列进行预处理,然后使用Word2Vec技术中的连续词袋(CBOW)模型将序列转换为词向量。然后,这些词向量用于分析和识别启动子。此外,单一领域内的知识是有限的。我们通过引入迁移学习来整合其他领域的知识,解决了这一限制。在对四种生物(包括两种原核生物和两种真核生物)进行多种实验后,验证了所提出的方法可以有效优化向量空间表示。此外,引入迁移学习进一步提高了启动子预测的效率和准确性。总之,本工作的主要贡献包括:
  • 我们开发了一种Word2Vec-ResNet架构,将DNA六核苷酸视为功能“词”,使模型能够学习一个低维度但生物学上密集的潜在空间,捕捉相邻和邻近功能序列段之间的相关性——这些相关性通常是传统独热编码所忽略的。
  • 与微调模型参数不同,我们研究中的跨领域知识整合将源领域预训练的词嵌入模型整合到目标领域模型中。这使得从源领域学到的启动子元素的语义表示能够补偿不同目标生物中的数据稀疏性。
  • 数据集片段

    数据集

    在本研究中,选择不同物种的序列作为源领域和目标领域时应用了以下标准:(1)物种选择:优先选择具有高质量基因组测序和完整启动子区域注释的物种,以确保数据的可靠性和可用性;(2)序列长度过滤:保持以核心启动子区域为中心的统一固定长度(原核生物为81 bp,真核生物为300 bp),以消除潜在的

    结果

    本节讨论了从这项工作中获得的各种结果。最初,在四种物种上进行了跨物种迁移实验。结果表明,迁移学习可以通过整合来自其他领域的知识来提高模型预测性能。此外,我们设计了四种不同的实验方法来进一步验证迁移学习在跨领域整合知识方面的有效性。

    讨论

    本研究提供了有力的证据,证明了Word2Vec–ResNet迁移学习框架在提高启动子预测方面的有效性,这通过一系列原核生物间、真核生物间以及跨领域(原核生物到真核生物)的迁移实验得到了证明。迁移学习通过有效整合来自源生物的保守调控知识,在启动子识别方面具有显著优势。

    结论

    启动子在转录起始中起着关键作用。在现有研究中,广泛使用独热编码来编码启动子序列。然而,独热编码有明显的局限性:随着词汇量的增加,向量维度也会扩大。此外,在启动子预测研究中,单一物种的有限领域知识严重限制了模型的预测能力。因此,我们提出了一种基于Word2Vec-ResNet的迁移学习方法来预测启动子

    CRediT作者贡献声明

    Jiale Fu:写作 – 审稿与编辑、撰写 – 原稿、可视化、验证、软件、方法论、调查、正式分析、数据管理、概念化。Xiao Liu:写作 – 审稿与编辑、监督、资源管理、项目管理、方法论、资金获取、正式分析、数据管理、概念化

    利益冲突声明

    作者声明他们没有已知的竞争性财务利益或个人关系可能影响本文所述的工作。

    数据可用性

    代码和数据可在https://github.com/Cqerliu/PromoterTransfer公开获取。

    资金信息

    本工作得到了重庆市自然科学基金 [编号:CSTB2024NSCQ-MSX0129]的支持。

    利益冲突声明

    作者声明他们没有已知的竞争性财务利益或个人关系可能影响本文所述的工作。
    相关新闻
    生物通微信公众号
    微信
    新浪微博
    • 搜索
    • 国际
    • 国内
    • 人物
    • 产业
    • 热点
    • 科普

    知名企业招聘

    热点排行

      今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

      版权所有 生物通

      Copyright© eBiotrade.com, All Rights Reserved

      联系信箱:

      粤ICP备09063491号