基于弱监督混合神经网络(WSHNN)的 DNA - 蛋白质结合位点识别研究

【字体: 时间:2025年05月21日 来源:Current Computer-Aided Drug Design 1.5

编辑推荐:

  转录因子识别 DNA 序列的特异性对基因表达调控至关重要。为提升卷积神经网络(CNNs)预测 DNA - 蛋白质结合位点的准确性,研究人员提出结合多实例学习(MIL)与混合神经网络的 WSHNN 框架。实验显示,该模型 Pre 达 90.73%、Recall 达 82.77% 等,表明双向长短期记忆网络(Bi-LSTM)可更好捕捉长序列关系。

  
转录因子作为调控基因表达的关键生物组件,其核心功能是识别 DNA 序列。随着相关研究深入,发现 DNA - 蛋白质结合特异性在基因表达调控(尤其是基因治疗)中具有重要作用。卷积神经网络(Convolutional Neural Networks, CNNs)虽被广泛用于预测 DNA - 蛋白质特异性结合位点,但其预测准确性仍有待提升。
本研究提出一种结合多实例学习(Multi-Instance Learning, MIL)与混合神经网络的框架 WSHNN。首先利用滑动窗口将 DNA 序列分割为多个重叠的实例,每个实例包含多个包;随后采用 K-mer 编码对实例进行编码;通过混合神经网络分别计算同一包内所有实例的得分,最后利用全连接网络对该包进行最终预测。
实验结果表明,该框架在精确率(Precision, Pre)、召回率(Recall)、准确率(Accuracy, Acc)、F1 分数(F1-score)和马修斯相关系数(Matthews Correlation Coefficient, MCC)上分别达到 90.73%、82.77%、87.17%、0.8657 和 0.7462。此外,研究还探讨了 K-mer 编码的性能。与其他前沿研究相比,该模型利用序列信息实现了更优性能。
实验结论显示,双向长短期记忆网络(Bi-directional Long-Short-Term Memory, Bi-LSTM)能够更好地捕捉 DNA 序列间的长序列关系(代码和数据可访问:https://github.com/baowz12345/Weak_Super_Network)。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号