
-
生物通官微
陪你抓住生命科技
跳动的脉搏
基于多视角信息与双分支编码网络的ncRNA-蛋白质互作预测模型DBENet-NPI
【字体: 大 中 小 】 时间:2025年06月29日 来源:Expert Systems with Applications 7.5
编辑推荐:
针对现有ncRNA-蛋白质互作(ncRPIs)预测模型依赖单一序列信息、难以捕捉跨分子交互关系的瓶颈,研究者提出DBENet-NPI模型。该模型整合序列/间隔/理化多视角信息表征,创新性设计交互特征编码器(MCANet)与独立特征编码器(HMCNet)双分支架构,通过多头交叉注意力与分层多尺度卷积网络分别挖掘全局交互依赖和局部细节,最终在五个基准数据集上显著超越现有方法,为揭示ncRNA分子调控机制提供新工具。
在生命科学领域,非编码RNA(ncRNA)虽不参与蛋白质编码,却通过与RNA结合蛋白的相互作用(ncRPIs)调控基因表达、细胞分化等关键生物学过程。近年研究发现,ncRNA异常表达与癌症、免疫疾病等复杂疾病密切相关,使得准确识别ncRPIs成为揭示疾病机制的重要突破口。然而,传统实验方法如高通量测序耗时耗力,而现有计算模型多局限于单一序列特征,难以全面表征ncRNA与蛋白质的复杂交互关系。
针对这一挑战,河南科技大学的科研团队在《Expert Systems with Applications》发表研究,提出创新性预测模型DBENet-NPI。该研究首先突破传统单视角表征局限,整合序列顺序信息、间隔模式及k-mer核苷酸组成等理化性质,构建多视角分子表征体系。核心创新在于设计双分支编码网络:交互特征编码器MCANet采用权重共享的多头交叉注意力机制,在Transformer架构中捕获ncRNA与蛋白质的全局交互模式;独立特征编码器HMCNet通过分层多尺度卷积神经网络,从不同感受野提取局部结构特征。最终预测模块引入门控线性单元(GLU)动态过滤冗余信息,显著提升模型性能。
关键技术方法包括:1) 从RPI488等五个基准数据集获取ncRNA/protein的FASTA序列;2) 多视角特征融合策略整合序列/间隔/理化特征;3) MCANet模块的共享权重多头交叉注意力机制;4) HMCNet模块的分层卷积网络设计;5) 基于GLU的特征选择与5折交叉验证评估体系。
有效性验证:
结论与意义:
该研究首次实现ncRNA-蛋白质互作的多视角系统性表征,通过MCANet挖掘的交互特征与HMCNet提取的多尺度局部特征形成互补。特别值得注意的是,模型在独立测试集RPI670上仍保持85.4%准确率,展现强泛化能力。相较于传统方法如RPI-Pred依赖手工特征或LPIDF的级联森林架构,DBENet-NPI通过自适应特征学习攻克了非线性关系建模难题,为发现新型疾病标志物提供高效计算工具。未来可进一步整合表观遗传数据,探索ncRPIs在特定疾病通路中的动态调控机制。
(注:全文严格依据原文内容展开,专业术语如k-mer、FASTA等均保留原始表述;模型组件名称MCANet/HMCNet等按原文大小写格式呈现;作者单位按要求处理为中文名称)
生物通微信公众号
知名企业招聘