编辑推荐:
为解决神经肽(NPs)准确识别难题,研究人员开展基于深度学习的 NeuroScale 模型研究。该模型整合 ESM 与 GoogLeNet 框架,经多维度验证,AUC 超 0.97,展现高准确性与鲁棒性,为神经肽发现和药物开发提供新工具。
在生命科学领域,神经肽(Neuropeptides, NPs)作为一类关键的信号分子,犹如体内的 “通信兵”,在发育、代谢、记忆等诸多生理和行为过程中扮演着举足轻重的角色。它们不仅在神经系统中穿梭传递信息,还通过内分泌系统广泛调控着摄食、生殖、心血管稳态等生理功能,甚至与睡眠障碍、抑郁症、肥胖等多种疾病的发生发展紧密相关。然而,尽管神经肽如此重要,其准确识别却一直是科研人员面临的棘手难题。传统的实验方法,如质谱和液相色谱技术,虽然能准确鉴定新神经肽,但耗时又昂贵,如同在大海里捞针般低效。于是,开发更有效的计算方法来预测神经肽成为了科学界的迫切需求。
为了攻克这一难题,电子科技大学生命科学与技术学院等机构的研究人员开展了相关研究,他们的成果发表在《BMC Biology》上。研究团队开发了名为 NeuroScale 的多通道神经网络模型,旨在实现神经肽的精准预测。
研究人员主要采用了以下关键技术方法:首先,利用蛋白质大语言模型 ESM2 中的 esm2_t33_650M_UR50D 组件作为特征提取器,该组件经过数亿蛋白质序列的训练,能够捕捉蛋白质的序列 - 结构 - 功能关系;其次,引入 GoogLeNet 框架构建多通道全连接神经网络,通过三个不同通道对特征进行独立处理和融合,以提取多维度信息;此外,研究中使用了五折交叉验证来评估模型性能,并构建了不同序列相似性阈值和长度的数据集来验证模型的鲁棒性和泛化能力。样本主要来源于 NeuroPep 2.0 数据库和 UniProt 数据库。
模型架构与特征提取效果
NeuroScale 由四部分组成:多尺度蛋白质序列输入语言模型,经 ESM2Tokenizer 模块处理获得注意力掩码;利用 esm2_t33_650M_UR50D 提取特征,该组件有 33 层、650M 参数,擅长捕捉蛋白质的序列 - 结构 - 功能关系;基于 GoogLeNet 的多通道全连接神经网络,采用三通道结构,各通道独立处理输入特征并输出 64 维向量,最终通过元素求和得到特征表示。通过对比多种蛋白质大语言模型,发现 ESM 系列模型表现优异,其中 E4 模型(esm2_t33_650M_UR50D)在 ACC、Rec、Pre、MCC、F1 等指标上均表现突出,证明了其在神经肽预测任务中的有效性。
运行时间比较
在计算效率方面,对各模型进行 500 次随机时间评估,E4 模型虽运行时间略长于其他模型,但始终在 0.035 秒内完成分析,多数操作在 0.032-0.034 秒之间,表明其在保证高性能的同时,仍具备较高的计算效率。
独立外部验证
为验证 NeuroScale 的泛化能力,研究人员构建了多个数据集,包括苦味肽、钠尿肽 A、下丘脑分泌素神经肽前体和促性腺激素释放激素等数据集。经五折交叉验证训练和测试,NeuroScale 在识别三种类型的肽时,MCC 和 ACC 值均大于 0.98,在识别苦味肽时也表现出较好性能,ROC 曲线和 PRC 曲线显示其在神经肽和非神经肽识别中均表现出色,证明了其强大多样性。
与最新方法比较
将 NeuroScale 与 NeuroPred-PLM、PredNeuroP 等最新神经肽预测方法比较,在相同数据集和五折交叉验证下,NeuroScale 的 ACC 最高(0.9513),MCC、Rec、Pre、F1 等指标也显著高于其他方法,表明其预测性能更优。
蛋白质相似性阈值与序列长度的影响
通过构建不同相似性阈值(0.4-0.8)的数据集,评估模型性能发现,NeuroScale 在不同阈值下均表现良好,AUC 值稳定在 0.9780-0.9855,MEME 分析显示不同阈值下识别的保守基序分布偏好高度相似,证明其能准确捕捉神经肽的多样性和保守性。在不同序列长度(≤100、≤200 等)的数据集上,NeuroScale 的 MCC、ACC、F1 等指标均保持稳定,AUC 和 AUPRC 超 0.99,表明其能有效处理不同长度的蛋白质序列。
NeuroScale 的成功开发为神经肽研究领域带来了新的曙光。该模型凭借先进的深度学习技术和蛋白质大语言模型强大的表征能力,实现了对神经肽的高效准确分类。其不仅在标准数据集上超越了现有神经肽预测方法,还在特征提取效果、运行时间、外部验证等方面展现出独特优势。通过结合 ESM2 模型强大的特征提取能力和多通道全连接层的精妙设计,NeuroScale 能够捕捉神经肽序列的复杂特征,这对于准确预测神经肽序列至关重要。
此外,研究表明 NeuroScale 在处理不同序列长度和相似性阈值的蛋白质序列时,均能保持较高的预测准确性,凸显了其在实际应用中的可靠性和鲁棒性,也强调了设置合适相似性阈值对提高模型适应性和准确性的重要性。这一发现对于与神经肽相关的生物信息学研究和药物开发具有重要意义,为生物标志物发现、疾病机制理解和新药开发提供了关键支持。未来,随着对模型解释性的进一步提升,NeuroScale 有望在神经肽功能研究、疾病机制探索等领域发挥更加深远的作用,推动生命科学和健康医学领域的发展。