基于太赫兹光谱与 VGG-16 神经网络的蛋白质精准识别研究

【字体: 时间:2025年03月22日 来源:iScience 4.6

编辑推荐:

  研究人员结合太赫兹(THz)光谱与 VGG-16 神经网络识别 4 种蛋白质,准确率达 98.8%,助力生物医学。

  在生物医学领域,蛋白质就像一个个精密的 “小机器”,它们在人体中承担着多种多样至关重要的工作。比如白蛋白,主要由肝脏合成,不仅维持着血浆胶体渗透压,还参与营养物质、药物运输以及血浆 pH 调节等工作,同时在免疫、抗氧化和抗凝过程中也有它的身影;胶原蛋白作为结缔组织的主要成分,对皮肤、骨骼、肌腱等组织的结构和功能起着关键作用,还能助力肌肉生长和修复;胃里的胃蛋白酶负责把蛋白质分解成小肽和氨基酸,帮助人体消化吸收;胰腺分泌的胰酶则在消化蛋白质、淀粉和脂肪的过程中功不可没。
准确识别和深入研究这些蛋白质,不仅能帮我们揭示生命活动的奥秘,还能为医学和生物医学领域带来新的突破。例如,某些疾病的发生往往伴随着特定蛋白质的异常表达,精准识别这些蛋白质,就有可能实现疾病的早期诊断,为患者争取宝贵的治疗时间。然而,目前常用的蛋白质识别方法却存在不少 “短板”。像质谱法虽然灵敏度高、特异性强,能提供详细的结构信息,但样本制备过程繁琐又昂贵;X 射线晶体学可以在原子分辨率下测定蛋白质的三维结构,可它对蛋白质晶体质量要求极高,很多蛋白质难以满足;核磁共振光谱通常是非破坏性的,但长时间暴露在高强度磁场或使用高浓度溶剂可能会影响样本,尤其是复杂的生物分子;酶联免疫吸附测定需要标记特定抗原或抗体,步骤多,还容易受到非特异性结合的干扰,而且样本会被消耗,检测次数受限。这些问题就像一道道 “关卡”,阻碍着蛋白质识别研究的快速发展。

为了突破这些障碍,来自北京大学先进微纳制造技术国家重点实验室、首都师范大学物理系等多个研究机构的研究人员 Yusa Chen、Xiwen Huang、Meizhang Wu 等开展了一项极具创新性的研究。他们将太赫兹(THz)吸收光谱和折射率光谱与视觉几何组 16(VGG-16)神经网络相结合,试图实现对白蛋白、胶原蛋白、胃蛋白酶和胰酶这四种蛋白质的智能识别。该研究成果发表在《iScience》杂志上。

研究人员在开展研究时,用到了几个关键技术方法。首先是太赫兹时域光谱技术(THz-TDS),它能同时获取生物分子的太赫兹吸收光谱和折射率光谱。研究人员使用 800nm 飞秒激光、时间延迟控制系统等搭建了 THz-TDS 系统,并在真空环境下进行测量,以避免水汽干扰。其次是 Grassia 角和场(GASF)方法,它能将一维光谱数据转换为二维图像,为后续的神经网络分析提供合适的数据形式。最后,基于迁移学习技术构建了 VGG-16 神经网络模型,用于蛋白质的识别。

下面来看具体的研究结果。

  1. 光谱分析:利用 THz-TDS 测量各样本的时域光谱,发现与参考信号相比,四种蛋白质的最大峰值都有不同程度的衰减。通过傅里叶变换得到吸收光谱和折射率光谱后发现,在 0.2 - 1.6THz 范围内没有明显的特征吸收峰,但不同蛋白质的吸收曲线和折射率存在差异。例如,胶原蛋白的最大、最小和平均吸收系数在四种蛋白质中最大,意味着其化学键在太赫兹波段的振动或转动模式更强;而胰酶的最大吸收系数和平均吸收系数最小,说明其相关分子振动或转动模式较弱。同时,胶原蛋白的平均折射率最大,表明太赫兹波在其中传播较慢;白蛋白的平均折射率最小,太赫兹波传播较快。
  2. 基于太赫兹吸收光谱的区分:将太赫兹吸收光谱通过 GASF 方法转换为二维图像,作为 VGG-16 神经网络的数据集。模型经过 12 轮训练后开始收敛,训练集和测试集的准确率分别达到 89.9% 和 90.9%,整体识别准确率为 90.90%。不过,该模型在识别胰酶时容易出错,对胃蛋白酶和胰酶的识别也不够准确。
  3. 基于太赫兹吸收 - 折射率光谱的区分:把蛋白质的折射率作为横坐标,吸收作为纵坐标,得到吸收 - 折射率光谱。将其转换为二维图后作为数据集训练 VGG-16 模型,结果显示模型在迭代 10 次时收敛,训练集和测试集的准确率分别达到 98.6% 和 98.8%。此时,模型对胶原蛋白、胃蛋白酶和胰酶的识别准确率达到 100%,对白蛋白的识别准确率为 95%,整体准确率高达 98.80%。

在研究结论和讨论部分,研究人员指出,使用太赫兹吸收 - 折射率光谱作为学习特征,VGG-16 模型的损失更小、识别准确率更高。与支持向量机(SVM)、高斯过程分类器(GPC)、双向门控循环单元(BiGRU)和卷积神经网络 - 双向门控循环(CNN-BiGRU)等模型相比,VGG-16 模型表现更优。不过,该研究也存在一定局限性,比如仅在四种特定蛋白质上进行了测试,其对复杂生物混合物的适用性还有待验证,而且 VGG-16 模型的计算复杂度和资源需求可能会给实时或大规模应用带来挑战。但总体而言,这项研究为蛋白质识别提供了一种快速、准确的新方法,有望拓展到其他生化物质的识别,如氨基酸、糖类、核酸等,在生物传感器、生物制药和医学等生物技术领域具有重要的潜在应用价值。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号