通过结合机器学习方法和滑动窗口技术实现氨基酸的手性识别

《Optics & Laser Technology》:Chirality recognition of amino acid by combining machine learning method and sliding window technique

【字体: 时间:2025年09月30日 来源:Optics & Laser Technology 4.6

编辑推荐:

  机器学习结合滑动窗口技术用于红外光谱分析,成功鉴别了丙氨酸、半胱氨酸和谷氨酰胺的L-D对映体,最优准确率达96%。

  
郭思瑞|李金昌|姜伟|杨军|杜颖颖|罗涛|阿耶莎·安瓦尔|齐丽梅
北京邮电大学电子工程学院,中国北京100876

摘要

手性分子识别在生命科学、制药、疾病诊断和环境保护中至关重要。红外光谱是一种强大的工具,可用于识别不同分子的特征传输峰,这些特征峰与分子的功能基团相关。然而,红外光谱的复杂性限制了通过传统分析技术对手性氨基酸的识别。在这项工作中,我们提出了一种基于红外光谱结合机器学习方法和滑动窗口来区分L-氨基酸和D-氨基酸的方法。我们使用了三种机器学习(ML)算法:纠错输出码支持向量机(ECOC-SVM)、主成分分析-随机森林(PCA-RF)和偏最小二乘-判别分析(PLS-DA),分别用于识别三对手性氨基酸,包括丙氨酸(Ala)、半胱氨酸(Cys)和谷氨酰胺(Gln)。结果表明,手性识别的灵敏度会随着光谱区域、窗口大小和步长的变化而显著变化。实验结果突显了机器学习辅助红外光谱对手性氨基酸的精确识别能力,推进了其在分析化学、生物医学和制药科学中的应用。

引言

手性是自然界的基本属性[1]。对生命活动至关重要的生物分子,如蛋白质、核酸和多糖,主要由手性分子组成。手性分子缺乏镜像对称性,其镜像对应物称为对映体[2]。对映体是不能重叠的镜像分子,例如L-氨基酸和D-氨基酸。尽管对映体表现出几乎相同的物理性质,但它们通常具有不同的生物学功能[3]。手性氨基酸是高价值的化学品,在食品、医药和工业领域得到广泛应用[4]。除了作为蛋白质的构建块[5,6]外,它们还调节对生命维持[6,7]、生长[5,6]、繁殖[5,8]和免疫功能至关重要的代谢途径。例如,L-色氨酸(L-Trp)对蛋白质合成和心理健康至关重要,而D-色氨酸(D-Trp)是抗癌药物的前体[[9], [10], [11]]。准确的手性识别在药物分析、疾病诊断和环境保护中非常重要[12,13]。
传统的手性氨基酸识别方法主要依赖于色谱法、光谱法或传感器[14]。色谱技术成熟但耗时且成本高昂。基于光谱法和传感器的方法相对简单、快速且成本低廉,但需要可能改变分子结构的手性选择剂。人工智能(AI)的快速发展[[15], [16], [17], [18], [19]]为科学识别带来了新的机遇。例如,Stephens等人[20]使用支持向量机(SVM)结合鼓室图和耳镜数据,将诊断准确性从78%(仅使用耳镜)提高到82%。Wang等人[21]通过神经网络实现了五种液体违禁品分类的98%准确性。Yang等人[22]使用支持向量回归(SVR)结合化学计量方法预测含咖啡因的药品的数量和种类,准确率达到99.61%。此外,Konnikova等人[23]利用SVM和主成分分析(PCA)分析冷冻血浆样本,在区分健康个体和甲状腺结节患者方面实现了88%的分类准确性。同一团队将这种方法扩展到糖尿病和非糖尿病队列,效果相当[24]。在另一个应用中,Yan等人[25]使用SVR对含有山梨酸、山梨酸钾和苯甲酸钠的三元混合物进行分类,准确率达到98.9%。
然而,手性分子及其对映体在特定光谱区域内的固有光谱相似性给区分带来了重大挑战。例如,Hu等人[26]使用PCA对L-酪氨酸、D-酪氨酸、外消旋体和L/D混合物进行分类。尽管该算法能够有效区分这些组,但由于手性光谱的几乎重叠,无法区分L-酪氨酸和D-酪氨酸。
为了克服这些限制,我们提出了一种基于红外光谱结合机器学习方法和滑动窗口来区分L-氨基酸和D-氨基酸的方法。如图1所示,红外光谱(400–4400 cm–1)被划分为重叠的窗口,从而实现局部光谱分析、噪声减少和标准特征提取,同时将噪声干扰限制在较小区域内。此外,对Ala、Cys和Gln这三对手性氨基酸分别评估了三种机器学习算法:ECOC-SVM、PCA-RF和PLS-DA。采用交叉验证来降低过拟合风险,多算法协作利用了互补的噪声抵抗能力。实验结果表明,所有算法的识别准确性都依赖于特定光谱带,但总体准确率超过了93%。通过整合每种算法处理的最佳光谱带,开发了一个混合系统,将表现最好的算法分配给特定光谱带(例如,PLS-DA处理10–12带,PCA-RF处理7–9带)。这种方法实现了96%的准确率,超过了单个算法的性能。我们的研究为生物化学和药理学中的化合物识别和手性识别建立了一个新的框架,提供了一种快速且成本效益高的分析解决方案。

材料

测量了六对手性氨基酸及其对映体的红外光谱。样品购自上海麦克林生化科技有限公司,分析纯度大于95%。表1提供了六对手性氨基酸的详细信息,包括Ala、Cys和Gln的D-对映体和L-对映体,以及它们的分子式、CAS注册号和结构信息。

数据采集和滑动窗口划分

使用傅里叶变换红外光谱(FTIR)进行分析

算法和过程概述

从每个滑动窗口提取的光谱数据使用三种机器学习算法进行了分析:RF、PLS和SVM[[27], [28], [29], [30], [31]]。这些算法被实现以系统地以最佳准确性识别氨基酸的手性。这些机器学习模型通过系统评估滑动窗口输出,识别出最具区分性的光谱区域。

识别结果

图6展示了三种算法的详细光谱带分辨率识别准确性分析,突出了在特定光谱区域内的不同性能变化。每种算法的准确性波动在统计上具有显著性,表明手性敏感特征优先集中在某些波数范围内。
PLS算法在不同光谱区域的识别准确性表现出显著变化

结论

在这项工作中,我们系统地分析了氨基酸及其对映体的红外光谱,以优化使用机器学习的手性识别。确定了滑动窗口方法(300 cm–1窗口/步长)作为平衡光谱分辨率和计算效率的最佳配置,适用于三种分析算法PLS、RF和SVM。这种配置增强了对手性相关光谱细微差别的检测能力,为准确分类奠定了基础。
作者贡献声明
郭思瑞:写作 – 审稿与编辑,撰写原始稿件,可视化,方法论,正式分析,数据管理。李金昌:软件,方法论,正式分析,概念化。姜伟:验证,数据管理,概念化。杨军:写作 – 审稿与编辑,监督。杜颖颖:资源,调查,正式分析。罗涛:监督,资源,项目管理,调查。阿耶莎·安瓦尔:写作 – 审稿与编辑,资源,

利益冲突声明

作者声明他们没有已知的可能会影响本文所述工作的竞争性财务利益或个人关系。

致谢

本工作得到了国家自然科学基金(编号:62175016)和北京自然科学基金本科生“启研”计划(编号:QY24217)的支持。
相关新闻
生物通微信公众号
微信
新浪微博
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号