基于红外光谱的神经网络分析法:精准识别官能团并拓展数据应用

【字体: 时间:2025年02月27日 来源:Journal of Cheminformatics 7.1

编辑推荐:

  为解决红外光谱分析中传统方法的局限,德国卡尔斯鲁厄理工学院的研究人员开展了利用神经网络分析红外光谱、检测官能团的研究。结果显示该方法性能良好,能提升特定官能团分类性能,还为机器学习研究提供了基准数据集,具有重要意义。

  在分子化学的奇妙世界里,官能团就像一个个神秘的 “小魔法棒”,虽由寥寥几个原子组成,却能掌控分子的化学性质 “命运”。当化学家们辛苦合成出一种新化合物时,判断其中官能团的存在与否,就如同解开一道神秘谜题,是确定化合物结构的关键一步。
而红外光谱(IR),则是化学家们探索这道谜题的有力 “武器”。当红外光与分子相互作用,分子就像被奏响的乐器,化学键、角度等开始振动,产生独特的 “光谱旋律”。通过分析吸收能带位置、带宽和吸收系数这些 “旋律特征”,化学家们就能获取关于分子结构和官能团的宝贵信息。

然而,传统的 IR 光谱分析方法,就像是依靠经验的 “手工匠人”。它基于峰的位置、强度等指标来解读光谱,需要专业知识丰富的专家才能完成。但这种方法在面对复杂系统时,就像在错综复杂的迷宫中摸索,不同化学物种重叠的吸收信号让分析变得困难重重。不仅如此,传统方法还耗时费力,效率低下,就像一辆老旧的汽车,难以满足现代高通量分析的 “高速路” 需求。

随着科技的发展,计算方法逐渐崭露头角。但传统计算方法也存在依赖手工描述符等问题,就像戴着镣铐跳舞,无法充分发挥潜力。而机器学习的出现,给这个领域带来了新的希望,它就像一把万能钥匙,有望解开传统方法的种种困境。

在这样的背景下,德国卡尔斯鲁厄理工学院的研究人员挺身而出,决心攻克这些难题。他们开展了一项基于神经网络的研究,旨在利用机器学习的强大力量,更高效、准确地分析 IR 光谱,检测官能团的存在。

研究人员的成果意义重大。他们的方法仅使用 IR 数据作为神经网络的输入,这使得其性能不受其他分析测量数据类型的限制,就像一个独立作战的勇士,无需依赖他人。并且,该方法使用的深度学习模型表现出色,在识别 17 种官能团时,F1 分数超过 0.7,优于以往的方法。同时,通过纳入来自 Chemotion 公开研究数据存储库的额外数据,模型对腈和酰胺的分类性能得到了显著提升。此外,研究人员还发布了 Chemotion 红外数据集,为机器学习研究提供了宝贵的基准数据集,就像为后来的研究者们搭建了一座坚实的桥梁。

研究人员为开展这项研究,运用了多种关键技术方法。首先是数据处理技术,从 NIST SRD 35 和 Chemotion 存储库获取数据,对数据进行解析、插值、归一化和标准化处理,还修改了特定 SMARTS 字符串来准确识别官能团。其次是构建神经网络,采用一种基于学习分裂表示的神经网络架构,对传统全连接神经网络和分裂网络进行超参数优化。最后采用多标签分类的监督学习方法,利用 Adam 优化器和 K 折交叉验证来训练和评估模型。

研究人员对多个数据集进行分析。NIST 数据集包含 5228 个红外光谱,Chemotion 数据集经处理后有 1763 个样本,还有根据特定官能团选择的 Chemotion 子集。通过主成分分析(PCA)发现,Chemotion 数据集与 NIST 数据集存在相似性。

在模型构建与训练方面,研究人员创建了基于不同训练数据集的 3 种分裂神经网络模型。通过与基线模型对比 F1 分数评估性能,采用 5 折交叉验证训练模型,使用 Adam 优化器最小化二元交叉熵损失。

研究结果令人瞩目。对比不同模型 F1 分数,虽然与基线模型的差异在统计学上可能不显著,但在酰胺和腈的平均分数上有显著提升。研究还发现,添加真实世界数据对模型性能影响各异,增加 Chemotion 子集能降低腈的误差。在探究样本数量与分类性能关系时,未发现明显正相关。此外,研究人员还对模型的完美匹配性能、误报率和漏报率进行分析,发现模型在处理不同官能团数量的样本时表现良好。通过 SHAP 分析对 4 - Fluoroanisole 分子的预测,展示了模型如何利用 IR 光谱特征识别官能团。在进行 Holdout 测试时,模型在不同官能团上表现出一致的性能。

在结论与讨论部分,研究人员提出的方法仅以 IR 数据为输入,使用的深度学习模型性能卓越,在腈和酰胺分类上进步显著,预测与验证集 70% 的分子完美匹配。并且,研究人员整合公开数据,发布 Chemotion 数据集,为机器学习研究提供了重要资源。不过,目前 IR 分析缺乏公开数据集,限制了数据驱动方法的发展。未来,研究人员计划创建包含更多分子多样性的精选数据集,将模型与研究软件集成,直接服务于实验科学家。

这项研究成果为红外光谱分析和官能团检测领域带来了新的曙光,发表在相关领域的重要期刊上,为后续研究奠定了坚实基础,有望推动该领域的快速发展。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号