基于ChEMBL扩展的22万分子拉曼与红外光谱数据集构建及其在深度学习辅助结构解析中的应用

【字体: 时间:2025年06月06日 来源:Scientific Data 5.8

编辑推荐:

  本研究针对量子化学数据中光谱信息匮乏的现状,通过Gaussian09计算平台,以PBEPBE/6-31G理论水平构建了包含22万药物分子的拉曼(Raman)和红外(IR)光谱数据库,填补了ChEMBL数据库缺乏振动光谱的空白。该工作不仅提供了优化的几何构型、振动频率等多维特征,更通过谱图-结构关联模型实现了83%的分子结构预测准确率,为机器学习辅助光谱解析建立了新基准。

  

在材料科学和药物研发领域,拉曼光谱和红外光谱如同分子的"指纹",能够揭示物质的结构与键合特性。然而传统的光谱解析方法如同大海捞针,需要人工比对已知数据,效率低下且严重依赖经验。更令人困扰的是,现有光谱数据库如KnowItAll存在封闭性问题,而开源数据集VIBFREQ.1295仅涵盖141个分子,远不能满足深度学习时代对海量数据的需求。这种数据荒现象严重制约了人工智能在光谱解析中的应用,特别是在药物发现过程中,快速准确地从光谱反推分子结构仍是一个重大挑战。

香港中文大学(深圳)的研究团队在Xi Zhu教授带领下,通过量子力学计算构建了迄今最大的理论光谱数据库。研究人员从ChEMBL数据库中精选22万个药物分子,采用Gaussian09软件的PBEPBE/6-31G方法系统计算了这些分子的振动频率、红外强度和拉曼活性等参数。该工作不仅扩展了量子化学数据的维度和规模,更创新性地开发了基于张量网络(TN)的谱图-结构预测模型,相关成果发表在《Scientific Data》期刊。

研究团队主要运用了三种关键技术:1)基于密度泛函理论(DFT)的量子化学计算,采用PBE交换关联泛函和6-31G基组;2)分子碎片化策略,借鉴JTVAE算法将分子分解为含单键或环的片段;3)融合注意力机制与张量网络的深度学习架构,建立谱峰-片段关联模型。所有计算均在香港中文大学(深圳)的高性能计算集群完成。

【背景与摘要】研究揭示了当前光谱数据库在数据量和多样性上的不足,通过理论计算方法构建包含220,000个分子的振动光谱数据库,其规模远超VIBFREQ.1295等现有资源。采用PBEPBE泛函在计算效率与精度间取得平衡,单次计算速度较APFD泛函快2-3倍。

【方法】创新性地将量子化学计算与深度学习相结合:首先通过Gaussian09批量计算分子性质,随后采用类JTVAE的碎片化方法分解分子,最终构建双模块预测系统。其中片段预测模块准确率达96%,显著优于传统多层感知机(MLP)59%的表现。

【数据记录】数据集包含49类特征,从振动对称性(S)到热容(Cv
),以SQL和pkl格式存储在Figshare平台。特别值得注意的是,97%分子的原子数在10-100之间,96.3%含芳香基团,这种分布反映了药物分子的典型特征。

【技术验证】以苯分子为基准,比较PBE、APFD等泛函的计算精度。如图3所示,PBE在1000cm-1
附近主峰位置偏差约20cm-1
,虽不及APFD的10cm-1
精度,但计算效率使其更适合大规模研究。

【应用案例】如图4所示的双模块预测系统展现出强大性能:当联合使用拉曼和IR光谱时,结构预测准确率达83%。这一成果得益于创新的谱峰相关性分析,该模块能识别振动模式间的原子重叠关系。

这项研究在多个维度实现突破:首先,创建的220,000分子光谱数据库是目前最大的理论计算集合,为深度学习提供了宝贵资源;其次,验证了PBEPBE泛函在大规模计算中的实用性,其平衡性表现使其成为高通量研究的理想选择;最重要的是,开发的谱图-结构预测框架突破了传统光谱解析的瓶颈,83%的准确率为自动分子识别树立了新标准。该成果不仅填补了ChEMBL缺乏振动光谱的空白,更通过开源数据促进算法开发,将加速药物发现和材料设计进程。未来随着计算方法的改进和数据集扩大,这种理论计算与深度学习结合的模式有望成为光谱解析的新范式。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号