Chem Sci | NMRExtractor：利用大型语言模型从开源科学出版物中构建实验核磁共振（NMR）数据库

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

【字体：大中小】 时间：2025年06月04日 来源：中国科学院上海药物研究所

编辑推荐：

　　相关研究论文" NMRExtractor： leveraging large language models to construct an experimental NMR database from open-source scientific publications"于2025年5月28日在Chemical Science在线发表

近日，中国科学院上海药物研究所郑明月团队开发了一种由大型语言模型驱动的NMR数据提取工具NMRExtractor，能够从海量开放获取的文献中自动提取实验性NMR数据，构建出了迄今为止规模最大的开放式NMR数据库——NMRBank。相关研究论文" NMRExtractor： leveraging large language models to construct an experimental NMR database from open-source scientific publications"于2025年5月28日在Chemical Science在线发表。

核磁共振（NMR）光谱是化学研究中强大且应用广泛的技术之一，NMR提供了关于分子环境的详细信息，这些信息对结构和原子间相互作用非常敏感。在过去二十年中，研究人员开发了多个数据库用于存储分子的¹H和¹³C NMR光谱。例如HMDB、? ?NMRShiftDB2和NP-MRD，然而这些数据库的规模仍有限，最大的开放NMR数据库NMRShiftDB2仅包含53,954个实验测得的光谱，涵盖约44,909个分子。

在这项工作中，研究团队提出了一种基于大型语言模型的高精度NMR数据提取工具——NMRExtractor，可自动从科学文献中提取包括化合物名称、NMR条件和¹H/¹³C NMR化学位移在内的关键信息（图1）。通过该工具，研究团队从PubMed数据库中的570万余篇公开文献中批量提取NMR数据，构建了当前最大的开源实验NMR数据集NMRBank，其包含225,809条NMR数据记录，每条记录包括：化合物的IUPAC名称、SMILES描述符、¹H/¹³C NMR化学位移、模型赋予的置信度评分，以及文章PMID和期刊名称等元数据。分析表明，NMRBank所覆盖的化学空间显著超越现有的公共NMR数据集。该提取流程具备高度可扩展性，支持新研究论文的自动处理，使NMRBank可持续更新。该方法不仅拓展了开放NMR数据的覆盖范围，也为基于人工智能的NMR预测及相关化学研究奠定了数据基础。

图1. NMRExtractor提取流程和NMRBank数据集构建的示意图

南京中医药大学与上海药物所联合培养硕士研究生王庆功、上海药物所博士研究生张玮为本文的共同第一作者。上海药物所郑明月研究员、博士后熊嘉诚、上海科技大学助理研究员付尊蕴为本文通讯作者。本研究得到了国家自然科学基金、国家重点研发计划、上海药物所与上海中医药大学中医药创新团队联合研究项目、上海市超级博士后计划、上海市市级科技重大专项等项目的资助。

原文链接：https://pubs.rsc.org/en/content/articlepdf/2025/SC/D4SC08802F

热点排行

新闻专题

联系信箱：

粤ICP备09063491号