NPASS数据库2026版重磅更新:面向生物医学研究的天然产物定量组成、生物活性与ADME-Tox综合数据资源

《Nucleic Acids Research》:NPASS database update 2026: comprehensive quantitative composition, bioactivity, and ADME-Tox data of natural products for biomedical research

【字体: 时间:2025年11月18日 来源:Nucleic Acids Research 13.1

编辑推荐:

  本期推荐NPASS数据库2026版重大更新。为解决天然产物(NP)研究中物种来源与定量特性数据分散的问题,研究团队系统整合了1822篇文献,新增87,507条定量组成记录、34,975条毒性数据和9,713条ADME记录,将数据库规模提升9.37%-206.30%。该更新首次引入共生体和诱导型生物源NP数据,建立三级生物活性分类体系,并开发AI搜索与社区提交功能,为天然产物药物发现提供了高质量数据基础。

  
在药物研发领域,天然产物(Natural Products, NPs)因其结构多样性和显著的生物活性,一直是创新药物的重要来源。然而,天然产物研究面临着一个核心挑战:相关数据分散在大量文献中,缺乏系统化的整合。特别是关于天然产物的定量组成、生物活性、毒性以及体内代谢(ADME)等关键参数,往往以非结构化形式存在,严重阻碍了数据驱动的研究方法的应用。虽然现有数据库(如COCONUT、NPAtlas等)在化合物结构方面已有较好覆盖,但在定量生物活性、物种来源关联及ADME-Tox数据方面仍存在明显不足。
为了应对这一挑战,复旦大学等机构的研究团队在《Nucleic Acids Research》上发布了NPASS数据库的3.0版本。这项研究通过大规模手工 curation(数据整理)和标准化数据处理,显著扩展了这一天然产物研究平台的数据内容和功能,为天然产物药物发现提供了更全面的数据支持。
研究团队采用了多项关键技术方法实现数据库建设:通过PubMed系统性文献挖掘筛选1822篇出版物,使用标准化映射策略(InChIKey、ChEMBL靶点、NCBI Taxonomy ID)确保数据互操作性;建立三级生物活性分类体系(分子水平、体外、体内);整合ToxVal、TOXRIC等外部毒性数据库;开发基于iTOL的共生体系统发育分析;并构建了AI驱动的智能搜索和社区数据提交平台。

数据收集与标准化处理

研究人员从PubMed系统检索并手工整理了1822篇新文献,采用标准化映射策略确保数据一致性。化合物使用InChIKey作为唯一标识符与外部化学数据库建立链接;分子靶点以ChEMBL靶点条目为参考标准,辅以UniProt ID提高准确性;源生物则使用NCBI Taxonomy ID进行统一映射。无法自动匹配的条目经过人工检查,最大化数据可靠性。

多层次生物活性分类策略

本次更新的核心创新之一是建立了系统的生物活性分类体系。研究人员将活性记录分为分子水平、体外和体内数据三类,并排除了与ADME/Tox测量明确相关的测定,避免概念重叠。靶点类型作为主要决定因素:针对"单蛋白"、"蛋白家族"、"蛋白复合物"或"核酸"的测定归类为分子水平;针对细胞系的测定归类为体外实验。体内测定的判定基于三个标准:靶点为生物体而非细胞系;靶生物体为常用实验动物物种(如大鼠);活性不与ADMET参数相关。

定量实验ADME-Tox数据

研究团队汇总了所有活性记录为ADME-Tox数据,并从已发表文献和其他数据库整理了NPs的新ADME-Tox测定记录。总共收集了涵盖744个NPs的9,713条定量ADME记录,包括实验模型、实验组织、ADME值和相应参考文献等信息。同时,从ToxVal、TOXRIC、ChEMBL(第35版)和已发表文献中整理了3,662个NPs的34,975条毒性记录。基于TOXRIC数据库,研究人员还为NPs分配了七个分类毒性标签,包括致癌性、器官特异性毒性、刺激性和致突变性。

增强NP生产的共生体和诱导型生物

生物在不同环境条件下会改变其代谢特征以增强适应性,这促进了新NPs的发现。共生现象是指两种不同生物之间密切而长期的生物相互作用。在NP生产中,共生策略利用固有的宿主-微生物关联,其中共生体自然产生生物活性代谢物。另一个增强NP生产的例子是诱导作用,即通过施加特定的生物或非生物刺激(如热、金属离子、有机化合物或干旱胁迫)有意或自然地诱导生物体中次级代谢产物的生物合成,激活原本沉默或弱表达的生物合成途径。
研究人员通过手工检索文献,整理了通过共生和诱导产生的NPs。总共从268篇出版物中整理了来自341种共生生物的292个NPs,形成491个共生生物-NP对。从183篇出版物中收集了与109种独特诱导剂和164种诱导响应生物相关的282个NPs,形成382个诱导生物-NP对。除了能够发现新NPs外,诱导还可用于增强现有NPs的生产。

层级化NPs生物活性分类

定量生物活性记录对于NP发现至关重要,它们揭示了分离化合物的生物活性和潜在治疗应用。不同实验模型在评估这些药物的治疗效果时各有优缺点。体内模型更适合评估NP在整个生物体内的整体效果,而体外模型更适合在受控条件下阐明细胞机制和特定分子相互作用。
在此次更新中,研究人员将数据库显著扩展至包含1,048,756条活性记录,并将其分为三种活性类型:分子水平、体外和体内。靶点为蛋白质、核酸和其他分子的记录归类为分子水平活性。其余记录中,体内活性的判定基于:靶点是生物体而非其他实体;靶生物体是常用实验动物物种;活性与ADMET参数无关。此分类最终得到13,248个NPs与221,541条分子水平活性记录相关联,2,737个NPs与145,245条体内活性记录相关联,41,556个NPs与681,970条体外活性记录相关联。

社区化数据整理、丰富搜索选项和改进的网页界面

在NPASS 3.0更新中,团队引入了多项新功能并增强现有网页以改善用户体验和数据可访问性。新增用户提交页面,用户可以上传NP信息、活性记录和定量组成记录等数据。用户提交的记录以CSV格式处理并存储在网络服务器上,数据有效性定期审查以确定是否适合整合到NPASS中。还引入了多种搜索选项,包括AI驱动的搜索功能,通过输入非结构化文本,内置AI引擎可以识别和提取与NPASS相关的信息,然后自动搜索数据库中的匹配条目。重新设计了NPASS主页面,提供更直观的布局,化合物信息页面重组为10个部分,并添加了导航栏帮助用户快速定位所需信息。
NPASS 3.0的重大更新标志着天然产物研究数据资源的重要进展。通过整合NPs的定量生物学特征与其化学性质,研究人员可以更深入地了解其物理化学特性,从而促进机制阐明和基于QSAR(定量构效关系)的虚拟筛选。除了这些应用,NPASS还可以支持AI驱动的药物发现流程,包括训练机器学习模型进行活性预测,实现计算机ADMET分析,并指导生成化学朝向天然产物样化学空间。
该数据库与其他可用NP数据库共同为NP研究社区服务,并促进基于NP的药物发现。这些NP相关数据库共同有助于药物候选物发现、药物研究和生化研究。NPASS 3.0通过大规模数据扩展、系统性分类体系建立和功能创新,为天然产物药物发现提供了更全面、更精准的数据平台,将显著推动天然产物研究的数字化转型和智能化发展。
更新后的NPASS数据库与现有天然产物数据资源形成互补优势,特别是在定量生物活性数据、物种来源关联和ADME-Tox参数方面提供了独特价值。随着人工智能技术在药物发现中的广泛应用,高质量、结构化的训练数据变得愈发重要。NPASS 3.0提供的丰富数据资源将为机器学习模型开发提供坚实基础,有望在天然产物活性预测、虚拟筛选和药物设计等领域发挥重要作用。
该研究的创新之处不仅在于数据规模的扩展,更在于数据质量的提升和分类体系的完善。通过建立三级生物活性分类标准,研究人员为不同层次的研究需求提供了精准的数据支持。新引入的共生体和诱导型生物源NPs数据,拓展了天然产物发现的生物学视野,为探索特殊生态环境下的天然产物资源提供了新思路。
随着社区提交功能的引入,NPASS数据库有望实现更持续的数据更新和更广泛的研究社区参与,形成良性发展的数据生态系统。这种开放科学模式将促进天然产物研究数据的共享与协作,推动整个领域的快速发展。
相关新闻
生物通微信公众号
微信
新浪微博

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号