
-
生物通官微
陪你抓住生命科技
跳动的脉搏
基因编码天然多样性成分数据库(GNDC):AI驱动的草药基因组资源库与药物发现新范式
【字体: 大 中 小 】 时间:2025年06月27日 来源:The Innovation 33.2
编辑推荐:
为系统挖掘草药天然成分的基因编码多样性,成都中医药大学团队构建了全球最大基因编码天然多样性成分数据库(GNDC),整合23400万种成分并建立四大子库(HerbalMDB/PDB/RDB/CDB),通过AI驱动的多组学分析实现成分发现数量级突破,推动药物研发从"经验驱动"向"大数据驱动"转型。
在传统药物研发领域,天然产物因其独特的结构多样性和生物活性一直是重要的先导化合物来源。然而,现有数据库如PubChem、ChEBI等主要收录已知化合物,对草药中潜在基因编码成分的系统挖掘仍存在巨大空白。更关键的是,传统"试错法"研究模式难以应对海量基因组数据的解析需求,导致超过90%的天然成分资源尚未被开发利用。
针对这一挑战,成都中医药大学研究团队在《The Innovation》发表了开创性研究,构建了全球首个基因编码天然多样性成分数据库(Gene-encoded Natural Diversity Components Repository, GNDC)。该研究通过整合八国药典收录草药的核基因组与细胞器基因组数据,开发了定制化高通量多组学分析流程,结合深度学习算法实现了从基因序列到活性成分的智能化预测。关键技术包括:1)跨物种基因组注释流程;2)基于Transformer的次级代谢物分类模型;3)非编码RNA的保守结构域识别算法;4)糖类化合物的质谱匹配系统。
研究结果主要体现在四大子数据库的构建:
HerbalMDB(草药代谢物数据库)
通过深度挖掘2.32亿个次级代谢物生物合成基因簇(BGCs),发现萜类、生物碱等结构类型数量较现有数据库提升15倍,其中聚酮合酶(PKS)相关途径占比达34%。
HerbalPDB(草药肽数据库)
系统鉴定229百万个小肽(<10kDa),建立首个涵盖防御肽(defensins)、环肽等特殊结构的数据库,其中63%序列通过AlphaFold2完成三维结构预测。
HerbalRDB(草药RNA数据库)
识别238万个小RNA(miRNA/siRNA),首次揭示草药来源外泌体RNA与人类疾病靶点的交叉调控网络,发现12种保守的植物-动物共进化miRNA家族。
HerbalCDB(草药碳水化合物数据库)
完成26万种多糖/寡糖的系统表征,开发Glycan-Motif算法解析糖链生物活性位点,填补糖组学(Glycomics)在草药研究中的空白。
研究结论指出,GNDC通过三大创新突破现有技术瓶颈:1)首创"基因-成分-活性"三元关联模型,实现成分发现效率的指数级提升;2)AI驱动的自动化注释体系使新成分发现成本降低80%;3)建立跨物种成分功能预测框架,首次证实54%的草药小肽具有跨界调控潜力。该研究不仅为天然药物研发提供前所未有的数据支撑,更通过建立"基因组到药效"的全链条研究范式,为后抗生素时代的新药发现开辟全新路径。讨论部分特别强调,GNDC揭示的2300万种新型成分中,有37%位于传统"可成药空间"(druggable space)之外,这将根本性扩展药物化学的结构多样性边界。
生物通微信公众号
知名企业招聘