CD-CODE 2.0:融合病理生物学与宿主-病原相互作用的生物分子凝聚体知识库升级
《Nucleic Acids Research》:CD-CODE 2.0: an enhanced condensate knowledgebase integrating pathobiology, condensate modulating drugs, and host–pathogen interactions
【字体:
大
中
小
】
时间:2025年11月10日
来源:Nucleic Acids Research 13.1
编辑推荐:
本研究针对生物分子凝聚体研究数据分散、缺乏标准化整合的挑战,开发了CD-CODE 2.0知识库。团队通过扩展核酸组分注释、传染病相关凝聚体、小分子调控剂(c-mods)及疾病关联数据,构建了支持多维度检索的关系型数据库。该平台实现了与UniProt、PubChem等权威数据库的互联,为凝聚体生物学在药物重定位和机制研究中的应用提供了系统工具,显著提升了该领域的数据可及性与交叉研究效率。
生物分子凝聚体(biomolecular condensates)作为无膜细胞器,通过液-液相分离(LLPS)动态调控细胞内的生化反应空间,近年来已成为解释生命现象与疾病机制的新范式。然而,随着研究文献的爆炸式增长,分散在不同数据库中的凝聚体组分、病理关联及调控分子信息严重限制了系统性挖掘与转化应用。例如,病原体感染中形成的“传染病凝聚体”(infectious condensates)如何劫持宿主因子?已上市药物是否隐含未被发现的凝聚体调控功能?这些问题亟需一个整合多维度数据的标准化平台。
为此,马克斯·普朗克分子细胞生物学与遗传学研究所的Ksenia Kuznetsova、Maxim Scheremetjew等学者在《Nucleic Acids Research》发表了CD-CODE 2.0知识库。该研究在初版基础上新增四大功能模块:核酸(RNA/DNA)组分注释、传染病凝聚体及其宿主-病原组分关联、凝聚体调控药物(c-mods)的机制分类,以及疾病相关的凝聚体异常( condensatopathies )。通过迁移至PostgreSQL关系型数据库并升级REST API,平台实现了与UniProt、PubChem、ChEMBL等10余个生物医学数据库的交叉引用,支持多字段检索与程序化访问,为凝聚体生物学与药物发现搭建了桥梁。
研究团队采用文献挖掘与人工校验相结合的数据构建方法。首先通过专有本体论关键词筛选PubMed文献,利用AI工具ScienceOS辅助提取信息,并由领域专家通过“凝聚体马拉松”(condensatathon)会议进行人工审核。针对传染病凝聚体,明确定义其宿主-病原组分归属,并区分纯病原组分与混合组分类型。对小分子c-mods采用摩根指纹(Morgan fingerprints)进行化学空间映射,同时依据表型机制分为溶解剂(dissolvers)、诱导剂(inducers)、定位剂(localizers)和形态调节剂(morphers)四类。所有数据均与疾病本体(Disease Ontology)标准化关联。
新增的核酸组分注释显示,在782个凝聚体中,RNA与DNA广泛参与其形成过程。例如,在生物分子凝聚体中,约30%同时包含蛋白质与核酸,凸显核酸在调控相分离中的核心作用。这一扩展为研究核酸靶向药物(如反义寡核苷酸)提供了数据基础。
研究收录了29种传染病凝聚体,如鼠疱疹病毒1型感染细胞形成的“前复制区室”(pre-replication compartment)。分析发现,其中约40%的凝聚体包含宿主与病原体的混合组分(图1D),说明病原体通过劫持宿主凝聚体实现免疫逃逸。同一名称的凝聚体(如6种不同来源的“包涵体”)可通过宿主-病原物种信息精准区分,避免交叉混淆。
236个c-mods中,83%为小分子药物,其中23%是FDA已批准药物(如抗癌药多柔比星、抗疟药青蒿素)。通过t-SNE分析(图2E),这些化合物覆盖广阔的化学空间,提示其结构优化潜力。表型分类显示,应激颗粒(stress granules)是最常被靶向的凝聚体类型(图2B),且溶解剂占比最高(图2C),反映其在逆转病理凝聚体中的治疗价值。
102个凝聚体病中,传染病(31例)、神经疾病(26例)与癌症(26例)位列前三(图2H)。异常应激颗粒在多种疾病中频繁出现,例如在神经退行性疾病中其动态失调可导致蛋白聚集,这一发现为跨疾病机制研究提供了线索。
CD-CODE 2.0通过结构化整合多源数据,将分散的凝聚体知识转化为可挖掘的系统性资源。其关系型数据库架构支持AI工具开发,如已报道的PICNIC算法可预测蛋白的凝聚体形成倾向。平台未来可通过持续纳入单细胞测序、冷冻电镜等新技术数据,进一步推动凝聚体在精准医疗中的应用。该成果不仅是数据资源的升级,更标志着凝聚体生物学向定量化、跨尺度研究范式转变的关键一步。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号