基于ProteomicsDB的大规模药物机制映射:整合多组学与细胞敏感性数据的新策略

《Nucleic Acids Research》:Mapping drug mechanisms with ProteomicsDB: unified omics and cell sensitivity data at scale

【字体: 时间:2025年11月18日 来源:Nucleic Acids Research 13.1

编辑推荐:

  本刊推荐:为解决药物机制研究中多组学数据整合难题,研究人员开发了ProteomicsDB重大更新,统一了1300+蛋白质组与1000+转录组图谱及1470种药物在1500+癌细胞系中的敏感性数据。通过标准化剂量反应曲线拟合与交互式可视化界面,首次实现表型数据与剂量分辨蛋白质组学的实时关联分析,为生物标志物发现与精准医疗提供新范式。

  
在当今药物研发领域,科学家们面临着一个核心挑战:如何将海量的分子层面数据与细胞的实际表型响应联系起来。蛋白质组学和转录组学数据虽然能揭示药物作用下的分子变化,但传统的数据库往往像一座座孤岛,数据格式不统一、标识符混乱,使得跨研究比较变得异常困难。以癌症研究为例,不同的实验室可能使用不同的细胞系命名方式,对同一种药物的敏感性测量方法也各不相同,导致宝贵的实验数据难以被有效整合利用。这种数据碎片化问题严重阻碍了我们对药物作用机制(Mechanism of Action, MoA)的深入理解,也拖慢了生物标志物发现和药物重定位(drug repurposing)的步伐。
正是在这样的背景下,由慕尼黑工业大学领衔的研究团队在《Nucleic Acids Research》上发表了关于ProteomicsDB的重大更新。这个始建于2014年的平台,早已从最初的蛋白质中心数据库演进为一个综合性的多组学平台。本次升级的核心突破在于,它成功地将超过1300个蛋白质组和1000个转录组图谱与表型细胞敏感性数据进行了大规模整合,覆盖了1500多种人类癌细胞系和1470种药物。研究人员通过统一细胞系和药物名称,应用标准化的剂量反应曲线(dose-response curve)拟合流程,解决了长期存在的数据异质性问题。
为了开展这项研究,团队主要依托几个关键技术方法:首先利用标准化数据导入流程(包括nfcore/rnaseq用于转录组数据,Oktoberfest用于蛋白质组数据)处理大规模组学数据;其次通过CurveCurator工具进行剂量反应曲线的质量评估和显著性过滤;同时整合了来自BRENDA组织本体论(BTO)、Cellosaurus和细胞系本体论(CLO)的约17.3万条标准化注释;此外还建立了与PubChem、ChEMBL等外部数据库的API接口,实现了10.7万种药物信息的动态获取;研究数据主要来源于癌症细胞系百科全书(CCLE)、癌症治疗反应门户(CTRP)等六大公共细胞敏感性实验数据库的样本队列。
新整合的数据和资源
通过建立与BRENDA组织本体论(BTO)、Cellosaurus和细胞系本体论(CLO)的映射,平台实现了约17.3万个组织、细胞系和流体的标准化注释。新增的基线表达谱包括约1000个癌细胞系的重新处理RNA测序(RNASeq)数据,以及来自375个TMT(Tandem Mass Tag)和949个DIA(Data-Independent Acquisition)样本的约1200个癌细胞系蛋白质组数据。在药物数据方面,从PubChem和ChEMBL整合了10.7万个药物条目,其中4014个具有实验数据支持。特别值得注意的是,平台现在包含剂量分辨表达蛋白质组学数据,涉及约180万个药物-蛋白质组合和约270万个药物-翻译后修饰(PTM)组合,以及约1.46万个药物-蛋白质对的实验验证靶点数据。
表型细胞敏感性数据的直观探索
全新设计的细胞敏感性分析工具采用交互式平行坐标图(parallel coordinate plot),允许用户通过拖动滑块动态筛选剂量反应曲线参数。以EGFR抑制剂阿法替尼(afatinib)为例,用户可筛选pEC50值在4-7范围内(对应10-7至10-4 M)的显著下调曲线,系统会同步更新对应的剂量反应曲线可视化结果。该工具支持实时显示拟合曲线质量指标(如R2),并提供PNG和SVG格式的出版级图表导出功能。
药物中心视图
新开发的药物中心视图通过PubChem和ChEMBL的API动态显示药物分子结构(基于SMILES字符串通过SmilesDrawer渲染)。以阿法替尼为例,"靶点"标签显示其对EGFR的半数有效浓度(EC50)约为3 nM,而次要靶点MAPKAPK2需要高出300倍浓度才能达到相同效应。"细胞扰动"标签则能筛选出强负向折叠变化(≤0.2)且EC50与EGFR结合范围(1-10 nM)一致的磷酸化肽段,如MAPK1-T185&Y187等已知EGFR下游效应位点。
细胞系中心视图
该视图通过标准化标识符(PRDBTISSUE、BTO、CVCL或CLO)实现跨数据库检索。"表达"标签展示细胞系基线蛋白质组/转录组数据的聚合分析,"比较分析"功能支持双样本相关性评估(如BT-20与MDA-MB-468乳腺癌细胞系显示Pearson r=0.83)。此外还整合了热蛋白质组分析(thermal proteome profiling)的约1.3万个蛋白质熔点数据,以及HeLa细胞系中6000多个蛋白质的合成/降解曲线。
本研究通过构建药物-细胞系-分子表达的三维关联网络,实现了从化合物结构到临床表型的多尺度数据整合。其创新性不仅体现在规模空前的数据融合(100万+剂量反应曲线、10万+药物条目),更在于建立了可扩展的分析框架——通过标准化API接口支持DrEval等预测模型的接入,为单细胞蛋白质组学和空间蛋白质组学等前沿技术的应用预留了接口。这种"活"数据库模式打破了传统静态资源的局限,使ProteomicsDB成为连接基础研究与临床转化的关键枢纽,未来在农作物抗逆研究(如"滋养世界的蛋白质组"计划)和非临床安全评估(NHPig项目)等跨领域应用中同样具有广阔前景。
相关新闻
生物通微信公众号
微信
新浪微博

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号