药物靶点发现新趋势:基于时间证据评估的创新策略与二十年回顾性分析
《Nature Communications》:Temporal trends in evidence supporting novel drug target discovery
【字体:
大
中
小
】
时间:2025年12月08日
来源:Nature Communications 15.7
编辑推荐:
本研究针对药物靶点发现中证据时效性评估的难题,开发了Open Targets Platform的时间戳标记系统,通过分析二十年新靶点药物批准数据,发现2015年后遗传学、文献等证据多出现于药物批准前,为早期识别创新靶点提供了重要方法论支持。
在当今生物医药创新领域,针对全新作用机制(MoA)靶点的药物开发已成为推动治疗突破的关键动力。过去十年间,美国FDA每年批准的新药中约有五分之一属于这类首创药物,它们尤其在肿瘤学和罕见病领域为满足未竟医疗需求带来了希望。然而,与针对成熟靶点的药物相比,全新机制药物的开发风险显著更高。及时识别具有潜力的新靶点,并在其治疗价值的证据出现之初就准确把握,对于降低研发风险、加速创新疗法问世至关重要。
挑战在于,随着人类基因组测序技术的普及,生物医学数据正以惊人速度增长。从科学文献、专利声明到临床实验和遗传学研究,海量数据使得系统追踪靶点与疾病关联的新证据变得异常复杂。虽然近年来出现了多种试图捕捉生物医药创新趋势的平台和资源,但如何从时序角度评估证据的积累过程,并据此判断靶点新颖性,仍是一个尚未很好解决的难题。
在此背景下,发表在《Nature Communications》上的这项研究带来了重要突破。由Maria J. Falaguera领衔的研究团队利用Open Targets Platform这一开放资源,开展了系统性研究,旨在通过全面时间戳标记和新型评估指标,揭示过去二十年来支持新药靶点发现的证据演变规律。
为了开展这项研究,团队采用了几个关键技术方法:首先是对Open Targets Platform生物医学语料库(版本25.03)中的2800万条靶点-疾病关联证据进行全面时间戳标记,区分原始来源日期和策展日期;其次是利用Platform的评分框架,重新计算每年度的关联得分,构建时间剖面;第三是创新性地提出新颖性度量公式,通过逻辑衰减函数捕捉关联得分的显著变化;最后是对433个新药靶点进行回顾性分析,比较各证据类别的新颖性峰值与药物批准年份的关系。
研究的第一步是对Open Targets Platform生态系统中的2800万条证据进行全面时间戳标记。这些证据代表了支持人类靶点与疾病适应症之间关联的信息。为了确定证据最初报告或入库的日期,研究人员调查了Platform包含的20多个证据来源。总体上识别出两类时间戳:主要来源日期(如原始科学出版物、专利声明、全基因组关联研究或临床研究的发表日期)和策展日期(证据由专家策展人存入知识库的日期)。总计99%的关联证据已被标注日期,包括来自文献来源的2100万条关联证据、来自遗传关联实验库的420万条证据、来自已批准药物和临床候选药物来源的50万条证据,以及来自其他来源的200万条证据。
完成证据时间戳标记后,研究人员能够回顾性重建Open Targets Platform中360万个有支持证据的靶点-疾病关联的时间剖面。评估基于Platform关联评分框架,对支持生物医学数据的演变进行定量和定性分析。虽然Platform提供的关联评分是基于当前所有可用证据计算的,但时间评估涉及对每个关联和每年重新计算评分,仅考虑截至该时间点积累的证据。以胸腺基质淋巴细胞生成素(TSLP)与哮喘的关联为例,该关联得到欧洲PMC的文献数据、GWAS的遗传数据和ChEMBL提供的临床数据支持。通过展示这些证据随时间积累如何影响关联得分,清晰呈现了证据积累的动态过程。
关联得分的变动反映了靶点作为疾病潜在致病因素的新支持证据产生的时刻。为了量化这种变化,研究团队引入了一个新的“新颖性”指标。该指标的数学公式本质上是将关联得分值的变化捕捉为新颖性峰值,随后随着时间推移衰减直至零。这种方法依赖于关联得分的演变而非最早证据的出现作为声称新颖关联的标准,有助于从证据背景中优先识别更强的新颖性信号。低置信度证据被更谨慎评估,而高置信度信号则被强调,即使它们出现较晚。该指标还能妥善处理初始证据得分高、触发强劲峰值,随后出现得分较低、相当或更高证据的情况。
通过分析,研究发现构成Open Targets Platform的2,914,983个靶点-疾病关联中,有68,012个在2025年出现新颖性峰值。这些关联涉及Platform中30,087个独特靶点中的13,289个,包括12,680个蛋白质编码基因。大多数这些靶点尚未进行临床探索(11,890个),2,130个在ChEMBL中报告有结合配体。此外,仅6%的这些靶点在Platform中注释有不良事件。关于发现2025年新颖性峰值的靶点-疾病关联的主要治疗领域,41%涉及肿瘤疾病,9%涉及神经疾病,7%涉及遗传性、家族性或先天性疾病。贡献最多新颖性峰值关联的资源是欧洲PMC、IMPC和GWAS。
研究全面分析了过去二十年来每个Platform资源如何贡献于靶点-疾病关联和新靶点的识别。近年来,新靶点-疾病遗传关联的数量激增,反映了大规模遗传研究的指数级增长和多种生物样本库资源的整合。然而,这种关联数量的急剧增加并未伴随着独特新靶点数量的相应上升。相反,大多数近期关联映射到先前研究中已涉及的DNA区域。从科学文献提取的数据也呈现类似趋势:文本挖掘的进步导致报告的基因与疾病关联数量迅速增加,但独特靶点基因数量基本保持不变。这 partly 是因为研究文献倾向于关注已知基因,而非识别新基因,也 due to 当前从文本提取生物医学信息的计算框架的局限性。来自RNA表达资源的新颖性信号在2015年左右增加,与微阵列表达研究更多纳入Expression Atlas相吻合。受影响通路资源类别显示两个新颖关联爆发峰值:2018年,对应于摄入SLAPenrich分析数据;2021年,对应于摄入CRISPRbrain数据。临床数据显示相关模式:每年新靶点-疾病关联数量趋于稳定,而进入临床试验的独特新靶点数量下降。这表明临床研究的持续创新 increasingly focused on 重新利用、新适应症和现有靶点的新模态,而非引入首创药物。
相比之下,用于遗传关联证据的专家策展资源(如Gene2Phenotype、Orphanet、GEL PanelApp和ClinGen)在每年发现的新关联数量与新靶点数量之间提供了更紧密的对齐,尽管其总体贡献与自动化方法相比 modest。此外,多个策展数据库显示包含相似或相同的遗传证据。体细胞突变数据(主要源自癌症基因普查CGC)在过去十年中显示关联和独特靶点数量显著减少,这是由于CGC最近采用更保守的方法添加新基因,确保关联数据的准确性和可靠性。动物模型数据(源自国际小鼠表型联盟IMPC)也反映了新关联数量与新靶点数量之间的差距,类似于自动化来源。早期,随着小鼠基因敲除表型分析的进展,新关联和靶点稳定涌入。但近年来出现逐步下降,表明该资源可能正接近蛋白质编码基因的饱和点。
最后,研究利用回顾性生成的时间剖面来深入了解过去和当前用于发现新药靶点的策略。从ChEMBL提取了433个新药靶点的列表,通过查询2000年以来批准药物的MoA。将识别出的靶点映射到其最早批准日期、相应疾病适应症以及每个资源类别中靶点-适应症关联识别的最高新颖性峰值年份。然后回顾性评估了这些新颖性峰值的广度、类型和时间,与批准年份相关。分析显示,除临床试验外,其他类别的新颖性峰值出现时间从批准后转变为批准前。除动物模型外,这一转变(拐点)发生在2015年左右。对于动物模型,拐点发生在2005年左右。尽管受影响通路类别显示更大变异性和更少数据点,但也与总体趋势一致。这一趋势可能源于数据可用性的演变和如何利用这些数据的 intentional changes 的共同作用。
研究结论指出,在后基因组时代,高通量测序和信息技术的进步极大地扩展了可用于理解疾病生物学和设计更好疗法的生物医学数据量。尽管覆盖范围巨大,但识别相关数据并正确解释以找到 confidently 连接疾病与其潜在致病基因靶点的证据仍存在挑战。通过共享这种时间分析,研究团队希望促进该领域的进一步研究,帮助科学界更好地理解遗传学和其他类型生物数据在发现新疗法中不断演变的角色。
靶点选择是药物发现中的关键决策点。可用于治疗靶点选择和临床验证的数据量不断增长,使得基于证据构建治疗假说 increasingly possible,但也使得药物发现科学家导航信息量以进行决策 increasingly challenging。像Open Targets Platform这样的工具通过整合多源数据和提供公共分析框架极大地促进了这一过程。然而,与该领域的其他开放获取资源一样,目前难以识别靶点-疾病关联最相关数据可用性的显著变化并评估其新颖性。因此,在本项目中,研究团队对Open Targets Platform中支持360万个靶点-疾病关联的2800万条证据进行了全面注释工作,以从每个数据源提取时间戳,并制定了一个新指标来根据当前可用知识总结靶点在疾病背景下的新颖性程度。为过去二十年批准的新药靶点回顾性构建的时间剖面表明,在临床前和临床管线中,对人类遗传、文献衍生、差异表达和通路相关证据用于靶点验证的依赖日益增加。虽然这些结果可能受到过去十年某些领域和数据类型巨大增长的影响(遗传学是最明显的例子),但研究团队预期,未来他们开发的数据和工具将 invaluable 帮助用户导航 ever-expanding 和 increasingly complex 的生命科学和生物医学数据 landscape,并就药物发现中的关键问题(包括为解决未竟医疗需求而追求哪些靶点)做出及时、数据驱动的决策。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号