罕见疾病的遗传学支持药物靶点优先级排序

《Genome Medicine》:Genetically supported drug target prioritization for rare diseases

【字体: 时间:2026年06月12日 来源:Genome Medicine 11.2

编辑推荐:

  RareGPS是一种用于罕见和不常见疾病的药物靶点优先级排序的机器学习框架,集成了11种遗传学、临床学和实验学证据来源。该框架采用等位基因系列模型,利用跨等位基因频率区间的遗传关联完整分布。在161种表型中,RareGPS在预测药物适应症和临床试验进展方面优于

  
RareGPS是一种用于罕见和不常见疾病的药物靶点优先级排序的机器学习框架,集成了11种遗传学、临床学和实验学证据来源。该框架采用等位基因系列模型,利用跨等位基因频率区间的遗传关联完整分布。在161种表型中,RareGPS在预测药物适应症和临床试验进展方面优于现有资源;排名前1%的靶点从非适应症进展至IV期临床试验的可能性是中间50%靶点的58倍,从I期进展至IV期的可能性是8倍。研究人员通过200万患者的处方组学分析和独立文献评估工具AMELIE对RareGPS进行了验证,并发布了3,021,965个基因-表型对的预测结果。
罕见及不常见疾病患者因症状非特异性且相互重叠、遗传病因未知以及专科医生经验有限等因素,常面临漫长的诊断延迟。针对此类疾病的药物研发面临独特挑战:有限的患者群体使研发成本难以回收,且许多靶点无法用小分子药物治疗,而需单克隆抗体、蛋白替代疗法或细胞和基因疗法等昂贵手段。尽管1983年《孤儿药法案》已激励罕见病药物开发,且2022年美国食品药品监督管理局(FDA)批准的新药和生物制品中49%用于罕见病,但近40%的孤儿药认定和批准针对罕见癌症,导致许多非癌症罕见病仍缺乏获批疗法。

大多数罕见病具有遗传性,其中71.9%收录于Orphanet数据库。许多遵循孟德尔(Mendelian)遗传模式,由单基因或少数基因突变导致。传统家系研究和病例系列分析常难以获得确切结论,而生物银行规模的关联研究虽能识别额外遗传病因,但仅适用于样本量充足的少数罕见病。因此,许多罕见病的遗传病因仍属未知,阻碍了治疗靶点识别和代表性临床前模型的建立。尽管如此,靶向致病基因仍是最直接的治疗策略。具有遗传学支持的药物靶点从I期临床试验推进至上市的可能性至少为无遗传支持靶点的两倍。

研究人员此前针对399种常见药物适应症开发了遗传学优先级评分(Genetic Priority Score, GPS),通过整合临床遗传学和遗传关联,识别出具有高达11倍药物适应症可能性和8.8倍临床试验进展可能性的基因。随后又证明,结合预测表型遗传关联的机器学习辅助GPS能更准确识别112种常见慢性病的药物适应症基因。目前亟需针对罕见和不常见疾病的计算治疗方法,但开发基于遗传学的评分系统是否可行尚不确定。除孟德尔基因外,遗传学证据支持罕见病药物适应症的程度也不清楚,因为罕见病的常见变异和罕见变异关联报告均相对匮乏。

研究人员提出,通过纳入遗传关联的完整分布范围——包括低于Bonferroni校正阈值的关联以及等位基因系列框架中超罕见、罕见和常见等位基因频率区间的关联——可以克服现有遗传学研究的统计效力限制。等位基因系列(allelic series)由独立产生疾病梯度效应的基因变异组成,反映靶点功能与表型之间的剂量-反应关系,支持靶点的有效性。此外,整合临床遗传学、小鼠模型、基因表达数据、实验文献文本挖掘以及捕获基因-疾病关系的图神经网络等其他相关证据,可增强罕见病药物靶点的优先级排序。

基于这一原理,研究人员构建了针对64种罕见和97种不常见疾病表型(以phecode表示)的罕见病遗传学优先级评分(RareGPS)。利用梯度提升框架,RareGPS整合了上述证据来源,在预测药物适应症和临床试验进展方面持续优于现有资源。研究人员通过多种方式验证RareGPS:首先,借鉴既往处方组学分析,分析某大型医疗系统200万患者的电子健康记录(Electronic Health Records, EHR),证明RareGPS优先排序的药物机制在病例与对照之间存在差异性处方模式,其中许多反映了超说明书用药;其次,利用自动化文献评估工具AMELIE进行独立验证;最后,生成涵盖19,345个蛋白编码基因和全部161种phecode的3,021,965个基因-phecode对的RareGPS预测,并提供了药物开发和再利用的应用实例。

本研究的主要结果为:RareGPS在预测药物适应症方面展现出优越性能,受试者工作特征曲线下面积(Area Under the Receiver Operating Characteristic Curve, AUROC)达0.70,精确率-召回率曲线下面积(Area Under the Precision-Recall Curve, AUPRC)为0.06。与中间50%的基因-表型对相比,排名前1%的基因-表型对从非适应症进展至IV期临床试验的可能性高58倍,从I期进展至IV期的可能性高8倍。特征重要性分析显示,文本挖掘、超罕见变异基因水平关联、Mantis-ML和罕见变异关联是最重要的特征。在 Mount Sinai 数据仓库的处方组学分析中,RareGPS优先排序的非批准药物机制显示出比非优先排序机制更高的过度处方比例,且存在明显的剂量-反应关系。在200万患者的电子健康记录中,优先排序机制的过度处方比例为25.9%,显著高于非优先排序机制的15.2%,而批准药物机制的最高过度处方比例达74.1%。

本研究涉及以下主要关键技术方法:研究基于英国生物银行(UK Biobank)约50万例参与者的数据开展遗传关联分析,使用regenie软件进行常见变异单变异检验、罕见和超罕见编码变异单变异检验,以及罕见和超罕见有害编码变异的基因水平检验。机器学习模型采用XGBoost梯度提升框架,结合5折嵌套交叉验证策略进行训练与评估,使用SHapley Additive exPlanations解释模型特征重要性。药物靶点评分整合Open Targets Platform、Human Gene Mutation Database、OMIM、Mantis-ML等多源证据。在 Mount Sinai 数据仓库的验证中,基于87百万份电子健康记录构建包含2,027,074例纵向护理患者的队列,采用逻辑回归分析药物机制的差异性处方模式,并通过AMELIE自动化文献工具进行独立验证。

**罕见和不常见疾病的药物适应症及支持证据少于常见疾病**

研究首先比较了罕见、不常见与常见疾病在支持证据和药物适应症方面的差异。在具有住院和门诊诊断数据的英国生物银行参与者中,识别出64种罕见phecode(观察病例比例<0.05%且至少50例)、97种不常见phecode(0.05%≤观察病例比例<0.2%)和46种常见phecode(观察病例比例≥2%)。在161种罕见和不常见phecode中,87种未被纳入先前的遗传学支持药物开发研究。从四个数据来源识别出罕见、不常见和常见phecode分别具有1,932、3,980和7,740个有药物适应症的基因-phecode对,且罕见和不常见phecode在每个临床试验阶段的适应症数量均显著少于常见phecode。除小鼠模型和系统生物学外,罕见和不常见phecode在各证据来源中具有关联证据的基因-phecode对比例均显著低于常见phecode,其中基因负担和Locus-to-Gene(L2G)的差异最大。此外,罕见和不常见phecode的已适应症基因-phetype对中,获得临床遗传学、基因表达和L2G支持的比例也显著较低。

**遗传关联的完整分布可预测不常见和罕见phecode的药物适应症**

由于仅93个罕见和不常见phecode的已适应症基因-phecode对具有来自Open Targets Platform的L2G或基因负担支持证据,研究人员在英国生物银行中独立进行了遗传关联检验。功效分析表明,除极大效应量外,检测Bonferroni校正显著的单变异关联能力有限,但检测名义显著关联的功效充足,因此同时进行了基因水平检验以提高统计效力。

研究鉴定出451个至少具有一个Bonferroni显著关联的基因-phecode对,涉及139种罕见和不常见phecode的399个不同基因。26/112个具有显著常见变异的基因-phecode对、97/271个具有显著罕见变异的基因-phecode对、24/52个具有显著罕见变异基因水平检验结果的基因-phecode对,以及43/51个具有显著超罕见变异基因水平检验结果的基因-phecode对在临床遗传学、既往遗传关联或机器学习方法中具有支持证据。值得注意的是,罕见变异的单变异和基因水平检验均鉴定出IFT140与GE_976.5(多囊肾病)以及FECH与GE_966.2(卟啉代谢障碍)之间的Bonferroni显著关联。

然而,这些Bonferroni显著关联仅支持10个药物适应症,不足以训练稳健的RareGPS模型。因此,研究人员假设即使不存在Bonferroni显著关联,遗传关联p值的全分布也有助于药物靶点优先级排序。结果显示,低于Bonferroni校正阈值的常见和超罕见变异关联在药物适应症方面存在显著富集,且在更严格的显著性阈值下富集程度更高。在p<0.05和p<0.01阈值下,来自两个或三个等位基因频率区间的基因-phecode对在药物适应症方面均显著富集,支持等位基因系列对药物靶点优先级排序具有价值的观点。

**RareGPS特征**

RareGPS包含11个特征:代表现有证据的差异基因表达、Human Gene Mutation Database(HGMD)、L2G、小鼠模型、Open Targets Platform临床遗传学、文本挖掘;代表英国生物银行四种遗传关联检验的常见变异、罕见变异、罕见变异基因水平、超罕见变异基因水平;以及原始Mantis-ML评分。在356,272个基因-phecode对(其中5,912个已适应症)中,除罕见变异单特征外,所有特征均与药物适应症单独显著相关,其中HGMD的比值比(Odds Ratio, OR)为7.26,Open Targets Platform临床遗传学的OR为10.41。

**RareGPS在预测罕见和不常见疾病药物适应症和临床试验成功方面优于现有资源**

在保留集评估中,RareGPS的AUROC达0.70,AUPRC为0.06,优于仅使用各单一类别特征或Mantis-ML与现有证据组合的模型。RareGPS在预测从非适应症到I期、从非适应症到IV期、以及从I期到IV期的临床试验进展方面亦表现更优,AUROC分别为0.69、0.81和0.67。

与25%-75%分位数的基因-phecode对相比,99%分位数及以上的基因-phecode对具有药物适应症的可能性高11.86倍,从非适应症进展至I期的可能性高13.51倍,从非适应症进展至IV期的可能性高58.30倍,从I期进展至IV期的可能性高8.07倍。RareGPS预测与DrugnomeAI可药性预测具有互补性:在RareGPS>99%分位数的基因-phecode对中,随着预测可药性增加,药物适应症的富集程度也随之增加,DrugnomeAI评分>0.75的基因-phecode对的OR为20.29。

SHAP特征重要性分析表明,最重要的特征为文本挖掘、超罕见变异基因水平关联、Mantis-ML和罕见变异关联。尽管临床遗传学支持的基因-phecode对高度富集药物适应症,但由于稀疏性,其总体重要性较低。四种遗传关联特征与Mantis-ML之间存在显著的特征间交互作用。

**RareGPS具有稳健性**

研究人员通过多种子集分析评估RareGPS的稳健性。按药物项目首次达到临床前或I期的时间分层(2005年前、2005-2015年、2015年后),AUROC分别为0.72、0.71和0.66。在13种phecode类别中,除血液/免疫(0.62)、胃肠(0.67)、泌尿生殖(0.63)和呼吸(0.56)外,其余类别的AUROC均不低于总体水平。按英国生物银行观察病例比例分层(<0.0005、0.0005-0.001、>0.001),AUROC分别为0.70、0.71和0.69,表明即使病例数≤250的phecode,遗传关联对靶点优先级排序仍有价值。

通过三种互补的保留方案验证特征泛化能力:基于基因的5折交叉验证(AUROC 0.70)、留一phecode类别交叉验证(AUROC 0.68)、以及数据源保留验证(基于Open Targets Platform和孤儿药适应症训练、Citeline测试的AUROC为0.82),证明RareGPS特征能很好地泛化至未见基因、疾病类别和数据来源。

**靶向RareGPS优先排序基因的药物具有独特的处方模式**

研究人员在Mount Sinai数据仓库的200万患者中,检验了RareGPS优先排序(≥95%分位数)的非批准药物、非优先排序(<80%分位数)的非批准药物以及批准药物在病例与对照之间的差异性处方模式。将作用方向相同的药物按机制合并后,共评估160种phecode中的3,983个非优先、5,685个优先和108个批准药物机制。

采用Benjamini-Hochberg校正p值<0.05结合OR阈值(<0.61为处方不足,>4.45为过度处方)进行定义时,优先药物机制中过度处方的百分比显著高于非优先机制,且随着RareGPS分位数增加呈单调上升趋势,批准药物机制的过度处方比例最高(74.1%)。在100个过度处方的非批准优先机制中,至少51个涉及可能的超说明书用药或对症用药,如lumateperone用于分裂情感性障碍、riluzole用于遗传性共济失调、denosumab用于先天性骨营养不良;18个涉及合并症治疗;11个涉及致病机制;7个涉及病因治疗;3个可能存在误诊。三个处方不足机制涉及禁忌证或药物相互作用。

**RareGPS在所有蛋白编码基因中优先排序药物靶点**

研究人员计算了19,345个蛋白编码基因在161种phecode中的RareGPS评分(共3,021,965个至少有一个非零特征的基因-phecode对)。RareGPS阈值0.037(99.6%分位数)使F1分数最大化至7%(精确率5%,召回率11%),该阈值以上有12,275个基因-phecode对(4,658个基因,124种phecode),其中10,520和5,989个分别具有至少两个或三个特征类别的支持。在9,934个具有遗传关联支持的基因-phecode对中,5,686个具有来自多个等位基因频率区间的名义显著关联。

与所有其他基因-phecode对相比,这些顶部预测有显著更高比例获得AMELIE的任何支持(69.0%)或强支持(39.6%)。顶部基因-phecode对的DrugnomeAI预测可药性也显著更高(中位数0.015 vs 0.001),且有6,411个已被现有药物靶向或预测为高可药性(DrugnomeAI>0.5)。在不同应用场景下,precision@k和需筛选数量(Number Needed to Screen, NNS)指标显示:高置信度验证(k=100,精确率30%,NNS=3.3)、中等通量随访(k=1,000,精确率13.5%,NNS=7.4)和高通量发现(k=10,000,精确率5.49%,NNS=18.2)均具有良好的早期精确率。

研究还提供了RareGPS的三个临床应用实例:第一,药物再利用机会识别,如C3抑制剂用于局灶节段性肾小球硬化、NF-κB抑制剂用于胆汁性肝硬化、denosumab用于幼年特发性关节炎;第二,临床试验中的药物支持,如sparsentan用于局灶节段性肾小球硬化、tofacitinib用于系统性硬化、setrusumab和romosozumab用于成骨不全症;第三,无现有药物的证据支持靶点识别,如SQSTM1用于Paget骨病、ANO5用于肌营养不良,以及通过DrugnomeAI筛选可靶向的ENG用于遗传性出血性毛细血管扩张症。

讨论部分,研究人员指出RareGPS作为整合遗传学、临床学和实验证据的机器学习框架,在罕见和不常见phecode的药物靶点优先级排序中表现优异。与先前针对常见慢性phecode的GPS实现一致,纳入遗传关联完整分布(以-log10(p值)编码)改善了RareGPS性能。尽管该方法因I类错误较大而不适用于遗传学发现,但当结合其他证据且名义显著关联跨越多个等位基因频率区间形成等位基因系列时,机器学习模型能够有效利用低于Bonferroni阈值的关联进行药物靶点优先级排序。

电子健康记录数据结合数百万处方、诊断和临床测量,是识别药物再利用机会的宝贵但未充分利用的资源。本研究利用病例与对照之间的差异性处方模式作为RareGPS优先排序靶点生物学相关性的指标,其中过度处方(可能由于超说明书用药或不良反应)和处方不足(可能由于禁忌证或保护作用)均可支持靶点在疾病中的功能作用。许多高OR的优先机制可能反映超说明书用药,这在缺乏FDA批准治疗的罕见病中可能很常见。

RareGPS目前限于161种phecode,这是通过半主观过程选择且需要英国生物银行至少50例病例才能进行遗传关联检验。这排除了极罕见、导致早亡或在英国生物银行中代表性不足的表型。为解决此局限,研究人员发布了可为任何phecode生成预测的已训练模型,并提供了生成120种排除phecode预测的交互式教程,这些phecode的AUROC为0.83、AUPRC为0.06。此外还发布了不含英国生物银行遗传关联的Existing+Mantis-ML模型,使遗传关联检验不可行的极罕见phecode也能进行预测。

本研究存在以下局限性:遗传关联检验仅在英国生物银行中进行,该队列超过80%为欧洲裔参与者,可能限制捕获非欧洲裔特异性遗传变异的能力;证据来源和药物适应症使用不同表型术语,映射至phecode可能引入错误;RareGPS旨在促进基于靶点的药物发现,但表型药物发现有时可能更有效;训练时将所有药物靶点同等对待,而实际上某些靶点对疾病调节可能更重要;RareGPS特征均不全面,缺乏优先排序并不一定意味着靶点不适合药物开发。

结论部分,RareGPS是一种有效整合遗传关联、临床遗传学和多种其他证据类型的机器学习框架,用于罕见病药物靶点优先级排序,在预测药物适应症和临床试验进展方面优于现有资源。RareGPS结合其他证据类型利用低于Bonferroni阈值的遗传关联的能力,以及通过电子健康记录处方模式的验证,表明其能够加速目前缺乏有效治疗的罕见病治疗靶点的识别。
相关新闻
生物通微信公众号
微信
新浪微博

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号