PROTAC-PatentDB:全球最大PROTAC专利化合物数据集助力靶向蛋白降解药物研发

《Scientific Data》:PROTAC-PatentDB: A PROTAC Patent Compound Dataset

【字体: 时间:2025年11月20日 来源:Scientific Data 6.9

编辑推荐:

  本研究针对PROTAC(靶向蛋白降解嵌合体)领域公开数据匮乏的瓶颈,从专利文献中系统性挖掘并构建了包含63,136个独特PROTAC分子的高质量数据集PROTAC-PatentDB。该数据集覆盖590个专利家族及252个靶点,并预测了120种ADMET(吸收、分布、代谢、排泄和毒性)性质,通过在线平台(http://protacpatentdb.com)开放共享。其规模远超现有文献衍生数据库(如PROTAC-DB的6,111个分子),显著拓展了PROTAC化学空间,为AI驱动的药物设计与发现提供了关键资源。

  
在药物研发领域,靶向蛋白降解技术正掀起一场革命。其中,PROTAC(Proteolysis-Targeting Chimeras,靶向蛋白降解嵌合体)作为新兴的双功能分子,能够同时结合疾病相关靶点蛋白(Protein of Interest, POI)和E3泛素连接酶,诱导靶蛋白泛素化并被蛋白酶体降解。这种事件驱动机制使PROTAC有望攻克传统“不可成药”靶点、克服耐药性,并以更低剂量实现疗效。然而,尽管实验室研究进展迅猛,高质量PROTAC分子数据的缺乏严重制约了计算药物发现和人工智能辅助药物设计(AIDD)的发展。现有数据库(如PROTAC-DB、PROTACpedia)仅覆盖数千个分子,且主要来源于学术文献,化学多样性有限。
为解决这一瓶颈,澳门大学胡元佳教授团队开展了大规模专利数据挖掘工作,构建了首个基于专利的PROTAC化合物数据集PROTAC-PatentDB。研究团队从Derwent Innovation专利数据库中检索2013–2023年间的PROTAC相关专利,通过严格的人工筛选和专家审核,最终纳入590个专利家族,提取出63,136个独特PROTAC结构,覆盖252个分子靶点。此外,利用ADMETlab 3.0平台预测了所有化合物的120种理化性质,并通过Figshare平台和交互式网站(http://protacpatentdb.com)全面开放数据。该研究发表于《Scientific Data》,为PROTAC领域提供了迄今规模最大、化学空间最广的公共数据资源。
关键技术方法
研究采用多步骤流程:首先通过关键词检索从Derwent Innovation数据库获取34,805篇专利文献,经法律状态筛选、人工审查标题/摘要/权利要求书,剔除非PROTAC专利及无明确结构披露的文献,最终确定590个专利家族。接着,通过SciFinder数据库提取化合物结构信息,经三轮专家审核去除中间体、催化剂等噪声分子,确保数据纯净。最后,使用ADMETlab 3.0预测ADMET性质,并基于UMAP(Uniform Manifold Approximation and Projection)分析验证化学空间多样性。
研究结果
专利趋势与靶点分布
PROTAC专利活动自2015年起快速增长,2019–2022年达到高峰,美国(23.02%)和中国(20.94%)为主要申请国。领先机构包括Dana-Farber癌症研究所、Kymera Therapeutics等。靶点分析显示,AR(雄激素受体)、BTK(布鲁顿酪氨酸激酶)、BRD4(含溴结构域蛋白4)等肿瘤相关蛋白最为热门。
化合物特征与数据库对比
PROTAC-PatentDB的分子平均分子量(MW)为920.7 Da,cLogP为3.8,氢键受体(HBA)和供体(HBD)数分别为16.0和3.6,拓扑极性表面积(TPSA)达192.5 ?2,符合PROTAC“超越五规则”(beyond Rule of 5)的特性。与现有数据库相比,其化合物数量(63,136)远超PROTAC-DB(6,111)和PROTACpedia(1,190),且UMAP分析显示化学空间覆盖更广。
案例应用验证
以IRAK4(白细胞介素-1受体相关激酶4)靶向PROTAC为例,研究展示了数据集的四大应用场景:
  1. 1.
    结构解构:利用机器学习工具PROTAC-Splitter自动分解1,829个分子为靶头(warhead)、连接链(linker)和E3配体;
  2. 2.
    结构优化:统计高频片段发现CRBN(Cereblon)E3配体占主导,连接链以5–12原子柔性链为主;
  3. 3.
    分子生成:组合前十片段生成1,000个候选分子,经去重得591个新颖结构;
  4. 4.
    合成可行性筛选:通过DeepPSA工具预测236个分子合成难度较低(评分≥0.5),具备实验开发潜力。
结论与意义
PROTAC-PatentDB填补了专利源PROTAC数据的空白,其规模与多样性为AIDD模型训练提供了坚实基础。数据集突出专利文献在披露新颖化学结构方面的优势,并通过ADMET预测、结构解构等模块支持理性药物设计。未来可通过整合活性数据、开发PROTAC专用预测工具进一步拓展应用。该资源将加速靶向蛋白降解药物的创新,尤其为攻克肿瘤、免疫疾病等难题提供新路径。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号