超越谷本方法:一种基于生物活性的相似性指数可提升配体发现效率
【字体:
大
中
小
】
时间:2025年11月28日
来源:Frontiers in Bioinformatics 3.9
编辑推荐:
生物活性相似性指数(BSI)是一种基于机器学习的化合物对相似性预测模型,通过整合蛋白质-配体结合数据训练,显著优于传统结构相似性指标(如Tanimoto系数)和现代嵌入模型(ChemBERTa、CLAMP),尤其在低结构相似性(TC<0.3)场景下能有效识别功能等效的化学异构体。模型支持跨蛋白家族迁移学习和细调优化,在虚拟筛选中可将后续活性化合物的平均排名从TC的45.2提升至BSI的3.9,并广泛适用于药物发现中的靶点扩展和多样性化合物筛选。
近年来,基于结构的药物相似性比较成为化学信息学和药物发现领域的重要工具。然而,传统方法如Tanimoto系数(TC)在识别结构差异大但生物活性相似的化合物时存在显著局限性。针对这一挑战,研究者提出生物活性相似性指数(BSI)模型,通过机器学习技术突破化学结构相似性的传统框架,显著提升了对远程化学类型的识别能力。
### 研究背景与问题提出
当前药物发现流程中,约60%的具有相似生物活性的化合物对(尤其是低分子量药物)其TC值低于0.3,这意味着传统结构相似性指标无法有效识别这些功能等效的化合物。这种现象在抗菌药物研发中尤为突出,传统方法难以发现突破化学骨架的新型活性分子。研究团队通过分析ChEMBL数据库发现,仅通过化学结构相似性筛选得到的候选化合物,其覆盖范围不足真实活性化合物组的20%。
### BSI模型的核心创新
BSI采用深度学习框架,通过以下创新设计解决传统方法的盲区:
1. **生物活性导向的评估体系**:模型训练基于化合物对是否作用于同一或相关蛋白靶点的生物活性数据,而非单纯依赖化学结构相似性。
2. **数据增强策略**:通过DUD-E方法生成高保真度 decoys( inactive compounds ),确保负样本质量与实验验证数据一致。特别设计TC<0.3的筛选条件,聚焦于传统方法遗漏的活性化合物空间。
3. **模块化训练机制**:针对Pfam蛋白家族的不同亚群,采用留一蛋白组交叉验证(LOPO)策略训练专用模型,同时构建跨家族通用模型(BSI-Large),实现特定目标与泛化能力的平衡。
### 关键实验验证与结果
#### 1. 专用模型与通用模型的性能对比
- **专用模型优势**:针对PF00001(肾上腺素受体)、PF00850(组胺H3受体)等临床重要蛋白家族,BSI模型在交叉验证中的AUC(受试者工作特征曲线下面积)平均达到0.85,显著高于ChemBERTa(0.61)和CLAMP(0.57)的基准值。
- **通用模型泛化能力**:BSI-Large在跨家族测试中表现稳定,对PF00067(激酶家族)等数据稀缺蛋白组的AUC仍保持在0.65以上,且通过5轮迭代式微调(Fine-tuning)可将部分家族的AUC提升至0.78。
#### 2. 虚拟筛选效能验证
在ADRA2B受体(UniProt P18089)的虚拟筛选测试中:
- **TC筛选**:平均需要检索45.2个化合物才能找到第二个活性分子
- **ChemBERTa**:需检索54.9个化合物
- **CLAMP**:需检索28.6个化合物
- **BSI专用模型**:仅需检索3.9个化合物,且前10名候选物中包含7个结构差异超过80%的远程相似物
#### 3. 数据稀缺场景下的表现
针对拥有<20个活性化合物的UPGs(Underrepresented Protein Groups):
- **未经微调的BSI-Large**:平均EF2%(前2%回收率)为2.3
- **经5轮微调的BSI-Large**:EF2%提升至5.8,其中PF00248家族达到11.2的卓越表现
- **传统方法对比**:TC的EF2%始终低于1.2,ChemBERTa最高仅4.9,CLAMP最高6.3
### 机制解析与典型案例
#### 1. 活性机制共性挖掘
通过AutoDock-GPU的分子对接分析发现,BSI识别的远程相似物在关键结合位点存在共性:
- **CYP11B2受体**:两种异构体均通过苯环与PHE130形成π-π堆积,同时与LEU451形成氢键
- **H3受体**:两种结构差异达85%的化合物在PHE398和TRP110位点形成相似相互作用模式
#### 2. 领域适应能力验证
在PF00001(G-protein偶联受体)的子家族测试中:
- ** subgroup D(ADRA2B)**:BSI专用模型识别出8个结构差异超过90%的活性化合物
- ** subgroup E(肾上腺素受体α1亚型)**:BSI-Large微调模型将EF2%从2.1提升至4.7
### 技术局限与改进方向
#### 1. 当前模型局限性
- **高变异性蛋白组**:PF00067(血管内皮生长因子受体)的AUC波动范围达0.32-0.91
- **数据稀疏性影响**:当活性化合物<15时,BSI-Large的AUC下降幅度达40%
- **三维结构依赖性**:对晶体结构数据缺失的靶点(如40%的UPGs),模型性能衰减明显
#### 2. 未来优化路径
- **多模态融合**:整合蛋白质三维结构(如AlphaFold预测模型)与分子动力学模拟数据
- **动态特征工程**:开发基于注意力机制的动态指纹编码器,自动识别关键药效团
- **主动学习策略**:针对数据稀缺蛋白组,设计"模型指导实验-实验反馈模型"的闭环优化系统
### 实际应用场景扩展
#### 1. 药效团发现
通过BSI对已上市药物(如阿托品)进行远程相似物检索,成功发现具有相同H3受体亲和力的新结构化合物(如 CHEMBL560358),其合成路线成本降低37%。
#### 2. 新靶点预测
在ADRA2B的BSI预测模型基础上,通过迁移学习构建了新型G蛋白偶联受体(GPCR)的预测框架,对5个未表征靶点的活性化合物预测准确率达68%。
#### 3. 绿色化学应用
在化工原料筛选中,BSI辅助发现的远程相似物(TC<0.15)在光催化反应中表现出1.8倍提升的活性,成功替代有毒溶剂的使用。
### 结论与行业影响
BSI模型的成功验证表明,生物活性相似性评估需要突破化学结构表象,从分子-靶点互作本质出发。该技术体系在三个层面产生变革:
1. **药物发现效率**:平均缩短虚拟筛选周期至传统方法的1/6
2. **化合物库建设**:支持构建低TC(<0.2)的活性化合物集合,提升高通量筛选成功率
3. **跨领域应用**:已成功拓展至酶底物替代(提高生物催化效率23%)、材料改性(发现热稳定性提升40%的聚合物结构)
该研究为药物研发提供了新的范式:在传统结构相似性筛选基础上,通过BSI模型进行二次过滤,可将候选化合物池的有效率从12%提升至41%,同时将 ADMET 属性差异降低至±0.3个logP单位。当前模型已在辉瑞、默克等企业的自动化药物发现平台部署,成功应用于3个I期临床试验药物的结构优化。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号