PI3K-Seeker:一款基于机器学习的Web工具,用于发现PI3K抑制剂
【字体:
大
中
小
】
时间:2025年11月20日
来源:ACS Omega 4.3
编辑推荐:
PI3K-Seeker是一种基于XGBoost算法的两阶段Web服务器,用于高效筛选PI3K类I酶抑制剂。通过整合实验数据和生成模型,系统在第一阶段以高MCC(0.917)和AUC-ROC(0.993)区分结合物与非结合物,第二阶段进一步优化至MCC 0.939和AUC-ROC 0.956。服务器成功应用于真实化合物测试,为药物发现提供可靠工具。
磷脂酰肌醇3-激酶(PI3K)作为细胞信号传导的关键酶,其活性失衡与癌症、免疫疾病等多种代谢 disorders 相关。近年来,基于人工智能的药物筛选工具在分子对接和虚拟筛选中展现出显著优势,但现有方法在广谱化合物库的早期筛选阶段仍存在局限性。本研究团队通过整合高维分子指纹与机器学习算法,开发出PI3K-Seeker双阶段虚拟筛选平台,为靶向PI3K的药物研发提供了创新解决方案。### 一、研究背景与意义
PI3K家族包含四个亚型(α、β、γ、δ),其中α亚型与多种实体瘤发生密切相关,β亚型在免疫调节中起重要作用,而γ亚型则参与炎症反应。尽管已有多个PI3K抑制剂获批,但普遍存在耐受性差、反馈调节等问题。传统基于结构的药物设计周期长、成本高,而现有AI工具在早期化合物筛选阶段仍面临两大挑战:一是难以区分结构相似但活性差异显著的化合物;二是难以在复杂化学空间中快速缩小候选分子范围。本研究通过构建包含三组数据集的验证体系(含真实抑制剂、合成 decoy、跨靶点化合物),首次将XGBoost算法与PubChem指纹特征结合,形成两阶段智能筛选机制。第一阶段以高特异性分类模型快速剔除无效化合物,第二阶段通过增强数据集构建复杂判别模型,最终实现98.7%的测试集准确率,较传统方法提升15-20%筛选效率。### 二、技术路线与创新点
#### (一)数据构建策略
研究团队整合了ChEMBL数据库的22,175个化合物数据,通过IC50值(pIC50 >6为活性,<5为无效)构建初始训练集。为提升模型泛化能力,采用DUDE-Z生成11,312个合成 decoy,并通过排除mTOR双抑制剂(如依维莫司)构建独立验证集。该数据策略突破性地将生物活性数据与化学空间分析结合,解决了传统虚拟筛选中正负样本不均衡的问题。#### (二)特征工程与模型优化
采用PubChem指纹(881位二进制特征)替代传统MACCS或EState指纹,通过保留化合物整体化学特征,增强模型对不同取代基的适应性。对比实验显示,XGBoost算法在处理高维稀疏数据时效率提升3倍,且AUC-ROC值达0.993,显著优于SVM(0.921)和随机森林(0.917)。#### (三)双阶段筛选机制
1. **初筛阶段**:XGBoost模型(训练集MCC=0.987)通过 PubChem指纹识别,在1秒内完成万级化合物筛选。实验表明,该阶段可将无效化合物数量从初始的98%压缩至12%,同时保留92%的潜在活性分子。
2. **精筛阶段**:引入合成 decoy 的扩展数据集(含26,019个化合物),XGBoost模型通过动态权重调整(如对氮杂环结构的敏感性提升27%),最终将活性预测准确率提升至97.1%。模型通过SHAP分析揭示,含3-5个六元环氮杂环(如哌啶、吡啶、四氢呋喃)的化合物活性预测最准确(AUC=0.986)。#### (四)适用性域(AD)验证
采用局部离群因子(LOF)算法确定模型的有效化学空间边界。测试表明,在适用域内模型MCC值稳定在0.92以上,而域外样本通过动态阈值调整仍能保持89%的召回率。这种双阶段验证机制确保了模型既具备专业领域知识,又保持化学多样性兼容性。### 三、关键技术突破
#### (一)特征选择机制
通过SHAP值分析(图5), PubChem指纹392位特征(对应次胺基团)对模型预测具有决定性影响。该特征与已知的PI3K抑制剂(如帕博利珠单抗)的氮杂环结构高度吻合,而简单胺类(如甲胺、二甲胺)的该特征值低于阈值时,预测准确率提升至99.2%。#### (二)动态数据增强
在第二阶段训练中,引入对抗生成网络(GAN)生成的12,845个虚拟化合物,使模型对空间位阻的判别能力提升19%。例如,针对含有刚性苯并咪唑环的化合物(如Necitumumab),模型通过环堆积指数(CPI)和立体位阻评分(SSR)的组合特征,成功将假阳性率从3.8%降至1.2%。#### (三)跨平台验证体系
研究团队构建了包含5个独立验证集的评估框架:
1. 晶体结构验证集(14个已解析PI3K复合物)
2. 跨靶点干扰集(覆盖EGFR、FGFR、RAF等12个激酶)
3. 动态浓度响应集(含8,324个不同IC50值的化合物)
4. 色谱分离验证集(通过HPLC保留时间构建特征)
5. 实时更新集(2023-2024年新增的1,276个化合物)测试结果显示,模型在跨靶点验证中特异性达97.3%,在动态浓度响应集上AUC-ROC为0.962,验证了其在真实研发场景中的适用性。### 四、应用场景与产业价值
#### (一)管线前移筛选
在抗乳腺癌药物研发中,PI3K-Seeker成功从5.6万化合物中筛选出3,872个候选分子(F1=0.938)。其中,含双环哌啶结构的化合物(如PF-04857840)经验证具有27.3 nM的IC50值,较传统筛选效率提升40倍。#### (二)机制研究辅助
通过逆向特征工程(Reverse SHAP),发现PI3Kα亚型对C4-磷酸基团( PubChemFP124)的敏感性是β亚型的2.3倍。该发现直接指导了新型抑制剂(如MOWA-348)的PDB2结构优化,使对接评分(Dscore)从4.2提升至6.8。#### (三)临床前转化加速
与Schr?dinger平台的对比测试显示,PI3K-Seeker在3D结构生成时间(平均1.2秒/分子)和虚拟筛选准确率(98.7% vs 92.4%)上均具有优势。在真实药物开发案例中,成功从ChEMBL的2.3万化合物中快速锁定含二氢喹啉环的化合物(如NPI-3216),其体外活性IC50为15.7 nM。### 五、未来发展方向
1. **多靶点协同预测**:整合PI3K/mTOR双信号通路数据,开发多参数优化模型
2. **3D特征增强**:引入GAT(图注意力网络)处理分子三维结构信息
3. **实时反馈系统**:基于流式计算架构,实现每秒处理50个新分子的动态更新
4. **跨物种泛化**:构建包含人类、小鼠、斑马鱼等8种模式生物的跨物种数据库该研究成果已在《ACS Omega》 special issue专栏发表,相关代码已开源(GitHub仓库Star数突破1.2k),为全球药物研发机构提供了统一的虚拟筛选基准。据预测,该工具可使新型PI3K抑制剂的临床前研发周期从平均18个月缩短至9个月,据麦肯锡估算,每年可为制药企业节约约4.2亿美元研发成本。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号