
-
生物通官微
陪你抓住生命科技
跳动的脉搏
基于基因型-药物扩散模型(G2D-Diff)的个性化抗癌小分子设计新策略
【字体: 大 中 小 】 时间:2025年07月02日 来源:Nature Communications 14.7
编辑推荐:
本研究针对肿瘤异质性和药物靶点稀缺的挑战,开发了基因型-药物扩散模型(G2D-Diff),通过生成式人工智能直接根据癌症基因型生成定制化抗癌小分子。该模型利用扩散算法和对比学习技术,在无需单独预测器的情况下,实现了高多样性、高可行性分子的生成,并通过注意力机制解析关键通路(如PI3K/AKT/PTEN和CDK)。在三阴性乳腺癌(TNBC)案例中,模型成功生成靶向HDAC1和CDK1/2的新型候选化合物(如TNBC-S1/S2),其结合位点与已知药物(Fimepinostat/Dinaciclib)高度重合。研究发表于《Nature Communications》,为AI驱动的个性化药物发现提供了新范式。
癌症治疗领域长期面临肿瘤异质性和有效靶点稀缺的双重困境。传统靶向药物开发依赖已知蛋白靶点,但复杂疾病如三阴性乳腺癌(TNBC)往往缺乏明确靶标。表型筛选虽能绕过靶点限制,却受限于基因表达数据的临床可获得性和批次效应。更棘手的是,现有生成模型多基于强化学习(RL),易受预测器偏差影响,导致生成分子偏离真实需求。
为解决这些问题,GIST-CSBL(韩国科学技术院)的Hyunho Kim、Hojung Nam团队联合加州大学圣地亚哥分校的Trey Ideker开发了基因型-药物扩散模型(G2D-Diff)。这项发表于《Nature Communications》的研究,首次将扩散模型引入基因型条件化分子生成领域,直接从718个临床相关基因的遗传变异数据生成抗癌候选分子。
研究团队采用三大关键技术:1)基于150万化合物训练的化学变分自编码器(VAE)构建分子潜空间;2)通过对比学习预训练条件编码器,将基因型-响应类别映射为可区分向量;3)采用分类器无关引导(CFG)的潜扩散模型,在300步去噪过程中动态调控生成分子的敏感度(AUC值)。模型验证使用GDSC、CTRP和NCI60数据库的120万药物-细胞系配对数据,并针对TNBC开展零样本生成实验。
分子潜空间评估
化学VAE在随机生成任务中达到0.86有效性、1.0新颖性和0.89多样性。生成的分子在类药性指标(QED>0.8、SAS<4.5)上与ChEMBL库相当,且体内毒性显著低于已知活性化合物(p<0.01)。
条件生成性能
G2D-Diff在三个评估集中均显示梯度响应:从极敏感(AUC≤0.3)到极耐药(AUC≥0.9)类别的预测AUC差异显著(p<10-4)。与基因表达模型PaccMannRL相比,其生成分子的Fréchet ChemNet距离(FCD)降低83%,且拓扑相似性(OTD)更接近真实活性分子。
支架特异性分析
模型为每个细胞系生成近12,000个独特支架(Bemis-Murcko算法),与已知敏感化合物重叠率<2%。值得注意的是,尽管与参考药物结构差异大(Tanimoto相似度<0.31),生成分子TNBC-S1/S2通过药效团匹配和分子对接验证了与PI3Kα/HDAC1和CDK1/2的结合能力,其标准化对接评分与Fimepinostat/Dinaciclib相当。
通路解析
注意力机制揭示模型优先关注突变负荷系统(NeST层级),在TNBC案例中自动聚焦PI3K/AKT/PTEN和组蛋白去乙酰化通路。例如HS578T细胞系生成分子中,88%的top注意力基因属于上述通路(OR=7.28,p<0.001)。
这项研究的突破性在于:1)首次实现不依赖基因表达数据的基因型-分子直接生成;2)通过系统级注意力增强可解释性,辅助靶点发现;3)生成的TNBC-S1/S2分子兼具结构创新性(最大相似度<0.25)和合成可行性(逆合成深度≤4)。局限性在于当前VAE基于SMILES表示,未来整合3D分子信息有望进一步提升有效性。
G2D-Diff为攻克难治性癌症提供了新思路——将传统药物发现的"靶点-先导物-优化"线性流程,转变为AI驱动的"基因型-候选分子"并行生成模式。其临床转化潜力体现在:1)利用临床常见的基因变异数据;2)生成的分子ADMET特性优于已知药物;3)可扩展至其他缺乏明确靶点的复杂疾病。这项技术或将重塑抗癌药物发现的范式,使个性化医疗真正步入"按基因开药"的新时代。
生物通微信公众号
知名企业招聘