
-
生物通官微
陪你抓住生命科技
跳动的脉搏
基于MPNN与LSTM迁移学习的Eg5有丝分裂驱动蛋白抑制剂从头设计与生物活性预测
【字体: 大 中 小 】 时间:2025年06月28日 来源:Computers in Biology and Medicine 7.0
编辑推荐:
本研究针对乳腺癌治疗中Eg5驱动蛋白过表达的难题,采用生成式AI(LSTM模型)结合迁移学习技术,从ChEMBL数据库预训练到Eg5特异性化合物生成,通过分子对接、200 ns分子动力学(MD)模拟及MM-GBSA结合自由能计算(-82.68 kcal/mol vs -76.98 kcal/mol),筛选出5种新型Eg5抑制剂,其中化合物103展现出优于共晶配体的结合特性,为乳腺癌靶向治疗提供新候选。
乳腺癌作为全球发病率最高的恶性肿瘤,每年新增病例超230万,死亡人数达68.5万,其中Eg5驱动蛋白的过表达与肿瘤细胞异常增殖密切相关。Eg5是一种维持有丝分裂纺锤体双极结构的关键马达蛋白,其抑制剂可通过阻断染色体分离诱导癌细胞凋亡。然而传统药物发现存在化学空间探索有限、实验成本高昂等问题,亟需人工智能技术突破这一瓶颈。
为解决这一挑战,研究人员开展了一项结合深度学习与计算生物学的研究。该团队采用长短期记忆网络(LSTM)架构,先在包含157万化合物的ChEMBL数据库上进行预训练,再针对Eg5活性化合物进行迁移学习,构建了能够生成新型抑制剂的AI模型。通过机器学习筛选、类药性评估、分子对接及200纳秒分子动力学(MD)模拟等多层次验证,最终发现化合物103作为共晶配体的生物电子等排体,其MM-GBSA(分子力学/广义玻恩表面积模型)计算结合自由能达-82.68 kcal/mol,显著优于已知配体(-76.98 kcal/mol)。ADMET(吸收、分布、代谢、排泄和毒性)预测进一步证实其成药潜力。
关键技术方法包括:1)基于ChEMBL数据库的SMILES(简化分子线性输入规范)序列预处理与LSTM模型构建;2)迁移学习策略实现从通用化合物到Eg5特异性抑制剂的定向生成;3)采用RDKit进行分子标准化与过滤;4)结合AutoDock Vina的分子对接与AMBER软件的MD模拟;5)MM-GBSA能量计算与ADMET性质预测。
数据收集与预处理
从ChEMBL获取的157万化合物经去盐、标准化处理后,通过RDKit过滤分子量异常样本,保留400-600 Da范围分子,确保生成化合物的类药性。
结果与讨论
研究证实生成式AI可高效探索化学空间,LSTM生成的化合物不仅结构新颖,且通过200 ns MD模拟显示与Eg5结合位点(如α2/α3螺旋和L5环)形成稳定相互作用。MM-GBSA能量分解揭示关键残基ASP130和GLU116的静电贡献是结合优势的主要来源。
结论
该研究开创性地将LSTM迁移学习应用于Eg5抑制剂设计,证实AI可加速抗癌药物发现流程。尽管化合物103等候选分子需进一步体外/体内验证,但该方法学为突破传统药物筛选瓶颈提供了新范式。作者指出未来将尝试Transformer(基于自注意力机制的神经网络)等新架构以提升生成效率。
研究意义在于:1)验证生成式AI在靶向抗癌药物开发中的实用性;2)建立从虚拟筛选到动力学验证的全流程计算框架;3)为其他难治性癌症的靶点发现提供技术参考。值得注意的是,所有作者声明无利益冲突,且研究未获外部资助,增强了结论的客观性。
生物通微信公众号
知名企业招聘