
-
生物通官微
陪你抓住生命科技
跳动的脉搏
LAGOM:基于Transformer的化学语言模型在药物代谢物预测中的突破与应用
【字体: 大 中 小 】 时间:2025年09月19日 来源:Artificial Intelligence in the Life Sciences 5.4
编辑推荐:
本研究针对药物代谢物识别实验成本高、耗时长的问题,开发了基于Transformer架构的LAGOM模型,用于预测药物候选物的代谢转化。通过整合多源数据和采用课程式迁移学习策略,LAGOM在GLORYx基准测试中表现优异,其召回率和精确度均优于现有规则基方法(如SyGMa和GLORYx)及早期Transformer模型MetaTrans,为化学信息学中的代谢物预测提供了高效、可扩展的新方案。
在药物研发过程中,代谢物识别研究是确保候选药物安全性和有效性的关键环节,但传统的实验方法不仅成本高昂,而且耗时漫长。尽管计算化学方法在过去二十年中逐渐受到关注,尤其是机器学习技术的引入为代谢物预测提供了新的机遇,但现有方法仍存在明显局限。例如,基于规则的系统(如SyGMa和GLORYx)虽然可解释性强,但其覆盖的转化规则有限,且高度依赖位点代谢(SoM)预测的准确性,容易产生大量假阳性结果。而早期的深度学习模型(如MetaTrans)虽然避免了显式规则定义,却因训练数据规模小、化学多样性不足而表现不佳。
为了应对这些挑战,Sofia Larsson、Miranda Carlsson、Richard Beckmann、Filip Miljkovi?和Rocío Mercado在《Artificial Intelligence in the Life Sciences》上发表了一项研究,开发了名为LAGOM(Language-model Assisted Generation Of Metabolites)的新型化学语言模型。该模型基于Transformer架构,并利用Chemformer的预训练基础,通过课程式迁移学习策略,显著提升了药物代谢物预测的准确性和泛化能力。
研究人员主要采用了以下关键技术方法:
数据收集与处理:从多个公开数据库(如DrugBank、MetXBioDB、MetaTrans和Virtual Analogs)中获取并严格筛选了药物-代谢物反应对,构建了高质量的LAGOM数据集;
模型训练策略:采用分阶段预训练和微调方法,先在大规模化学转化数据(VA数据集)上进行预训练,再在代谢特异性数据(MetaTrans)上进一步预训练,最后在LAGOM数据集上进行微调;
数据增强:应用SMILES随机化技术提升模型鲁棒性;
集成建模:探索了基于分层拆分和分子相似性聚类的集成策略,以提升预测多样性;
性能评估:使用GLORYx标准测试集进行外部验证,采用召回率(Recall)、精确度(Precision)、F1分数等多项指标进行全面评估。
研究使用了三类数据集:预训练数据(VA和MetaTrans)、微调数据(LAGOM)和外部测试数据(GLORYx)。所有数据均以“母药-代谢物”对的形式组织,并通过反应SMILES表示。数据经过标准化处理,包括去除溶剂分子和盐、中和酸碱、消除立体化学信息等步骤,确保数据一致性和可比性。
通过基于药物来源的分层拆分方法,将LAGOM数据集划分为训练集、验证集和测试集,有效避免了数据泄露。此外,还应用了分子量截断和化学相似性(Tanimoto相似性)过滤,进一步提升了数据质量。
采用基于药物来源的拆分策略,确保同一药物的所有代谢反应均位于同一集合中。VA和MetaTrans数据集则按随机比例划分为训练集和验证集。
研究提出了三种预训练模型:
Chemformer:作为基线模型,基于公开的Chemformer架构进行微调;
ChemVA:在VA数据集上进行了领域相关预训练;
ChemVA-Met:在ChemVA基础上进一步使用MetaTrans数据集进行代谢特异性预训练。
此外,还探索了多种集成模型策略,包括分层拆分、基于母药或代谢物相似性的聚类拆分,以提升模型预测的覆盖范围和准确性。
模型性能通过多项指标进行综合评价,包括预测有效性(Validity)、Accuracy@k、Precision@k、Recall@k和F1分数。其中,Recall@k和Precision@k分别反映了模型对真实代谢物的覆盖能力和预测准确性,而F1分数则综合平衡了这两项指标。
研究结果表明,SMILES随机化技术显著提高了模型性能(p<0.05)。在预训练阶段,ChemVA-Met模型通过引入代谢特异性数据,显著提升了召回率(Recall@10从0.37提高到0.43),同时保持了较高的化学有效性(96.9%)。
集成模型在召回率方面表现更优,但精确度有所下降。其中,基于代谢物相似性拆分的集成模型在LAGOM测试集上取得了最佳平衡。
在外部GLORYx测试集上,ChemVA-Met模型的召回率达到0.43,精确度为0.18,F1分数为0.25,均显著优于规则基方法(SyGMa和GLORYx)和早期Transformer模型(MetaTrans)。与近期提出的MetaPredictor模型相比,LAGOM在精确度上表现更优,且训练数据规模更小,凸显了其高效性和可扩展性。
本研究通过系统化的数据整理和课程式迁移学习策略,成功开发了LAGOM模型,其在药物代谢物预测任务中表现出色,不仅显著提升了预测准确性,还克服了传统规则基方法覆盖率低和可解释性差的缺点。此外,研究还发现SMILES随机化和代谢特异性预训练是提升模型性能的关键因素,而简单的数据增强和属性注释策略效果有限。
尽管该研究在低数据域中取得了重要进展,但仍存在一些局限性,如可用数据集的规模有限、化学多样性不足,以及模型选择在内部验证与外部基准之间存在不一致性。未来研究可进一步扩展数据集规模,探索更先进的模型验证策略,并与工业界合作引入更多实验验证数据,以进一步提升模型的实用性和可靠性。
总之,LAGOM为药物代谢物预测提供了一种高效、可扩展的新方法,有望在早期药物发现阶段加速候选药物的优化和安全性评估。
生物通微信公众号
知名企业招聘