
-
生物通官微
陪你抓住生命科技
跳动的脉搏
基于大语言模型的文献驱动蛋白质结合口袋优先排序方法研究
【字体: 大 中 小 】 时间:2025年08月08日 来源:Bioinformatics 5.4
编辑推荐:
本研究针对小分子药物发现中蛋白质结合口袋识别与优先排序的瓶颈问题,开发了一种融合几何检测与大语言模型(LLM)的混合方法。通过Fpocket生成候选口袋,结合GPT-4o-mini从文献中提取实验验证的残基信息,构建了首个公开的蛋白质结合口袋基准数据集。该方法显著提升了生物相关口袋的筛选效率,为高通量药物发现提供了自动化解决方案。
在药物研发领域,准确识别蛋白质表面的结合口袋如同寻找锁的钥匙孔——这些三维结构中的凹陷区域是药物分子发挥作用的关键靶点。然而现有计算方法如Fpocket、DeepSite等虽能预测大量潜在口袋,却面临"假阳性"泛滥的困境:算法找到的几何凹陷中,仅少数具有真正的生物学功能。更棘手的是,确定这些功能口袋的精确边界需要人工查阅海量文献,从零散的实验数据中拼凑关键残基信息,这一过程既耗时又容易出错,成为制约药物发现效率的"阿喀琉斯之踵"。
来自Receptor.AI Inc.(英国伦敦)的研究团队在《Bioinformatics》发表创新研究,将大语言模型(LLM)引入这一领域。他们开发的三步式LLM管道(文献筛选-口袋提取-结果优化)能自动分析科研论文,提取实验验证的残基数据。通过与几何算法Fpocket的预测结果交叉验证,成功构建出兼顾计算效率与生物准确性的口袋优先排序系统。研究还创建了首个公开的基准数据集,涵盖GABAA受体、KRas GTP酶等10类重要靶点,为后续研究树立了新标准。
关键技术包括:1)采用GROBID工具实现PDF文本结构化提取;2)设计多阶段LLM提示工程(含严格格式控制指令);3)开发残基映射算法处理PDB结构与文献描述的序列差异;4)基于MeanShift聚类识别多亚基界面口袋;5)将Fpocket的α球表征转化为网格化体积模型,并通过凸包过滤优化空间定义。
LLM管道性能
优化后的GPT-4o-mini模型在31篇文献测试中达到召回率1.0,精确度0.833。特别设计的提炼步骤成功校正了17%的初始提取错误,如错误拆分口袋或遗漏关键残基。研究证实LLM能有效识别单口袋文献(17篇)和复杂多口袋描述(3篇),但对蛋白-蛋白相互作用位点仍存在3.6%的误判率。
体积表征构建
在GABAA受体(PDB:6X3T)案例中,算法成功识别出位于A:B和C:D界面的两个等效结合口袋(图7)。针对Fpocket常见的口袋碎片化问题(如MLKL伪激酶的ATP结合位点被错误分割),研究采用Jaccard指数阈值(0.7)实现子口袋智能合并(图8)。但该方法对空间邻近的独立位点(如M2受体的正构位点与胞外前庭)区分能力有限(图9)。
跨文献信息整合
空间聚类算法成功处理了Nav1.7电压感受域(PDB:5EK0)的四重对称口袋,证明其能自动识别同源多聚体中的等效位点(图10)。通过残基重叠分析,系统还可融合不同文献对同一口袋的不完整描述,如将分别报道ATP结合域N端和C端残基的论文数据自动归并。
这项研究开创性地证明LLM可替代人工完成80%以上的口袋验证工作。其价值不仅在于将单靶点分析时间从小时级缩短至分钟级,更建立了文献证据与计算预测的标准化对接流程。虽然当前系统对多亚基复合物的残基归属仍存在挑战,但提供的开源基准数据集(DOI:10.5281/zenodo.15798647)为后续优化奠定了基础。该技术特别适用于先导化合物优化阶段的结合位点精确定义,有望成为AI驱动药物发现 pipeline 中的关键模块。
(注:文中所有专业术语如GABAA受体、Nav1.7等均按原文大小写格式保留,实验技术名称如MeanShift聚类、Jaccard指数等首次出现时均附加英文原名)
生物通微信公众号
知名企业招聘