利用大语言模型负数据标注改进药物重定位:为精准医疗开辟新路径

【字体: 时间:2025年02月10日 来源:Journal of Cheminformatics 7.1

编辑推荐:

  在药物重定位中,监督式机器学习受限于可靠负数据缺失,影响预测准确性。研究人员开展 “利用大语言模型(LLMs)进行负数据标注改进药物重定位” 的研究。结果显示该方法提升了预测准确性,有望推动监督式药物重定位发展。

  在药物研发的漫长征程中,药物重定位(Drug Repositioning)逐渐崭露头角,成为医药领域的一颗新星。它致力于为已有的药物寻找新的治疗用途,就像是给旧钥匙找到新锁孔,这种策略有着诸多令人心动的优势。一方面,能大大缩短药物研发周期,让新疗法更快地走向临床,拯救更多患者生命;另一方面,可降低研发成本,减少不必要的资源浪费,同时还能降低研发失败的风险,提高研发效率。
然而,这条充满希望的道路上却横亘着一块绊脚石。在药物重定位过程中,监督式机器学习(Supervised Machine Learning)算法虽强大,但需要大量准确的标注数据来训练,其中负数据(即因无效或毒性而失败的药物数据)的获取十分困难。这就好比厨师做菜时缺少关键食材,导致算法的预测准确性大打折扣,难以精准识别新的药物 - 疾病关联。

为了解决这一难题,来自加拿大魁北克大学研究中心分子医学系(Molecular Medicine Department, CHU de Québec Research Center, Université Laval)等机构的研究人员踏上了探索之旅。他们开展了一项关于利用大语言模型(Large Language Models,LLMs)进行负数据标注以改进药物重定位的研究。最终发现,借助大语言模型 GPT - 4 分析临床数据,能有效识别真正的负数据,显著提升机器学习模型的预测准确性。这一成果发表在《Journal of Cheminformatics》上,为药物重定位领域带来了新的曙光。

研究人员在研究中运用了多种关键技术方法。首先,从 AACT 数据库获取前列腺癌相关临床试验数据,筛选出药物治疗相关信息。然后,使用 GPT - 4 对这些数据进行分析,判断药物疗效,标记出正、负数据。接着,针对每个药物提取知识 - 基于(Knowledge - based)和网络 - 基于(Network - based)两种特征。最后,对比基于 GPT - 4 标注、无采样和下采样三种负数据标注策略,运用多种机器学习算法进行训练和评估。

下面来看具体的研究结果:

  • GPT - 4 标注与验证:研究人员先手动整理 22 个临床试验作为验证集,让 GPT - 4 对其分类。结果显示,GPT - 4 成功识别出所有试验类型,准确排除不相关试验,正确判断出正、负试验,展现出强大的理解和分类能力。随后,GPT - 4 分析 1442 个前列腺癌试验,确定 54 个负性药物和 303 个中性药物,与传统的正样本未标注(Positive - Unlabeled,PU)学习方法相比,展现出独特优势123
  • 机器学习准确性比较:研究人员对比三种标注策略在不同机器学习算法下的表现。训练阶段,三种策略表现相近;但在测试集上,基于 GPT - 4 标注的策略表现最佳,马修斯相关系数(Matthews Correlation Coefficient,MCC)达到 0.76(± 0.33),远高于其他两种策略,证明了使用真实负数据训练能显著提升模型预测能力45
  • 新药最终预测:验证与解释:研究人员用逻辑回归(Logistic Regression)、随机森林(Random Forest)、支持向量机(SVM)和 k 近邻(kNN)四种算法,对 GPT - 4 标注的数据进行训练,预测 11043 个未标注药物。结果筛选出 980 个潜在阳性药物,其中 59 个可能性较高。深入分析前 30 个预测药物,发现 12 个已被研究或与前列腺癌相关,9 个是有潜力的重定位候选药物,不过也有 4 个预测错误,原因是模型未考虑药物 - 靶点相互作用的性质67

研究结论表明,大语言模型(如 GPT - 4)在分析临床数据、识别真正负数据方面表现出色,基于这些数据训练的机器学习模型比传统 PU 学习方法更准确、更具泛化性。通过该方法,研究人员成功发现已知的前列腺癌治疗药物,还识别出具有潜力的新药物。这一研究成果为药物重定位提供了更可靠的方法,有望推动整个领域的发展,助力研发出更多有效的治疗方案,造福广大患者。但研究也存在一定局限性,如获取真实负数据耗时耗力,GPT - 4 在处理部分临床试验数据时面临挑战,需要大量人工干预。未来,随着大语言模型技术的不断进步,有望克服这些问题,为药物研发带来更多突破。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号