CT-ADE 数据集:助力药物不良事件预测的创新资源

【字体: 时间:2025年03月12日 来源:Scientific Data 5.8

编辑推荐:

  研究人员开发 CT-ADE 数据集预测药物不良事件(ADEs),发现上下文信息很重要,为药物研发助力。

  在药物研发的漫长征程中,药物不良事件(Adverse Drug Events,ADEs)如同隐藏在暗处的 “杀手”,时刻威胁着患者的安全,也给医药企业带来巨大挑战。据统计,约 96% 的候选药物无法获得上市批准,其中 17% 的临床试验失败是由安全问题导致,而 ADEs 正是这些安全问题的 “元凶” 之一。在临床前被认为安全的候选药物,进入临床试验阶段却可能因毒性反应而折戟,这背后很大程度是因为动物模型与人体生理反应存在差异,使得临床前的安全数据难以准确预测人体的 ADEs。
面对这一困境,来自日内瓦大学医学院放射学和医学信息学系等机构的研究人员展开了深入研究,相关成果发表在《Scientific Data》上。他们开发了 CT-ADE 数据集,旨在为单药治疗中的多标签 ADE 预测提供有力支持,这一研究成果对药物研发中的安全风险评估意义重大。

为构建 CT-ADE 数据集,研究人员从多个权威数据库获取数据。ClinicalTrials.gov 提供临床试验的详细信息,DrugBank、PubChem 和 ChEMBL 则贡献了化合物和药物的化学结构等属性数据,MedDRA 作为国际认可的医学术语系统,用于对不良事件数据进行标准化分类。

在数据处理过程中,研究人员从 ClinicalTrials.gov 筛选出完成或终止、涉及单药干预且报告了不良事件的临床试验数据。针对原始干预名称,通过整合多个数据库信息,进行严格匹配和标准化处理;对于不良事件数据,依据 MedDRA 本体进行精确映射和标准化,确保数据的准确性和一致性。同时,利用威尔逊区间(Wilson interval)确定 ADE 标签的统计学意义和临床相关性,排除数据不完整的研究组,保证数据集质量。

研究人员通过一系列实验评估 CT-ADE 数据集的性能。在技术验证环节,他们使用判别式和生成式大语言模型(LLMs),设置三种特征配置进行实验:仅使用药物化合物的 SMILES 表示(S)、结合 SMILES 和治疗方案描述(SG)、以及加入目标人群信息(SMILES、治疗方案描述和入选标准,SGE)。

实验结果显示,在 CT-ADE-SOC28测试集中,S 配置下判别式模型 F1 分数为 31.96%,生成式模型为 24.16%,这为评估后续添加的信息贡献提供了基线。SG 配置中,判别式模型微平均 F1 分数提升至 46.09%,生成式模型达到 49.74%,表明整合治疗方案信息能显著提升预测性能。SGE 配置下,两种模型性能最佳,判别式模型 F1 分数为 53.46%,生成式模型为 53.43%,充分证明了添加上下文信息对 ADE 预测的重要性。

进一步对不同模型进行测试发现,Llama-3-8B 模型表现突出,F1 分数达到 55.90%,高于最佳判别式模型(SGE),但增加模型参数数量并不一定能带来成比例的性能提升,专门的领域模型在该数据集上也未显示出明显优势。

从模型在不同系统器官分类(SOC)和解剖学治疗学化学分类系统(ATC)主要药理学组的预测性能来看,在预测常见 ADEs 时表现较好,如对 “胃肠道疾病” 和 “神经系统疾病” 的 F1 分数分别达到 71.95% 和 71.28% ,但对罕见 SOC 和部分 ATC 组的 ADEs 预测效果欠佳,如对 “社会环境” 相关 ADEs 无法预测,对 “全身用抗感染药” 的 F1 分数仅为 32.38%,这表明模型在少数类别的预测性能上还有提升空间。

CT-ADE 数据集也存在一定局限性。它未纳入临床前信息,可能无法充分反映药物的潜在风险;数据来源于严格控制的临床试验环境,与真实世界存在差异,难以体现实际医疗中的复杂性;仅关注单药干预,无法涵盖临床常见的多药治疗场景;且局限于有 SMILES 表示的药物,无法涉及结构复杂、缺乏该编码的化合物。

尽管如此,CT-ADE 数据集依然是药物研发领域的重要突破。它首次综合考虑患者、药物和治疗方案数据,为 ADE 预测提供了全面、丰富的信息,有助于研究人员深入探究药物与 ADEs 之间的关系,推动药物研发中的安全风险评估向更精准、更高效的方向发展。未来,随着研究的深入和技术的进步,有望对数据集进行完善,进一步提升 ADE 预测的准确性,为保障患者用药安全、加速药物研发进程提供更强有力的支持。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号