基于特征聚合与卷积Transformer模型的药物ATC分类代码预测新方法FACT

【字体: 时间:2025年07月16日 来源:Bioinformatics 4.4

编辑推荐:

  本研究针对药物ATC代码预测中存在的层次结构复杂性和高阶分类准确性不足等问题,开发了FACT模型。该模型整合化学结构(CS)、药物相互作用(DDI)和副作用(SE)三种特征,创新性地引入加权层次相似性(WHS)和掩码策略,通过卷积-Transformer编码器实现特征提取,在第四级ATC代码预测中AUROC达到0.9805,较现有方法提升15.05%,为药物重定位研究提供了高效工具。

  

在药物研发这个"十年磨一剑"的高风险领域,寻找老药新用的药物重定位(drug repositioning)策略正成为突破研发瓶颈的关键。然而要实现精准的药物重定位,首先需要准确预测药物的解剖治疗化学(Anatomical Therapeutic Chemical, ATC)分类代码——这个由世界卫生组织建立的五级编码系统,虽然能系统反映药物的化学特性、药理作用和治疗效果,但其复杂的层次结构让现有预测方法在高级别分类中表现不佳,第四级预测准确率往往骤降15%以上。

面对这一挑战,延世大学未来校区软件学院(Yonsei University-Mirae Campus)的Gwang-Hyeon Yun等研究者开发了名为FACT(Feature Aggregation and Convolution with Transformers)的创新模型。这项发表在《Bioinformatics》的研究通过整合多源药物特征和新型算法架构,在第四级ATC代码预测中实现了0.9805的AUROC,较现有最佳方法提升15.05%,为加速药物研发提供了强有力的计算工具。

研究团队主要采用四项关键技术:(1)基于ECFP(Extended Connectivity Fingerprint)指纹的化学结构相似性计算;(2)整合药物-药物相互作用(DDI)和副作用(SE)的Jaccard相似性分析;(3)创新设计的加权层次相似性(WHS)算法,针对ATC代码不同层级分配差异权重;(4)结合1D卷积与Transformer编码器(TR block)的特征提取架构,通过多头注意力机制捕捉药物-ATC关联特征。实验数据来自DrugBank和SIDER数据库,包含2841种药物的化学结构、238种DDI和5880条SE记录。

【特征设计与处理】

研究创新性地计算了三种药物相似性:基于Tanimoto系数的化学结构(CS)相似性、反映共同作用模式的DDI相似性,以及通过共同副作用推断的SE相似性。其中DDI相似性表现出最强的预测能力,单独使用时AUROC达0.9758。特别值得注意的是提出的加权层次相似性(WHS),其权重分配遵循"低层级大增量"原则,通过公式WHSk(ai,aj)=(2WkNk(ai,aj)+k2)/(2Wkk+k2)量化ATC代码相似度,相比传统方法提升1.81%-5.27%的预测精度。

【模型架构创新】

FACT的核心是如图1所示的四阶段框架:预处理阶段生成三种药物相似性矩阵;特征聚合阶段组合药物相似性、WHS矩阵和掩码处理后的药物-ATC关联;特征提取阶段采用1D卷积层捕获局部模式后,通过包含多头自注意力机制的TR块生成最终嵌入;预测阶段将三个特征嵌入拼接后经全连接层输出概率。其中TR块采用16个注意力头、128维隐藏层的配置,在3个块层数时达到最佳性能。

【性能验证】

在10折交叉验证中,FACT在各级ATC代码预测中全面超越现有方法:第一级AUROC 0.9803(±0.0065),第四级仍保持0.9805(±0.0064)的高水平。特别在传统方法表现最弱的第四级,较次优模型RNPredATC的0.8011提升22.4%。组合三种特征时性能达到峰值,证明多源信息整合的有效性。稳健性测试显示,即使在训练数据中混入20%错误标签,模型AUROC波动仍<1.3%。

【应用价值与局限】

该研究通过创新性地融合深度学习与药物特征工程,解决了ATC代码预测中的层级敏感性难题。WHS算法和掩码策略的引入,使模型能更精准地捕捉ATC系统的层次特性,避免数据泄漏。实验证实DDI特征对预测贡献最大,为后续研究指明了重点方向。但研究也存在一定局限:负采样可能包含未识别的正样本;对新药预测依赖已有关联数据;未包含药物三维结构信息。未来可通过整合外部数据库和立体化学特征进一步提升模型性能。

这项工作的意义不仅在于创造了ATC代码预测的新标杆,更展示了Transformer架构在药物计算领域的强大潜力。随着FACT模型的代码开源,其创新性的特征聚合思路和层级感知设计,将为药物重定位、适应症发现等研究提供重要方法论支持,有望加速"老药新用"的探索进程。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号