异质性网络药物重定位方法的基准测试:多数据集评估揭示OMC最优性能与验证策略的关键影响

《npj Systems Biology and Applications》:Benchmarking heterogeneous network-based methods for drug repurposing

【字体: 时间:2025年12月11日 来源:npj Systems Biology and Applications 3.5

编辑推荐:

  本刊推荐:为解决异质性网络药物重定位(DR)方法评估中存在的验证策略不一致、指标单一(如忽视AUPR)及结果可复现性差等问题,Nguyen等研究人员系统性地对10种先进方法(包括矩阵分解(NMF)、矩阵完成(MC)及深度学习(DRDM)等)在8个数据集上进行了基准测试。研究发现,重叠矩阵完成(OMC)方法在曲线下面积(AUC)和精确召回曲线下面积(AUPR)上表现最为稳健,同时揭示了先前研究因忽略大量阴性样本而导致性能高估。此项工作为未来DR研究提供了可靠的评估框架和新数据集,具有重要指导意义。

  
在药物研发领域,寻找现有药物的新适应症,即药物重定位(Drug Repurposing, DR),因其成本低、周期短、风险小而备受青睐。传统的“从零开始”的新药研发模式如同大海捞针,耗时长达十数年,投入资金数以亿计,而成功率却很低。相比之下,DR策略则像是为已有的钥匙寻找新的锁孔,大大提高了研发效率。近年来,随着生物医学数据的爆炸式增长,计算方法,特别是基于异质性网络(Heterogeneous Network)的计算方法,在DR中展现出巨大潜力。这类方法的核心思想是整合多种信息源——例如药物之间的相似性(如化学结构)、疾病之间的相似性(如临床症状或分子特征)以及已知的药物-疾病关联——构建一个复杂的网络,进而预测未知的、有潜力的新关联。
然而,这片充满希望的领域也面临着“成长的烦恼”。尽管新的算法模型层出不穷,但究竟哪种方法更可靠、更通用?这个问题却很难回答。现有的评估研究往往存在一些局限性。比如,很多研究只使用曲线下面积(Area Under the Curve, AUC)这一指标来评价模型性能,但在药物-疾病关联数据中,已知的阳性关联(即已被证实有效的药物-疾病对)通常只占不到10%,数据极度不平衡。在这种情况下,更能反映模型对阳性样本识别能力的精确召回曲线下面积(Area Under the Precision-Recall Curve, AUPR)指标往往被忽视。更令人困惑的是,一些研究报告的AUPR值高得惊人(甚至超过0.9),这与实际应用的挑战性似乎不符。究其原因,可能在于其评估策略:这些研究在交叉验证(Cross-Validation, CV)时,并未使用全部数据,而是仅从海量的阴性样本(未知关联)中随机抽取一小部分与阳性样本构成平衡的测试集,这使得模型从未接受过识别大量潜在阴性样本的考验,其报告的“高性能”在现实场景中可能要大打折扣。此外,评估流程描述不清、代码未公开等问题也使得不同研究之间的结论难以比较和复现。这些问题的存在,呼唤着一个更严谨、更全面、更透明的基准测试(Benchmarking)框架的出现。
正是在这样的背景下,发表在《npj Systems Biology and Applications》上的这项研究应运而生。由Thi Trang Nguyen、Yudi Pawitan、Stefano Calza和Trung Nghia Vu组成的研究团队,立志为基于异质性网络的DR方法进行一次“大比武”。他们的目标非常明确:系统性地评估当前主流方法的真实性能,澄清因评估策略不同造成的争议,并为领域提供一个可靠的评估标准和新的数据资源。
为了开展这项大规模评估,研究人员整合了多种关键技术方法。他们从公开资源收集了六个常用的DR基准数据集,并利用目前最大的经过人工校正的药物-疾病数据库MechDB,构建了两个新的数据集(oMat-MechDB和HSDN-MechDB),其中一个特别关注罕见疾病,并创新性地利用疾病临床症状来计算疾病相似性。研究共选取了十种有代表性的DR算法,涵盖矩阵分解(Matrix Factorization, MF)类方法,如标准非负矩阵分解(Non-negative Matrix Factorization, NMF)、本研究提出的带置换检验的NMF(NMF-PDR)、NMF-DR和VDA-GKSBMF;矩阵完成(Matrix Completion, MC)类方法,如边界核范数正则化(Bound Nuclear Norm Regularization, BNNR)、重叠矩阵完成(Overlap Matrix Completion, OMC)和异质性图推理与矩阵完成(Heterogeneous Graph Inference with Matrix Completion, HGIMC);来自推荐系统(Recommendation System, RS)的方法,如基于项目的协同过滤(Item-Based Collaborative Filtering, IBCF)和LIBMF;以及一个深度学习框架——带去偏机制的药物重定位模型(Drug Repurposing with Debiasing Mechanism, DRDM)。评估采用了严格的分层10折交叉验证,重复25次以确保结果稳定性,并同时使用AUC和AUPR作为核心评价指标,重点关注模型对每种疾病排名靠前的预测药物的识别能力。
整体性能分析
研究结果显示,没有一种方法能够在所有数据集上“一枝独秀”,但有几类方法 consistently 表现出色。如图4(文章中的热图)所示,OMC、BNNR和深度学习方法DRDM在大多数数据集的AUC和AUPR指标上都名列前茅,紧随其后的是HGIMC、VDA-GKSBMF和本研究新提出的NMF-PDR。所有方法的评估结果在25次运行中都非常稳定,标准差(Standard Deviation, SD)均小于0.01。具体到每个方法的平均表现(图5),OMC取得了最高的平均AUPR(0.211),略高于BNNR(0.205)和DRDM(0.192)。在AUC方面,DRDM(0.874)略高于OMC(0.869)和NMF-PDR(0.860)。值得注意的是,MC类方法(OMC, BNNR)和DRDM的AUPR显著高于MF类方法。在新提出的NMF-PDR与其它NMF变体的比较中,NMF-PDR的表现优于标准NMF和NMF-DR,显示出其引入的置换策略的有效性。而推荐系统方法LIBMF的表现最差。
数据集特异性表现
不同数据集本身的特性对方法性能有显著影响(图6)。例如,Ydata和Cdata数据集获得了最高的平均AUC(约0.88),而LAGCN数据集的AUC最低(0.755)。但有趣的是,LAGCN和HDVD数据集虽然AUC较低,却拥有最高的AUPR值(分别为0.303和0.218)。这表明,数据集的不平衡程度(稀疏性)是影响评估结果的关键因素。
数据稀疏性的影响
为了深入探究这一点,研究人员分析了数据稀疏性(即未知关联的比例)与预测性能的关系(图7)。结果清晰地表明,AUC值倾向于在稀疏性更高的数据集(即阴性样本更多)上更高,因为这增加了样本总量,提高了真阴性识别的准确性。然而,AUPR则更真实地反映了模型识别阳性关联的能力,它在稀疏性较低(即阳性比例相对较高)的数据集(如LAGCN)上表现更好。OMC和BNNR在面对不同稀疏度的数据集时表现出最强的鲁棒性。这一发现强调了在评估DR方法时,必须结合AUC和AUPR,并考虑数据集的稀疏性。
评估策略的影响
本研究与近期一项基准研究(Li et al. 2024)的结果存在显著差异,后者报告的各项方法的AUPR值均高于0.93。研究人员指出,这种差异主要源于交叉验证策略的不同。Li等人的方法在构建测试集时,仅从海量的阴性样本中抽取与阳性测试样本数量相等的阴性样本,导致绝大部分阴性样本从未参与评估,从而极大地抬高了AUPR值。本研究采用了更为严格的、基于全部数据点的疾病中心式交叉验证,其结果(如表3所示,本研究OMC在Fdata上的AUPR为0.2149,远低于Li等人报告的0.9567)被认为更能反映模型在真实场景下的性能,避免了过度乐观的估计。
多相似性度量的影响
部分方法(如HGIMC和DRDM)支持整合多种药物或疾病相似性度量。本研究对比了使用单一相似性(仅化学结构相似性ChemS和表型相似性PhS)与使用多重相似性(对多种相似性取平均)的效果。结果显示(图8, 图9),两种模式下的性能差异非常微小,这主要是由于不同相似性度量之间存在高度冗余,特别是疾病相似性矩阵相关性极高(0.93)。这表明,在当前的平均整合策略下,增加相似性类型带来的信息增益有限,更复杂的整合策略(如加权)或许值得探索。
计算时间比较
计算效率是方法应用的重要考量。如图10所示,方法的计算时间与数据集大小成正比。其中,NMF-PDR(因其置换过程需多次运行NMF)和DRDM(因其复杂的图神经网络和对比学习模块)的计算开销最大,在最大的Ydata数据集上分别需要约5.5小时和超过10小时。而推荐系统方法IBCF和LIBMF则最为快速。这体现了模型性能与计算效率之间的权衡。
综上所述,这项研究通过大规模、严谨的基准测试,明确了在当前基于异质性网络的药物重定位方法中,矩阵完成类方法(特别是OMC和BNNR)以及深度学习框架DRDM表现出色且稳健。研究有力地揭示了评估策略对性能结果的巨大影响,呼吁领域采用更严格、更统一的评估标准,并强调了AUPR在高度不平衡数据中的重要性。此外,研究团队引入的两个基于临床症状的新数据集和为NMF算法提出的增强版NMF-PDR,也为领域贡献了宝贵的资源和思路。这项工作不仅为研究人员选择和应用DR方法提供了权威参考,其建立的基准测试框架也将推动整个领域向着更可复现、更可靠的方向发展。尽管没有“万能”的方法,但这项研究无疑为在药物重定位这片广阔海洋中航行的研究者们,提供了一幅更为精确的航海图。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号