编辑推荐:
在预测蛋白质 - 分子相互作用(Protein - Molecular Interactions)时,机器学习(ML)模型受网络拓扑结构影响产生预测偏差。研究人员开展 “负采样策略对无标度生物分子网络互作预测影响” 的研究,提出 DDB 采样策略。该策略能减少偏差,为评估 ML 模型性能提供新视角123。
在生命科学领域,理解蛋白质 - 分子相互作用是解开众多生物过程机制的关键钥匙。随着科技发展,机器学习(ML)技术被广泛应用于预测蛋白质 - 分子相互作用,吸引了大量科研关注。然而,看似光鲜的研究成果背后却隐藏着重重问题。以往研究大多聚焦于通过新颖高效的 ML 方法提升模型性能,可实际应用时,这些模型在指导湿实验方面的准确性却差强人意,让人不禁怀疑,基于 ML 的计算方法性能是否被过度高估了?
深入探究发现,早期研究已揭示部分端倪。比如,不同的负采样策略会使模型性能产生显著差异,像基于序列的方法在预测蛋白质 - 蛋白质相互作用时就缺乏足够可靠性;还有研究指出,成对输入方法受输入的成对性质影响极大 。但即便如此,近年来新的预测蛋白质 - 分子相互作用方法在开发过程中,仍不断报告过于乐观的模型估计结果。
为了拨开这些迷雾,山东大学的研究人员挺身而出,开展了一项极具意义的研究。他们深入剖析了 ML 模型在学习和预测蛋白质 - 分子相互作用过程中存在的偏差问题,重点关注了生物网络的无标度特性(即少数节点连接众多,多数节点连接极少)给模型带来的影响。研究人员提出了度分布平衡(Degree Distribution Balanced,DDB)采样策略,这一策略简单却强大,为解决现有问题带来了新希望。该研究成果发表在《BMC Biology》上,为该领域的发展注入了新的活力。
在研究过程中,研究人员运用了多种关键技术方法。首先,精心挑选了涵盖 lncRNA - 蛋白质、蛋白质 - 蛋白质和药物 - 靶点相互作用的多个数据集,这些数据集来源广泛且经过严格筛选处理 。其次,采用了随机采样和 DDB 采样两种负采样策略,以对比分析不同策略下模型的表现。此外,选用了 Noise - RF、Seq - RF 和 Seq - Deep 三种 ML 模型进行实验评估,从不同角度探究模型在处理蛋白质 - 分子相互作用预测任务时的性能差异。
研究结果主要围绕以下几个方面展开:
- 随机负采样诱导预测偏差:研究人员通过对多种生物网络(如 lncRNA - 蛋白质、蛋白质 - 蛋白质和药物 - 靶点相互作用网络)进行基准测试,采用随机采样策略生成负样本。在转导预测评估中发现,所有测试的分类器(包括 Noise - RF 等)在基准数据集上都呈现出良好性能,但进一步分析发现,正样本对的度数普遍高于负样本对,且预测分数与样本对度数之间存在很强的相关性 。这表明模型倾向于根据节点度数来预测相互作用概率,而非真正学习到分子的内在特征。在归纳预测评估中,采用 Park 和 Marcotte 提出的评估框架,将分子对分为 C1、C2 和 C3 三类进行测试。结果显示,ML 模型在这三类测试集上的归纳能力大幅下降,尤其是 Noise - RF 模型在 C3 集上的 AUC 值近似随机猜测,这充分说明模型的训练主要受网络隐含的度分布影响,而非分子表示 。
- 受限负采样能否减轻偏差:为了解决上述问题,研究人员尝试采用 DDB 采样策略。在转导预测评估中,DDB 采样使负样本的度分布与正样本对齐,显著降低了预测分数与样本度数之间的相关性,但同时也导致三个基线 ML 模型的性能出现明显下降 。在归纳预测评估中,对于不利用任何内在分子特征(如序列信息)的 Noise - RF 方法,其在 C1 和 C2 数据集上的性能大幅下降,接近 C3 数据集的预测水平。而 Seq - RF 和 Seq - Deep 等基于序列的模型与 Noise - RF 模型的性能差距进一步扩大,这表明 DDB 约束能够揭示模型从内在分子特征中学习相互作用关系的真正能力,但也会使基于序列的模型性能有所下降,这是由于生物网络的无标度特性,模型在一定程度上依赖网络拓扑信息来提升性能 。
- DDB 方法与网络拓扑和功能属性的相互作用:在预测蛋白质 - 分子相互作用时,除了分子的内在特征,还有许多其他信息会影响负样本选择和模型训练,这些信息包括网络拓扑结构和分子功能特征等 。研究发现,样本度数与节点间最短路径距离存在很强的相关性,而与亚细胞定位和基因本体(Gene Ontology,GO)相似性没有明显关联。DDB 方法通过影响训练数据中的拓扑信息,破坏了随机负采样时模型预测与度分布之间的强相关性,这在样本节点间的最短路径距离上也有所体现 。
研究结论和讨论部分进一步强调了此次研究的重要意义。研究揭示了 ML 模型在预测蛋白质 - 分子相互作用时,受网络拓扑结构影响产生偏差这一关键问题,尤其是随机负采样会导致模型过度依赖网络结构而非内在分子特征进行预测,进而高估模型的泛化能力 。DDB 采样方法虽然不能完全解决问题,但在减少偏差方面效果显著,它能够帮助模型聚焦于分子的内在特征,揭示模型学习蛋白质 - 分子相互作用模式的真实能力 。不过,应用 DDB 方法时会牺牲部分模型的整体预测性能,这就需要根据具体应用目标来权衡是否使用该方法 。此次研究为未来相关领域的发展指明了方向,如整合更高质量和更全面的数据集、纳入更多分子特征以及考虑相互作用的时间动态等,有望进一步提升 ML 模型的预测性能,拓展 DDB 采样策略的应用范围 。