编辑推荐:
在网络分析中,中心性度量(如度、介数、接近度等)易受观测误差和数据不完整影响。为探究采样偏差对其的系统影响,研究人员模拟六种有偏下采样,分析合成与生物网络。发现局部中心性更稳健,PINs 最抗干扰,为网络分析方法优化提供依据。
在复杂网络的研究中,节点重要性的准确评估至关重要,这在社交网络识别信息传播者、生物系统预测关键基因等领域均有重要应用。然而,现实中的网络常存在数据不完整和观测误差等问题,例如蛋白质相互作用网络(PINs)因实验限制和研究偏好,存在相互作用表征不全面的情况,这使得准确计算节点中心性面临挑战。采样偏差作为观测误差的一种,会导致网络结构失真,进而影响中心性度量的准确性,但此前针对生物网络的相关研究较少。
为填补这一研究空白,德国 Constructor University 的研究人员开展了采样偏差对网络节点中心性影响的研究,相关成果发表在《npj Systems Biology and Applications》。该研究旨在明确不同采样偏差下中心性度量的稳健性,为网络分析方法的改进提供科学依据。
研究人员采用的主要关键技术方法包括:构建合成网络(如 Erd?s-Rényi、无标度、Watts-Strogatz 网络)和获取生物网络(如来自 BioGRID、STRING 的 PINs,酵母的基因调控网络、代谢网络、反应网络);设计六种随机边去除方法模拟观测误差,分别为随机边去除(RER)、高连接边去除(HCER)、低连接边去除(LCER)、组合边去除(CER)、基于随机节点的边去除(RNBER)、随机游走边去除(RWER);通过计算 Spearman 相关系数评估中心性度量的稳健性,分析不同网络类型和边去除场景下的中心性变化。
研究结果
网络特征与实验设计
研究使用的合成网络具有不同结构和密度,如 Erd?s-Rényi 网络为随机连接,无标度网络呈幂律度分布,Watts-Strogatz 网络兼具随机与规则网络特征。生物网络涵盖多种类型,其中 PINs 包含大量节点和边。为便于比较,有向网络处理为无向网络。
中心性度量的稳健性
在合成网络中,无标度网络通常表现出最高的稳健性,其次是 Erd?s-Rényi 和 Watts-Strogatz 网络。不同边去除方法对稳健性影响各异,LCER 方法下中心性度量更稳定,而 RNBER 和 RWER 方法的破坏性最大。在生物网络中,PINs(如 BioGRID、STRING)的稳健性最高,基因调控网络、反应网络、代谢网络依次降低。局部中心性(如度中心性)比全局中心性(如介数、特征向量中心性)更稳健,全局中心性在生物网络受采样偏差影响更显著。
代谢网络稳定性分析
以酵母代谢网络为例,不同边去除方法下各中心性度量的稳定性不同。度中心性和 PageRank 中心性较稳定,特征向量中心性稳定性差异较大。稳定节点多为关键代谢物,如 L - 谷氨酸、铵、辅酶 A,参与基础代谢过程,表明特定代谢物在网络中的核心地位。
研究结论与讨论
该研究揭示了采样偏差对中心性度量的显著影响,发现网络结构(如无标度网络、PINs)和边去除方式(如 LCER 更稳健)是影响稳健性的重要因素,局部中心性在不完整网络中更可靠。这为研究人员在处理不完整或有偏网络数据时选择合适的中心性度量提供了指导,尤其在生物网络分析中,建议更多依赖局部和中间中心性,或开发混合方法平衡不同中心性的信息。
研究成果不仅加深了对网络分析中采样偏差影响的理解,也为优化网络分析方法、提高预测可靠性奠定了基础,对生物学、网络科学和数据科学等领域具有重要的实际应用价值。未来研究可进一步拓展至其他类型网络,设计更贴近现实的边去除策略,并考虑网络方向性对中心性的影响,以更全面地揭示采样偏差的作用机制。