
-
生物通官微
陪你抓住生命科技
跳动的脉搏
面向多尺度图数据验证的开源基准数据集OGDOS构建与应用
【字体: 大 中 小 】 时间:2025年05月29日 来源:Scientific Data 5.8
编辑推荐:
为解决现有图数据集缺乏按尺度分类的标准化组织问题,中央南大学团队开发了OGDOS(Open Graph Dataset Organized by Scales)数据集。该研究通过整合470个预设尺度级别(节点数100-200,000,边节点比1-10)的真实与合成图数据,为图算法性能验证(如可扩展性、时空复杂度)提供系统性基准。研究采用尺度对齐优化技术,验证显示结构调整后KSD(Kolmogorov-Smirnov Distance)值低于0.16,显著优于随机采样方法。该成果发表于《Scientific Data》,填补了图技术评估领域的关键空白。
在社交网络分析、交通系统优化和生物分子相互作用研究中,图(Graph)作为描述实体间关系的基础模型,已成为不可或缺的工具。随着图算法(如社区检测、中心性分析)、可视化技术(如力导向布局)及计算系统(如NetworkX、Pregel)的快速发展,研究者们面临一个共性难题:现有公开图数据集多按应用领域(如Twitter社交图)或数据类型(如有向/无向图)分类,却鲜有按节点规模(Node Scales)和边密度(Edge-to-node Ratios)系统组织的基准资源。这种缺失导致算法验证时出现"尺度盲区"——开发者难以评估其方法在特定图规模下的性能拐点,例如当节点数突破10,000时布局算法是否会出现计算崩溃,或边节点比升至8时社区检测精度如何变化。
针对这一瓶颈,中央南大学计算机科学与工程学院联合奇安信科技集团的研究团队,在《Scientific Data》发表了题为"An Open Graph Dataset Organized by Scales"的突破性工作。他们构建的OGDOS数据集创新性地采用尺度优先(Scale-first)组织策略,覆盖47个节点尺度(100-200,000节点)和10个边密度级别(边节点比1-10),形成470个标准化测试单元。通过融合真实图数据(来自Network Repository等11个权威源)与合成网络(小世界网络Syn-S、无标度网络Syn-F),该数据集首次实现全尺度链路的连续覆盖,其中224个真实图经过度保持性调整(Real-T),246个合成图通过GCC(Global Clustering Coefficient)优化生成。
关键技术方法包含三阶段:预设尺度级别采用非线性间隔划分(小图100节点间隔,大图10,000节点间隔);真实图调优通过基于度排序的节点修剪(保留高影响力节点)和GCC保护的边移除;合成图生成结合Watts-Strogatz模型(p=0.025)和Barabasi-Albert模型,通过20次迭代优选最高GCC图谱。验证实验采用KSD(Kolmogorov-Smirnov Distance)、SDD(Skew Divergence Distance)和L2ND(L2-normalization Distance)三项指标,对比RE(Random Edge Sampling)等传统方法。
【Presetting Graph Scale Levels】
研究团队首创"双尺度坐标"体系:节点尺度按计算可行性分为四段(100-1K/1K-10K/10K-100K/100K-200K),边密度以1为步长覆盖典型网络类型(稀疏生物网络≈1,社交网络≤10)。这种设计源于实测发现——200,000节点是桌面级设备的计算临界点,而边节点比>10的实网仅占公开数据的2.3%。
【Selecting and Tuning Real-world Graphs】
通过95%-105%双阈值筛选机制,对偏离目标尺度的实网进行结构化修剪:优先移除低度节点(Degree<>
【Generating Synthetic Graphs】
针对空缺尺度,采用WS(Watts-Strogatz)模型生成Syn-S网络(满足k≥ln(n)时),BA(Barabasi-Albert)模型生成Syn-F网络。特别在50K节点/边比5级别,通过GCC优选使合成图的CC(Clustering Coefficient)分布SDD达0.005±0.002,逼近真实协作网络特征。
【Technical Validation】
在77个调优级别上的对比实验表明,OGDOS的KSD全面低于参照方法:DD(Degree Distribution)指标0.138±0.014 vs RE的0.480±0.036;PR指标0.137±0.019 vs TIES的0.420±0.026。这证实其能更好保持原始图的拓扑特性。
该研究的里程碑意义在于:首次建立图技术评估的"尺度标尺",使算法性能可被量化对标。例如可视化系统开发者可明确获知,当节点>50K且边节点比>7时,力导向布局的FPS(Frames Per Second)将降至交互阈值以下。数据集已通过figshare开源(DOI:10.6084/m9.figshare.27992339),其简单图(Simple Graph)存储格式虽限制属性相关研究,但为跨域基准测试提供统一沙箱。未来工作拟引入动态图(Dynamic Graph)和多层网络(Multilayer Network)尺度体系,进一步拓展其在脑科学(Brain Network)等复杂系统中的应用边界。
生物通微信公众号
知名企业招聘