
-
生物通官微
陪你抓住生命科技
跳动的脉搏
基于资源可用性与工作负载感知的混合框架RAW-HF优化原始数据查询处理
【字体: 大 中 小 】 时间:2025年06月27日 来源:Future Generation Computer Systems 6.2
编辑推荐:
针对传统DBMS数据加载耗时、原位引擎重复解析及资源分配失衡等问题,Mayank Patel团队提出轻量级混合框架RAW-HF。该框架通过资源监控模块(ORR/MUAR)动态优化查询分区与资源调度,在SDSS天文数据集测试中降低90%工作负载执行时间,CPU/IO资源消耗减少25%,为云服务器与本地系统提供高效资源利用方案。
随着大型强子对撞机(LHC)每日产生90PB数据、斯隆数字巡天(SDSS)数据集规模激增233倍,传统数据库管理系统(DBMS)面临严峻挑战:必须全量加载数据才能执行查询,导致高达88%的CPU资源闲置。而NoDB等原位(in-situ)引擎虽跳过加载环节,却因重复解析原始数据引发性能瓶颈。更棘手的是,云计算环境中资源过度分配或闲置直接推高运营成本。针对这一困境,研究人员开发了资源可用性与工作负载感知混合框架RAW-HF,其成果发表于《Future Generation Computer Systems》。
研究团队采用多模块协同技术路线:1) 实时资源监控模块追踪CPU/IO利用率;2) ORR优化模块根据查询复杂度(Query Complexity Aware, QCA)动态分区;3) MUAR最大化模块实施轻量级任务调度。实验选取SDSS宽表数据集与LOD窄表数据集验证普适性,通过三重复现降低随机误差。
资源监控与动态分区
通过对比PostgreSQL与NoDB基线,发现RAW-HF的ORR模块可将复杂查询解析耗时降低至传统DBMS的1/10。关键创新在于引入存储预算约束机制,仅缓存高频访问数据列。
混合执行效能
在SDSS的168GB光谱数据测试中,框架独创的"加载-查询"并行流水线使首个结果返回时间缩短92%,较Partial Loading技术减少25%的IO操作。MUAR模块通过空闲时隙调度,将CPU利用率峰值提升至78%。
跨平台适配性
针对PCC14等分布式系统的兼容测试显示,RAW-HF单节点架构虽不支持跨节点合并,但在延迟不敏感场景下,其资源争用避免算法仍使吞吐量提升3倍。
该研究突破性地将轻量级资源感知与工作负载分析结合,首次实现天文级宽窄异构数据集的高效处理。局限在于未覆盖分布式查询优化,未来可结合HTAP20架构扩展多节点支持。作者Mayank Patel和Minal Bhise强调,框架无需机器学习训练即可动态优化资源配置,为NASA EOS3等海量数据场景提供即插即用解决方案。
生物通微信公众号
知名企业招聘