可扩展数据孪生:提升大规模数据集划分效率与准确性的新方法

《Pattern Recognition Letters》:Scalable Data Twinning

【字体: 时间:2025年10月28日 来源:Pattern Recognition Letters 3.3

编辑推荐:

  本文提出了一种创新的可扩展数据孪生(s-Twinning)方法,针对现有最优数据划分方法Twinning在处理大规模数据集时存在的速度瓶颈进行优化。该方法通过并行计算在缩减的搜索空间中求解能量距离(ED)最小化问题,在保持分布相似性精度的同时显著提升运算效率,为机器学习模型训练、交叉验证等需要代表性数据子集的生命科学计算任务提供了高效解决方案。

  
章节精选
相关工作
本节简要回顾了两种最先进的数据划分方法——SPlit和Twinning。令数据集D = {(xi, yi)}i=1N,其中xi ∈ Rd为第i个预测变量观测值,yi ∈ R为响应变量观测值。若将响应变量视为预测变量之一,可简记为zi = [xi, yi]T ∈ Rd+1。设D1和D2为划分后的互斥子集...
提出方法
本节提出解决Twinning速度限制的新方法s-Twinning。其技术核心是通过求解以下问题获得最优验证集D2
(展示数学表达式)
其中T = T1 ∪ T2 ∪ ... TK,每个Tk (k=1,2,...,K)是数据集D的K个互斥子集Sk的最优验证集。换言之,每个Tk是以下问题的解:
(展示数学表达式)
实例验证
本节通过四个实例验证提出的s-Twinning算法性能。首例采用纽约出租车数据集(N=1,458,643条记录),包含14个连续变量(如距离、交通灯数量等)。该数据集存在大量重复值,完美展示了变量值稀疏场景下的算法表现...
结论
Twinning作为当前最先进的数据子集生成方法,能精准复现原始数据分布,在模型训练与验证等场景中至关重要。然而其执行时间限制阻碍了在大规模数据集中的应用潜力。本文提出的s-Twinning方法成功实现大规模数据扩展,在保持能量距离最小化优势的同时,通过创新算法设计显著提升计算效率,为海量数据分析和机器学习应用开辟了新途径。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号