可扩展数据孪生：提升大规模数据集划分效率与准确性的新方法

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Pattern Recognition Letters》：Scalable Data Twinning

【字体：大中小】 时间：2025年10月28日 来源：Pattern Recognition Letters 3.3

编辑推荐：

　　本文提出了一种创新的可扩展数据孪生（s-Twinning）方法，针对现有最优数据划分方法Twinning在处理大规模数据集时存在的速度瓶颈进行优化。该方法通过并行计算在缩减的搜索空间中求解能量距离（ED）最小化问题，在保持分布相似性精度的同时显著提升运算效率，为机器学习模型训练、交叉验证等需要代表性数据子集的生命科学计算任务提供了高效解决方案。

章节精选

相关工作

本节简要回顾了两种最先进的数据划分方法——SPlit和Twinning。令数据集D = {(x_i, y_i)}_i=1^N，其中x_i ∈ R^d为第i个预测变量观测值，y_i ∈ R为响应变量观测值。若将响应变量视为预测变量之一，可简记为z_i = [x_i, y_i]^T ∈ R^d+1。设D₁和D₂为划分后的互斥子集...

提出方法

本节提出解决Twinning速度限制的新方法s-Twinning。其技术核心是通过求解以下问题获得最优验证集D₂：

（展示数学表达式）

其中T = T₁ ∪ T₂ ∪ ... T_K，每个T_k (k=1,2,...,K)是数据集D的K个互斥子集S_k的最优验证集。换言之，每个T_k是以下问题的解：

（展示数学表达式）

实例验证

本节通过四个实例验证提出的s-Twinning算法性能。首例采用纽约出租车数据集（N=1,458,643条记录），包含14个连续变量（如距离、交通灯数量等）。该数据集存在大量重复值，完美展示了变量值稀疏场景下的算法表现...

结论

Twinning作为当前最先进的数据子集生成方法，能精准复现原始数据分布，在模型训练与验证等场景中至关重要。然而其执行时间限制阻碍了在大规模数据集中的应用潜力。本文提出的s-Twinning方法成功实现大规模数据扩展，在保持能量距离最小化优势的同时，通过创新算法设计显著提升计算效率，为海量数据分析和机器学习应用开辟了新途径。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号