
-
生物通官微
陪你抓住生命科技
跳动的脉搏
基于主动学习的预训练数据去重模型:语义级重复识别的创新方法
【字体: 大 中 小 】 时间:2025年06月16日 来源:Expert Systems with Applications 7.5
编辑推荐:
针对大数据时代数据质量的核心挑战——语义级重复数据识别难题,中国科学院研究人员创新性地提出基于主动学习(AL)的预训练去重模型(PDDM-AL)。该研究首次将Transformer架构与主动学习结合,通过R-Drop数据增强技术,在减少人工标注成本的同时,使召回率(Recall)提升28%,为结构化数据清洗提供了新范式。
在大数据爆炸式增长的时代,数据质量已成为制约数据价值挖掘的关键瓶颈。其中,重复数据问题尤为突出——据估算,企业数据仓库中平均15%-20%为冗余数据,每年造成高达数百万美元的存储浪费。更严重的是,传统基于字面相似度的去重方法(如模糊匹配)难以应对语义层面的重复问题:例如《数据库系统概念》第三版与第四版虽文本相似却非重复,而"冠心病"与"冠状动脉粥样硬化性心脏病"虽表述迥异实为同一概念。这种语义鸿沟使得现有方法在医疗健康、金融等领域的结构化数据处理中捉襟见肘。
针对这一挑战,中国科学院团队在《Expert Systems with Applications》发表的研究中,开创性地提出基于主动学习(Active Learning, AL)的预训练数据去重模型(PDDM-AL)。该研究首次将Transformer架构与主动学习框架深度融合,通过R-Drop数据增强技术,构建了端到端的语义级去重系统。实验证明,该方法在基准数据集上实现28%的召回率(Recall)提升,同时减少70%的人工标注需求,为高质量数据治理提供了新范式。
关键技术方法包括:1) 基于预训练Transformer的序列分类架构,将去重任务转化为语义相似度计算;2) 主动学习策略动态筛选高价值样本,通过专家交互式标注优化模型;3) R-Drop正则化技术对标注数据增强,提升模型鲁棒性;4) 基于阻塞(blocking)技术的候选对筛选,提升计算效率。研究使用公开基准数据集ABT-Buy、Amazon-Google等进行验证。
【Related Work】
现有研究存在三大局限:传统相似度算法(如Jaccard系数)无法捕捉语义关联;聚类方法依赖人工设定阈值;深度学习模型需大量标注数据。本研究突破性地将预训练语言模型的语义理解能力与主动学习的样本选择策略相结合。
【Methodology】
PDDM-AL的创新架构包含三阶段:1) 候选对生成阶段采用属性级阻塞技术,排除明显非重复记录;2) 主动学习循环中,模型通过蒙特卡洛Dropout计算预测不确定性,选择最具信息量的样本供专家标注;3) 训练阶段采用R-Drop技术,强制两次前向传播结果一致以增强泛化性。关键创新在于将Transformer的[CLS]标签输出与基于熵的样本选择策略耦合。
【Experiments】
在Amazon-Google数据集上,PDDM-AL的F1值达92.3%,较传统方法提升19.8%。特别在医疗术语去重任务中,Recall从67%跃升至95%,证明其语义理解优势。主动学习策略仅需30%标注量即达到全量数据90%的性能,R-Drop使模型方差降低42%。
【Conclusion】
该研究开创了语义级数据去重的新范式:1) 首次实现Transformer与主动学习的端到端整合;2) R-Drop技术有效解决小样本场景下的过拟合问题;3) 为医疗健康、金融等领域提供可扩展的数据清洗方案。未来可探索多模态数据去重与联邦学习框架的结合,进一步拓展应用边界。
这项工作的核心价值在于:将自然语言处理领域的预训练技术引入数据治理领域,通过人机协同的主动学习机制,实现了"小样本、大智慧"的智能化数据清洗,为数字化转型提供了基础性技术支撑。正如通讯作者Tianrui Li指出:"PDDM-AL的成功证实了语义理解是下一代数据质量工具的核心竞争力"。
生物通微信公众号
知名企业招聘