缩放与靶向数据增强优化文本数据集,提升基于 BERT 的机器学习性能

【字体: 时间:2025年05月14日 来源:Expert Systems with Applications 7.5

编辑推荐:

  当前 AI 和 ML 模型需大量数据,但获取困难。研究人员以自闭症谱系障碍(ASD)为案例,探究合成数据对下游文本分类器性能影响。结果显示添加合成数据可增召回率但降精度,不同方案应按需选择,为相关研究提供参考。

  
在人工智能飞速发展的今天,机器学习(ML)模型不断迭代升级,变得愈发复杂和强大。然而,这些模型想要发挥出最佳性能,往往需要海量的数据集作为支撑。就好比建造高楼大厦需要大量的建筑材料一样,数据就是机器学习模型的 “材料”。比如,训练一个用于视频异常检测的模型,可能需要包含 274,515 帧的视频数据集;而训练一个能有效检测假新闻的 GPT 模型,更是需要超过 3100 万份文档的数据。但获取这些数据并非易事,成本高昂是一大难题。像心理健康相关的数据,每年的订阅费用可能高达数万美元。不仅如此,当数据无法自动标注,或者通过众包(如亚马逊 Mechanical Turk)标注因工人技能差异难以实施时,获取数据的难度就更大了。

为了解决数据获取难题,使用合成数据成为了一种潜在的解决方案。对于数值型数据,我们可以通过统计分布采样、插值等方法轻松生成。但文本数据就没那么简单了,由于其具有符号性,生成合成文本数据一直是个挑战。以往创建合成文本数据的方法,如引入拼写错误、插入或删除字符或单词、替换同义词等,虽然能在一定程度上提升医学症状文本分类器的性能,但效果有限。随着大语言模型(LLMs)的出现,基于提示工程的文本生成方法为合成文本数据带来了新的可能。不过,这一方法也存在诸多问题,比如 LLMs 频繁更新,导致研究难以复现;而且重复相同的操作也不能保证得到相同的结果。此外,生成的领域准确数据也并非总能带来更好的效果,有时会在提高召回率的同时降低下游分类器的精度。

在这样的背景下,来自国外的研究人员开展了一项极具意义的研究。他们以自闭症谱系障碍(Autism Spectrum Disorder,ASD)为研究案例,旨在探究如何利用自动、可解释的指标来预测、管理和理解下游文本分类器的结果变化,同时评估数据规模和增强方法对结果的影响。该研究成果发表在《Expert Systems with Applications》上,为相关领域的研究提供了重要的参考。

研究人员在开展研究时,主要运用了以下关键技术方法:首先,利用微调的多标签双向编码器模型,对儿童行为的文本描述(N = 10892)依据七个诊断标准进行标注。其次,基于类型 - 标记比、余弦相似度和困惑度等白盒指标选择合成数据。然后,通过对比无增强(基线)、不同数据来源(原始数据与合成数据)、不同数据添加量(基线数量的 50% 或 100%)以及不同增强方法(通过数据靶向添加到一个类别或通过数据缩放添加到整个数据集)下模型的性能来进行研究。

下面来看具体的研究结果:

  • 性能分析:研究人员先训练未进行数据增强的 BERT 模型作为基线。之后,为了对比数据增强的效果,他们对数据进行增强,并从数据增强方法、数据来源和数据量这几个方面进行不同策略的比较。数据增强方法分为数据缩放和数据靶向;数据来源包括原始数据(从基线训练数据中随机选取的副本)和合成的 GPT - 4 数据;数据量则分为基线数量的 50% 和 100%。通过这些对比,全面评估不同因素对模型性能的影响。
  • 数据集变化:从表 4 可以看出,经过数据靶向,在 50% 的数据添加量下增加了 208 个观测值,100% 的数据添加量下增加了 419 个观测值;而通过数据缩放,在 50% 的数据添加量下增加了 4238 个观测值,100% 的数据添加量下增加了 8476 个观测值。这些数据的变化直观地展示了不同增强方式对数据集规模的影响。
  • 综合效果评估:总体而言,无论采用哪种数据创建方案,添加合成数据都能提高召回率,但提升幅度较小。然而,召回率的提升是以精度的下降为代价的,精度大约下降了 10%。此外,研究人员还发现,无论是白盒指标,还是基于标准差的稳定性分析,都与模型的结果没有明显的关联。在成本分析方面,数据靶向能够降低 BioBERT 模型的成本。

研究结论表明,在多标签 BERT 分类中,增加数据(无论数据来源如何)在所有条件下都倾向于提高召回率,但会牺牲精度。不过,使用和不使用数据增强之间的差异较小,且在统计学上不显著。需要注意的是,原始数据的获取和标注往往成本高昂,而合成数据在成本方面具有一定优势。

这项研究的意义重大。它为在不同应用场景下选择合适的数据增强策略提供了参考。例如,在医学领域的筛查或诊断中,可以根据具体需求,权衡召回率和精度,选择更适合的方案。同时,研究也指出了未来的研究方向,如进一步探索更有效的数据增强方法,以及如何更好地利用合成数据提升模型性能等。它为后续的研究奠定了基础,推动了基于文本数据的机器学习在生命科学和健康医学领域的发展,让我们在利用人工智能技术解决实际问题的道路上又迈进了一步。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号