
-
生物通官微
陪你抓住生命科技
跳动的脉搏
基于目标感知的源数据选择优化预训练方法研究
【字体: 大 中 小 】 时间:2025年09月04日 来源:Knowledge-Based Systems 7.6
编辑推荐:
为解决大规模预训练模型中源数据与目标任务不匹配的问题,研究人员提出"目标感知源数据选择"(target-aware source data selection)新范式,通过Domain Adaptation Information Gain (DAIG)准则从源数据中筛选高信息量样本,显著提升目标任务的准确率。实验表明该方法在CIFAR和ImageNet数据集上均优于传统迁移学习方法,为高效利用海量数据提供了新思路。
随着大型预训练模型(如大语言模型LLM)的爆炸式普及,利用海量源数据进行预训练的方法日益流行。然而这些源数据通常是在非目标导向情况下获取的大规模混杂数据集,可能包含大量与目标任务无关甚至有害的数据。传统方法直接使用预训练模型进行微调(fine-tuning),但用户往往对预训练数据的具体内容缺乏了解,这给模型评估带来挑战。与此同时,各类开放数据的公开使得直接利用源数据而非预训练模型本身成为可能,但如何选择与目标任务相关的源数据成为关键科学问题。
Kanyu Miyoshi等人在《Knowledge-Based Systems》发表的研究创新性地提出"目标感知源数据选择"范式,通过Domain Adaptation Information Gain (DAIG)准则,利用从目标数据训练中获得的"粗略先验知识"(rough-prior knowledge),主动从源数据中选择信息量高的样本进行预训练。该方法首先训练目标数据获得初始模型f1,构建转移矩阵(transition matrix)M对齐源域和目标域的标签维度差异,然后基于DAIG选择源数据预训练模型f2,最后在目标数据上微调。关键技术包括:1)设计DAIG准则量化源数据对目标任务的贡献度;2)构建转移矩阵解决源域与目标域标签维度不匹配问题;3)采用CIFAR-10/100和ImageNet等多组数据集验证方法普适性。
研究结果部分:
准确性比较:在高相关性案例(CIFAR-10→CIFAR-100)中,DAIG方法准确率达91.04%,显著优于传统迁移学习(88.00%);在低相关性案例(CIFAR-10→ImageNet和CIFAR-100→ImageNet)中分别取得91.38%和67.94%的准确率,验证了方法的稳健性。
模型收敛分析:DAIG在所有实验设置下均保持稳定且较高的准确率,尤其在CIFAR-100作为目标数据时表现出8.37%的显著提升,表明方法能有效处理更复杂的分类任务。
消融研究:调整源数据选择比例发现,5%的选择比例反而获得最高准确率(92.21%),证实选择性使用高相关性源数据的重要性。标签分析显示DAIG能自动筛选与目标任务语义相关的类别(如"pickup truck"对应CIFAR-10的"truck"类)。
研究结论指出,该方法突破了传统迁移学习的局限,首次实现从目标数据出发逆向选择源数据的新范式。讨论部分强调,未来应建立源数据共享机制而非仅分享预训练模型,这预示着"源数据维护"可能成为重要研究方向。尽管计算成本增加约18.26%,但准确率提升3.04%的收益使其具有实用价值。
该研究的创新性体现在:1)提出DAIG准则实现源数据的目标导向选择;2)通过转移矩阵解决跨域维度对齐问题;3)实证表明在高低相关性场景下均优于基线方法。这项工作为高效利用海量数据提供了新思路,对医疗影像分析等数据稀缺领域具有重要启示意义。研究也指出未来可优化计算效率,并在医疗影像等复杂领域进一步验证方法有效性。
生物通微信公众号
知名企业招聘