
-
生物通官微
陪你抓住生命科技
跳动的脉搏
数据稀缺场景下基于人工归纳偏置的合成表格数据生成方法研究
【字体: 大 中 小 】 时间:2025年08月05日 来源:Neurocomputing 6.5
编辑推荐:
研究人员针对深度生成模型(DGMs)在数据稀缺场景下生成高质量合成表格数据的挑战,提出了一种创新方法。该研究通过迁移学习(预训练、模型平均)和元学习(MAML、DRS)技术将人工归纳偏置显式整合到生成过程中,实验表明该方法在Jensen-Shannon散度指标上最高可获得60%的性能提升。这项模型无关的框架特别适用于医疗健康和金融等数据稀缺但需要高质量合成数据的关键领域。
在人工智能和大数据时代,深度生成模型(DGMs)已成为合成数据生成的核心技术。然而,这些模型通常需要大量训练数据才能达到理想效果,这与医疗健康、金融等关键领域的数据稀缺现状形成尖锐矛盾。更棘手的是,传统评估方法在小样本场景下难以准确衡量合成数据质量,导致研究者陷入"数据少-模型差-评估难"的恶性循环。
西班牙马德里理工大学(Universidad Politécnica de Madrid)信息处理与通信中心的研究团队在《Neurocomputing》发表创新研究,提出通过人工注入归纳偏置来增强DGMs在小样本场景下的性能。该团队系统评估了预训练、模型平均、模型无关元学习(MAML)和域随机搜索(DRS)四种技术路线,在Adult、King等多组基准数据集上验证了方法的有效性。
研究采用变分自编码器(VAE)和条件生成对抗网络(CTGAN)作为基础架构,通过多种子训练生成初始合成数据。关键技术包括:1)迁移学习框架下的预训练策略,利用大规模合成数据建立初始权重;2)模型平均方法整合多VAE训练结果;3)MAML元学习优化快速适应能力;4)DRS简化版元学习方案。验证阶段采用基于判别器的KL和JS散度评估,并引入下游任务效用测试。
在模型架构方面,研究选用VAE-BGM(变分自编码器-贝叶斯高斯混合)模型,该架构通过两阶段采样过程增强生成多样性。实验设计包含四种场景对比:"大数据"基准组(10,000样本)、"小数据"对照组(300样本)以及应用四种技术的实验组。结果显示,在Adult数据集上,模型平均技术使JS散度相对提升61.2%,KL散度提升61.5%;King数据集的回归任务中,模型平均更使KL散度降低44.3%。值得注意的是,预训练策略在CTGAN架构上也展现出显著效果,验证了方法的模型无关性。
技术对比揭示重要发现:模型平均计算效率最高且效果稳定,而MAML虽理论完备但实际表现欠佳。在Letter数据集的多分类任务中,DRS技术使分类准确率从基线的41%提升至43.7%,表明元学习对复杂任务更具适应性。研究同时发现,CTGAN在回归任务中表现较弱,突显了架构选择的重要性。
这项研究为小样本场景下的数据生成提供了系统解决方案,其创新性体现在三个方面:首先,首次系统验证了人工归纳偏置对表格数据生成的有效性;其次,提出的模型无关框架可适配多种DGM架构;最后,开发的双重验证体系(分布相似性和下游效用)为合成数据评估树立了新标准。特别在医疗健康领域,该方法能帮助突破数据隐私与模型训练间的矛盾,为AI辅助诊断等应用铺平道路。未来研究可探索将技术扩展到扩散模型等新兴架构,并开发自动化超参数优化工具以提升实用性。
生物通微信公众号
知名企业招聘