融合大语言模型与扩散模型的表格数据生成方法TabularMDLM:提升隐私保护与数据多样性的创新框架

【字体: 时间:2025年09月05日 来源:Neurocomputing 6.5

编辑推荐:

  为解决隐私保护数据共享、数据增强和小样本学习等场景中表格数据生成质量不足的问题,Tokimasa Isomura团队提出融合大语言模型(LLM)和扩散模型的TabularMDLM框架。该研究通过特征值选择性掩码和模式重建技术,在6个异构表格数据集上验证了其分类性能(F1分数提升10-15%),为医疗金融等敏感领域提供了兼顾隐私与效用的合成数据解决方案。

  

在医疗健康、金融风控等领域,真实表格数据的共享常因隐私法规(GDPR/HIPAA)受限,而传统生成对抗网络(GAN)和变分自编码器(VAE)在处理异构特征(如年龄数值型与疾病状态类别型混合)时,往往破坏数据结构或产生低多样性样本。尤其当样本量不足时,现有方法如TabDDPM和CTGAN+在Heart等医学数据集上会出现特征关联断裂问题,导致合成数据无法支撑下游诊断模型训练。

针对这一挑战,Waseda大学的Tokimasa Isomura团队在《Neurocomputing》发表研究,创新性地将自然语言处理中的掩码语言模型(MLM)与扩散模型结合,开发出TabularMDLM框架。该模型通过两项关键技术突破传统局限:一是仅对特征值添加噪声而保留列名语义,二是利用预训练语言模型(GPT/BERT架构)在逆向扩散中重构掩码标记。这种"Schema-Preserving"设计使合成数据在Kaggle心脏病数据集上的LightGBM分类器F1分数达到0.852,较基线提升21%。

研究方法上,团队首先将表格行转化为"列名 is 值"的文本序列,采用分阶段扩散策略:正向阶段按线性噪声计划掩码特征值,逆向阶段通过LLM概率预测重建。在评估环节,采用"纯合成数据训练-真实数据测试"范式,对比了CTGAN、TabDDPM等模型在Adult、Loan等6个数据集上的分类指标,并引入t-SNE和最近邻距离(NND)分析生成质量。

关键结果包括:

  1. 1.

    分类性能:在100样本的小规模训练下,TabularMDLM在Heart数据集实现准确率0.840,显著高于CTGAN+(0.553)。对高维数值数据集Miniboone,其F1分数(0.739)证明了对连续特征的建模能力。

  2. 2.

    可视化分析:t-SNE显示生成样本(红色)与真实数据(蓝色)分布重叠度达78%,而CTGAN存在明显离群点。

  3. 3.

    不平衡数据处理:在9:1的极端不平衡Customer数据集上,模型将少数类召回率从SMOTE的0.097提升至0.262。

讨论部分指出,该方法通过"特征名锚定"策略解决了传统模型的结构断裂问题,其隐私保护性体现在NND分析中既避免完全复制(距离=0)又防止生成无关样本。作者建议未来可探索多模态数据扩展,如结合医学影像与表格数据的联合生成。这项研究为受限数据环境下的AI模型训练提供了新范式,特别对罕见病研究和金融反欺诈等场景具有实践价值。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号