探秘大语言模型合成医学数据集的检测之道:洞察造假界限,筑牢科研防线

【字体: 时间:2025年04月25日 来源:JAMA Ophthalmology 7.8

编辑推荐:

  近期研究证实大语言模型 GPT-4 可编造合成医学数据集以支持虚假科学证据。研究人员开展了探究大语言模型生成数据集中造假迹象及改进数据集、探索生成式人工智能极限的研究。结果显示定制 GPT 生成的部分数据集能通过法医分析,这表明其或被滥用于造假。

  关键要点:
问题:大语言模型能否编造出无法被识别为人工合成的医学数据集?
发现:在这项质量改进研究中,使用默认的生成式预训练变换器模型(GPT-4o)和定制 GPT 合成数据创建器生成了 24 个合成数据集。由 GPT-4o 生成的所有数据集都有明显的编造迹象,而定制 GPT 创建的 12 个数据集中有 4 个(33.3%)通过了法医分析,被认为是真实的。
意义:大语言模型能够编造出可逃避法医分析的合成数据集,为虚假科学证据提供支持。
摘要:
重要性:最近有研究证明,大语言模型生成式预训练变换器 4(GPT-4;OpenAI)能够编造旨在支持虚假科学证据的合成医学数据集。
目的:揭示大语言模型生成的数据集中可能暗示造假的统计模式,尝试去除非真实性的可检测标记来改进这些合成数据集,探索生成式人工智能的极限。
设计、环境和参与者:在这项质量改进研究中,为 3 项虚构的临床研究生成合成数据集,这些研究旨在比较针对特定眼部疾病的 2 种替代疗法的治疗效果。使用默认的 GPT-4o 模型和定制 GPT 生成合成数据集。数据编造工作于 2024 年 11 月进行。
暴露:向 GPT-4o 提交提示,生成 12 个 “未优化” 数据集,并进行法医检查。基于该分析结果,构建了带有详细指令的定制 GPT 合成数据创建器,以生成 12 个旨在逃避真实性检查的 “优化” 数据集。然后,对这些增强后的数据集再次进行法医分析。
主要结局和测量指标:进行法医分析,以识别人口统计数据中的统计异常、分布均匀性、末位数字的重复模式,以及研究变量的线性相关性、分布形状和异常值。还对数据集进行定性评估,检查是否存在不切实际的临床记录。
结果:法医分析在 304 次测试中,从未优化数据集中识别出 103 个编造标记(33.9%)。显著缺陷包括患者姓名与性别不匹配(n = 12)、基线访视发生在周末(n = 12)、年龄计算错误(n = 9)、缺乏均匀性(n = 4)以及末位数字存在重复数值模式(n = 7)。研究变量之间观察到极弱的相关性(r < 0.1)(n = 12)。此外,变量显示出可疑的分布形状(n = 6)。与未优化数据集相比,优化后的数据集编造迹象减少了 29.3%(95% 置信区间,23.5%-35.1%)(在进行的 304 次统计测试中,有 14 次 [4.6%])。有 4 个优化后的数据集通过了法医分析,被认为是真实的;然而,其他数据集中发现了可疑的分布形状或其他问题。
结论和相关性:足够复杂的定制 GPT 可以执行复杂的统计任务,可能会被滥用,编造出能通过法医分析、被视为真实的合成数据集。

相关新闻
生物通微信公众号
微信
新浪微博
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号