GenAI在定性研究中的应用评估:GPT-4o与人类主题分析的比较研究

【字体: 时间:2025年10月09日 来源:Scientific Reports 3.9

编辑推荐:

  为解决生成式人工智能(GenAI)在定性研究中的可靠性问题,研究人员开展了一项比较GPT-4o与人类主题分析的研究。结果显示,虽然GenAI能识别相关主题,但在引用选择上存在幻觉和上下文理解不足的问题,无法完全替代人类分析。该研究为GenAI在健康医学领域的应用提供了重要参考。

  
在人工智能技术迅猛发展的今天,生成式人工智能(GenAI)尤其是大型语言模型(LLM)如GPT-4o,已在多个领域展现出巨大潜力。然而,在定性研究这一需要深度上下文理解和高度严谨性的领域,GenAI的应用效果如何?是否能够像人类研究者一样进行可靠的主题分析和情感分析?这些问题尚未得到充分解答。为此,研究人员开展了一项针对GPT-4o在定性研究中应用效果的评估研究,旨在比较GenAI与人类在主题分析、引用选择以及情感分析方面的表现,并为未来GenAI在健康医学领域的应用提供参考。
研究团队利用了一项关于COVID-19大流行对肯尼亚农村地区青少年女孩和年轻女性(AGYW)性生殖健康影响的定性研究数据,包括54名AGYW和53名社区男性的焦点小组讨论(FGD)转录本。通过GPT-4o进行主题分析和情感分析,并与人类分析结果进行对比。主要技术方法包括:使用GPT-4o通过Google Colaboratory进行API调用,设置温度为0.7和最大输出标记为4000;采用BERTScore F1评估主题稳定性;通过预定义的情感类别(如VADER和Circumplex模型)进行情感分析;并由两名人类评估者使用基于COREQ和CASP标准的评分表对GenAI输出进行独立评估。

主题分析结果

GenAI从AGYW转录本中识别出13个主题,从男性转录本中识别出11个主题,与人类分析的主题高度一致,但在组织方式上存在差异。例如,人类分析将“COVID-19大流行对性行为的影响”列为主要主题,而GenAI将其视为“大流行对男性态度和关系的影响”的子主题。评估显示,GenAI在主题描述上表现良好(完全描述率100%),但在选择支持性引用时表现较差:AGYW转录本的引用一致性为64-87%,男性转录本仅为33-79%。此外,GenAI出现了多种幻觉现象,从单词替换到文本组合导致意义修改,严重影响分析的可靠性。

情感分析结果

GenAI的情感分析显示,AGYW转录本中50%的情感为非常负面或负面,男性转录本中负面情感也占主导。在更复杂的情感分类(如恐惧、愤怒、信任等)中,AGYW转录本的情感分布与男性相似,但悲伤情感更常见(15% vs. 5%)。人类评估发现,GenAI在情感关键词描述上表现良好,但在选择支持性引用时表现不佳:AGYW转录本的引用一致性为74-100%,男性转录本仅为53-73%。尤其对于“厌恶”等情感,GenAI的引用选择几乎完全不可靠。

偏见分析

GenAI自我识别出多项偏见,主要涉及训练数据的局限性(如西方文化偏见)、缺乏文化理解以及确认偏见。这些偏见影响了其在对肯尼亚农村语境下的转录本分析中的表现,尤其是在处理男性转录本时,由于语言表达的间接性和文化特异性,GenAI的误差更为明显。
研究结论表明,GenAI(尤其是GPT-4o)在定性研究中目前无法提供与人类分析相媲美的主题分析。尽管它能有效识别主题和关键词,但在引用选择、上下文理解和幻觉控制方面存在显著不足。因此,GenAI现阶段仅能作为人类研究者的辅助工具,用于初步主题识别、错误检查或偏见检测,而不能独立承担严谨的定性分析任务。未来研究需专注于提升GenAI的文化语境理解能力、减少幻觉,并开发更可靠的验证机制,以确保其在健康医学等高风险领域的应用可靠性。
该研究由Supriya D. Mehta等人完成,发表在《Scientific Reports》上,为GenAI在定性研究中的应用提供了实证基础和实用指导。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号