GenAI在定性研究中的应用评估：GPT-4o与人类主题分析的比较研究

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

【字体：大中小】 时间：2025年10月09日 来源：Scientific Reports 3.9

编辑推荐：

　　为解决生成式人工智能（GenAI）在定性研究中的可靠性问题，研究人员开展了一项比较GPT-4o与人类主题分析的研究。结果显示，虽然GenAI能识别相关主题，但在引用选择上存在幻觉和上下文理解不足的问题，无法完全替代人类分析。该研究为GenAI在健康医学领域的应用提供了重要参考。

在人工智能技术迅猛发展的今天，生成式人工智能（GenAI）尤其是大型语言模型（LLM）如GPT-4o，已在多个领域展现出巨大潜力。然而，在定性研究这一需要深度上下文理解和高度严谨性的领域，GenAI的应用效果如何？是否能够像人类研究者一样进行可靠的主题分析和情感分析？这些问题尚未得到充分解答。为此，研究人员开展了一项针对GPT-4o在定性研究中应用效果的评估研究，旨在比较GenAI与人类在主题分析、引用选择以及情感分析方面的表现，并为未来GenAI在健康医学领域的应用提供参考。

研究团队利用了一项关于COVID-19大流行对肯尼亚农村地区青少年女孩和年轻女性（AGYW）性生殖健康影响的定性研究数据，包括54名AGYW和53名社区男性的焦点小组讨论（FGD）转录本。通过GPT-4o进行主题分析和情感分析，并与人类分析结果进行对比。主要技术方法包括：使用GPT-4o通过Google Colaboratory进行API调用，设置温度为0.7和最大输出标记为4000；采用BERTScore F1评估主题稳定性；通过预定义的情感类别（如VADER和Circumplex模型）进行情感分析；并由两名人类评估者使用基于COREQ和CASP标准的评分表对GenAI输出进行独立评估。

主题分析结果

GenAI从AGYW转录本中识别出13个主题，从男性转录本中识别出11个主题，与人类分析的主题高度一致，但在组织方式上存在差异。例如，人类分析将“COVID-19大流行对性行为的影响”列为主要主题，而GenAI将其视为“大流行对男性态度和关系的影响”的子主题。评估显示，GenAI在主题描述上表现良好（完全描述率100%），但在选择支持性引用时表现较差：AGYW转录本的引用一致性为64-87%，男性转录本仅为33-79%。此外，GenAI出现了多种幻觉现象，从单词替换到文本组合导致意义修改，严重影响分析的可靠性。

情感分析结果

GenAI的情感分析显示，AGYW转录本中50%的情感为非常负面或负面，男性转录本中负面情感也占主导。在更复杂的情感分类（如恐惧、愤怒、信任等）中，AGYW转录本的情感分布与男性相似，但悲伤情感更常见（15% vs. 5%）。人类评估发现，GenAI在情感关键词描述上表现良好，但在选择支持性引用时表现不佳：AGYW转录本的引用一致性为74-100%，男性转录本仅为53-73%。尤其对于“厌恶”等情感，GenAI的引用选择几乎完全不可靠。

偏见分析

GenAI自我识别出多项偏见，主要涉及训练数据的局限性（如西方文化偏见）、缺乏文化理解以及确认偏见。这些偏见影响了其在对肯尼亚农村语境下的转录本分析中的表现，尤其是在处理男性转录本时，由于语言表达的间接性和文化特异性，GenAI的误差更为明显。

研究结论表明，GenAI（尤其是GPT-4o）在定性研究中目前无法提供与人类分析相媲美的主题分析。尽管它能有效识别主题和关键词，但在引用选择、上下文理解和幻觉控制方面存在显著不足。因此，GenAI现阶段仅能作为人类研究者的辅助工具，用于初步主题识别、错误检查或偏见检测，而不能独立承担严谨的定性分析任务。未来研究需专注于提升GenAI的文化语境理解能力、减少幻觉，并开发更可靠的验证机制，以确保其在健康医学等高风险领域的应用可靠性。

该研究由Supriya D. Mehta等人完成，发表在《Scientific Reports》上，为GenAI在定性研究中的应用提供了实证基础和实用指导。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号