
-
生物通官微
陪你抓住生命科技
跳动的脉搏
运用机器辅助主题分析(MATA)加速自由文本数据的主题分析:以COVID-19大流行期间影响健康行为与幸福感的因素为例的研究
【字体: 大 中 小 】 时间:2025年09月13日 来源:British Journal of Health Psychology 2.5
编辑推荐:
本综述推荐一项创新性研究,该研究采用机器辅助主题分析(Machine-Assisted Topic Analysis, MATA)方法,结合结构主题建模(Structural Topic Modeling, STM)技术,高效分析了英国大型前瞻性队列中收集的2177份自由文本回复。研究不仅验证了MATA在保持研究人员对主题生成和解释的控制权的同时显著节约资源(仅用20小时完成主题分析),还深入揭示了COVID-19大流行期间影响健康行为、情绪及幸福感的六大主题,包括健康行为、身体健康、情绪状态及其相互作用,以及外部控制因素和个人成长反思。该方法为处理大规模定性数据集提供了新范式,对公共卫生危机中的快速响应和政策制定具有重要参考价值。
引言与背景
定性研究在心理学和健康研究中具有重要地位,能够深入探究定量方法无法解答的“如何”和“为什么”类问题。然而,传统的定性分析方法通常需要大量时间和资源,尤其是在处理大规模数据集时。随着医疗健康数据的快速增长,包括来自医疗记录、服务调查和患者自述等来源的定性数据,如何高效分析这些“大定性”(Big Qual)数据成为一个迫切需求。近年来,人工智能(AI)技术在文本分析中的应用逐渐增多,例如主题建模、监督文本分类和大语言模型(LLMs),这些方法虽然提高了分析效率,但在一致性、偏见控制和深度解释方面仍存在局限。机器辅助主题分析(Machine-Assisted Topic Analysis, MATA)作为一种混合方法,结合了结构主题建模(Structural Topic Modeling, STM)的计算能力和研究人员的专业洞察,旨在在保持分析质量的同时提升效率。
研究方法
研究设计基于英国一项前瞻性队列研究,该队列在2020年4月招募了762名18岁以上的参与者,并通过在线调查在COVID-19大流行开始后的3、6、12和24个月收集了自由文本数据。参与者被问及影响其健康行为、情绪和幸福感的因素,共收集到2177份有效回复。数据分析采用MATA方法,使用R语言中的quanteda和STM包进行文本预处理,包括去除标点符号、停用词和词干提取。通过STM模型,识别出15个潜在主题,并由两名研究人员独立标记和解释这些主题,最终通过团队讨论将其归纳为六大主题。模型还纳入了参与者的人口学特征和时间点作为协变量,以探索主题 prevalence 随时间的变化。
主要发现
主题生成与解释:研究人员从15个机器生成的主题中归纳出六大主题:健康行为(包括 salutogenesis、日常习惯和身体活动)、身体健康(涵盖身体症状和慢性疾病)、情绪状态(如压力、失落感、政治挫折感以及希望与乐观)、因素间的相互作用、控制与约束(包括行为限制、风险与限制、个人自主权以及变化与不确定性)以及对幸福和个人成长的反思。每个主题都通过代表性引文进行了详细阐释,突出了影响参与者健康行为和幸福感的多样化因素。
主题 prevalence 随时间变化:分析显示,不同主题的 prevalence 随时间呈现动态变化。例如,salutogenesis(健康生成)在3和12个月时最为突出,对应严格封锁期后的积极行为调整;身体健康相关主题(如慢性疾病和身体症状)的 prevalence 随时间显著上升,在24个月时成为最突出的议题;压力主题在早期较为突出,随后逐渐下降;而政治挫折感主题在6个月时达到高峰,与当时疫情管理和政策争议相关。因素间的相互作用主题 prevalence 持续增加,反映出参与者对多因素交织影响的日益关注。
讨论与意义
MATA方法在本研究中的应用展示了其在处理大规模定性数据时的高效性,研究人员仅用20小时就完成了主题的识别和归纳,远少于传统手动分析所需的时间。这一方法不仅加快了分析进程,还通过研究人员的主导解释保持了分析的深度和语境理解,避免了完全依赖AI可能带来的偏见和一致性问题。研究结果与已有的定性COVID-19研究相呼应,强调了健康行为、身体和心理健康之间的复杂相互作用,以及外部因素如控制感和个人反思在调节这些关系中的重要性。
研究的优势包括其纵向设计、系统化的分析方法和与前期研究结果的一致性,而局限性则在于部分主题可能存在重叠,以及机器学习方法可能无法捕捉到少数群体的独特视角。未来的研究应进一步探索MATA在其他类型定性数据(如深度访谈)中的应用,并开发评估框架以确保AI辅助分析的质量和公平性。
结论
本研究通过MATA方法高效分析了COVID-19大流行期间影响健康行为和幸福感的关键因素,验证了这一混合方法在大型定性数据集分析中的实用性和有效性。研究成果不仅为公共卫生政策提供了实证依据,还推动了AI在定性研究中的方法论发展,强调在追求效率的同时,必须保持研究的深度和伦理严谨性。
生物通微信公众号
知名企业招聘