编辑推荐:
为解决分析 EFIC 访谈中患者视角困难的问题,相关研究人员开展 LLMs 分析患者视角的研究。结果显示 LLMs 在情感极性和主题分类表现出色但有不足。该研究为 EFIC 流程分析提供新方法,推荐科研读者阅读。
在当今科技飞速发展的时代,大语言模型(LLMs)就像一股神奇的力量,闯入了各个领域,医疗健康领域也不例外。LLMs 凭借强大的自然语言理解能力,在文本生成、总结和分析等方面展现出巨大潜力,逐渐被应用于医疗诊断、决策支持和预测分析等多个方面,为医疗行业带来了新的希望和变革。
然而,在医疗这个充满人文关怀的领域,有一个重要环节却一直面临着挑战,那就是理解患者的想法和感受。患者的叙述往往包含着大量丰富的信息,如何准确分析和汇总这些信息,从而深入了解患者的需求和态度,成为了一个亟待解决的问题。这就好比在一堆杂乱无章的拼图中,找到每一块拼图的正确位置,拼凑出一幅完整的画面。但目前,使用 LLMs 来完成这项任务并没有得到足够的重视,尽管它至关重要。
在医疗研究的紧急情况下,有一种特殊的流程叫做 “知情同意豁免(EFIC)”。简单来说,当患者无法直接给予知情同意时(比如昏迷的患者需要使用自动体外除颤器进行急救),研究人员可以启动 EFIC 流程。在这个过程中,需要在社区中进行广泛的访谈,了解大家对相关研究的看法。可别小看这些访谈,它们就像是打开患者内心世界的钥匙,能让研究人员知道患者对研究的接受程度、担忧以及期望。
但问题来了,分析这些访谈内容可不是一件轻松的事。想象一下,有成百上千份访谈记录,每一份都可能冗长而复杂,需要耗费大量的人力和时间去逐字逐句分析。而且,由于缺乏明确统一的标准,不同的人分析可能会得出不同的结果,主观性很强。这就像让不同的人去解读同一首诗,大家的理解可能各不相同。因此,寻找一种更高效、更客观的分析方法迫在眉睫。
为了解决这些问题,来自相关研究团队的研究人员开展了一项极具意义的研究,并在《npj Digital Medicine》期刊上发表了名为《Large language models for analyzing patient perspectives in exception from informed consent interviews》的论文。这项研究就像是在黑暗中摸索的人们找到了一盏明灯,为理解患者视角提供了新的方向。
研究人员通过一系列严谨的实验和分析,得出了令人振奋的结论:LLMs 在分析患者视角方面表现出色,尤其是在情感极性(也就是判断患者的态度是积极、消极还是中立)和主题分类(将患者的回答归类到不同的主题下)方面,与人类评审员的判断结果高度一致。这意味着,LLMs 可以成为研究人员的得力助手,帮助他们更快、更准确地理解患者的想法。但研究也发现,LLMs 在某些方面还存在不足,比如在评估情感极性时,可靠性不如人类评审员。所以,目前 LLMs 还不能完全取代人类的判断,而是应该作为一种补充手段,与人类携手合作。
这项研究意义重大,它不仅为分析 EFIC 访谈数据提供了新的思路和方法,提高了研究效率,还有助于减少分析过程中的主观性,让研究结果更加客观可靠。同时,也为未来在更多医疗场景中应用 LLMs 来理解患者视角奠定了基础,有望进一步提升医疗服务的质量和水平。
为了开展这项研究,研究人员采用了几个关键的技术方法。他们选取了 9 个具有代表性的 PediDOSE 研究站点,这些站点涵盖了不同的地区和患者群体。研究人员收集了 102 次 EFIC 社区访谈数据,每次访谈都包含 46 个问题。他们评估了 5 种 LLMs,包括知名的 GPT-4 等。为了对比 LLMs 和人类评审员的表现,3 名人类评审员也参与进来,对访谈数据进行同步分析。在分析过程中,使用 Cohen’s Kappa 系数和分类准确率等指标来衡量两者之间的一致性。
下面,让我们一起来看看这项研究的具体结果:
- LLM 极性得分分析:研究人员首先让 GPT-4 对访谈中的回答进行情感极性评分。在 3692 个可供分析的回答中,有 1000 个被标记为 “无回应”。GPT-4 将所有站点的回答中,2.8% 归为非常消极,13.1% 归为消极,32.7% 归为中性,32.3% 归为积极,19.2% 归为非常积极。通过可视化不同站点的情感极性,研究人员发现了一些有趣的现象:不同站点的回答趋势大致相同,但也有个别问题存在差异。比如,关于癫痫认知的第 32 个问题,站点 A 的回答就比其他两个站点更消极。为了更准确地比较 LLMs 和人类的判断,研究人员选取了 123 个回答,让 5 种 LLMs 和 3 名人类评审员分别进行评分。结果显示,表现最佳的 GPT-4 与人类评审员的平均极性得分一致性很高,Cohen’s Kappa 系数达到 0.69。不过,不同的 LLMs 之间也存在差异,像 Mistral(7B)、GPT-3.5 Turbo 与人类评审员的一致性也较高,而 LLAMA 2(7B)和 LLAMA(70B)的一致性则较低。此外,GPT-4 与人类评审员评分差异较大的情况仅占 4.7%,而且人类评审员相比 GPT-4,更不容易给出极端的评分。大部分 LLMs 给出积极评分的问题,人类评审员也倾向于给出积极评分;反之亦然。
- 主题分类:研究人员从三个研究站点中,每个问题随机选取最多 15 个回答,对 GPT-4 进行文本分类分析。他们收集了 22 个自由文本问题的 188 个回答,并由每位人类评审员进行分类。结果发现,GPT-4 平均每个问题生成 3.24 个类别,与人类评审员分类结果的一致性达到 86.8%,而人类评审员之间的分类准确率为 86.7%。这表明,GPT-4 在主题分类方面的表现与人类评审员不相上下。
最后,让我们来总结一下研究的结论和讨论部分。这项研究充分证明了 LLMs 在分析 EFIC 社区访谈中的患者视角方面,具有很高的价值。它们在情感极性评分和主题分类上,与人类评审员的判断有较高的一致性,能够为研究人员提供快速总结和可视化大规模数据集的有效方法。通过 LLMs 生成的定量分析图,研究人员可以轻松地发现不同站点、不同问题之间的趋势和差异,比如某个站点对某个问题的回答存在明显的情感倾向,这有助于更深入地理解患者的情感细微差别,提升整体分析的质量。
不过,LLMs 也并非完美无缺。它们在评估极性得分时,与人类评审员相比,一致性稍显不足,而且更容易给出极端的极性值。这可能是因为 LLMs 在理解人类语言的微妙之处、解读情感背景方面还存在一定的困难。所以,目前最好的方式是让 LLMs 与人类评审员相互配合,发挥各自的优势。
此外,研究还存在一些局限性。例如,人工审核的数量有限,参与审核的人员仅为研究人员,没有纳入其他利益相关者;研究没有考虑到人口统计学因素(如种族、语言等)对访谈回答的影响;调查问题的顺序可能会对结果产生一定的偏差,而且缺乏与个体访谈回答相关的人口统计数据。但这些局限性也为未来的研究指明了方向。
总的来说,这项研究为 LLMs 在医疗领域的应用开辟了新的道路,虽然目前还存在一些不足,但随着技术的不断发展和完善,LLMs 有望在理解患者视角、提升医疗服务质量方面发挥更大的作用,让医疗研究更加贴近患者的需求,为人类的健康事业贡献更多的力量。