编辑推荐:
饮酒风险评估面临传统方法的局限,研究人员利用大语言模型(LLMs)分析 208 名意大利成年人的 Facebook 状态更新,并结合酒精使用障碍识别测试简版(AUDIT-C)开展研究。结果显示 LLMs 评估有潜力,且近期发帖者相关性更强。该研究为酒精风险评估提供新途径。
在当今社会,酒精的身影随处可见,小酌怡情是不少人的生活常态,但过量饮酒带来的危害却不容小觑。从全球范围来看,饮酒引发的健康问题日益严重,已然成为公共卫生领域的一大难题。大量饮酒不仅与酒精使用障碍紧密相连,还会增加患病几率、提升死亡率,给社会经济带来沉重负担,对人际关系也会造成负面影响。就拿意大利来说,近年来酒精消费量呈上升趋势,年轻人中饮酒风险人群占比也不容乐观,这使得准确检测饮酒风险变得至关重要。
传统的酒精风险评估方法,如酒精使用障碍识别测试简版(AUDIT-C),虽然是常用的标准化工具,但存在诸多缺陷。一方面,受社会期望影响,人们在回答问卷时可能会有所隐瞒,导致结果存在偏差;另一方面,记忆偏差也会干扰评估的准确性。而临床访谈虽然能获取更详细的信息,但因其覆盖范围有限、难以大规模开展,使得很多酒精滥用患者未能及时被发现和治疗。在这样的背景下,寻找更有效的酒精风险评估方法迫在眉睫。
为了解决这些问题,意大利都灵大学的研究人员另辟蹊径,借助社交媒体和大语言模型(LLMs)展开了一项别具一格的研究。他们的研究成果发表在《Addictive Behaviors》杂志上,为酒精风险评估领域带来了新的曙光。
研究人员开展的这项研究聚焦于大语言模型能否从社交媒体文本中推断出酒精风险。研究人员通过雪球抽样的方式,招募了 208 名来自意大利的成年志愿者。这些志愿者在提供知情同意后,完成了在线问卷,并授权研究人员通过 Facebook API 获取他们的 Facebook 状态更新。研究人员运用两款先进的大语言模型,即 Gemini 1.5 Pro 和 GPT-4o,对志愿者的 Facebook 状态更新进行分析,评估酒精风险并量化与酒精相关的内容提及次数。同时,志愿者们还完成了 AUDIT-C 测试,以便与大语言模型的评估结果进行对比。
在研究结果部分,首先来看模型间一致性。研究发现,Gemini 1.5 Pro 和 GPT-4o 在风险推断上表现出较强的一致性(ρ = 0.572,p < 0.001)。这意味着两款不同的大语言模型在对社交媒体文本进行酒精风险评估时,能够得出较为相似的结论,表明大语言模型在该领域的评估具有一定的稳定性。
接着是模型推断风险与自我报告饮酒量的关联。大语言模型推断出的风险评分与 AUDIT-C 评分呈现出中等程度的相关性(Gemini:ρ = 0.344,p < 0.001;GPT-4o:ρ = 0.375,p < 0.001;平均:ρ = 0.405,p < 0.001) 。这说明大语言模型根据社交媒体文本所推断出的酒精风险,与通过传统自我报告测试得出的结果存在一定联系,大语言模型确实具备一定的评估能力。
最后是发帖时间的影响。研究人员发现,发帖时间对上述关系存在显著影响。在近期(过去 30 天内)有发帖的参与者中,大语言模型平均推断风险评分与 AUDIT-C 评分的相关性更强(ρ = 0.500,p < 0.001);而在没有近期发帖的参与者中,相关性相对较弱(ρ = 0.294,p = 0.008)。其中,近期发帖组中,大语言模型平均推断风险评分与 AUDIT-C 评分之间的相关性最强(去衰减 ρ = 0.606)。这表明,大语言模型在分析近期社交媒体活动时,能更有效地识别饮酒风险。
综合来看,该研究结论意义重大。它首次证实了大语言模型在从社交媒体文本评估酒精相关风险方面的潜力。大语言模型评估的准确性与一些传统酒精评估方法相当,这意味着其有望成为增强早期检测的有力工具。借助社交媒体庞大的数据资源和大语言模型强大的分析能力,未来或许能够实现更高效、更广泛的酒精风险筛查,让更多存在饮酒风险的人能够被及时发现,进而采取相应的干预措施,降低酒精相关危害。不过,研究也存在一定局限性,比如样本仅来自意大利,可能存在地域局限性;且仅分析了 Facebook 平台的数据,未来研究可以进一步拓展样本范围和社交媒体平台类型,以便更全面地探究大语言模型在酒精风险评估中的应用。但无论如何,这项研究为酒精风险评估领域开辟了新方向,为后续研究奠定了重要基础。