基于大型语言模型的失眠与尼古丁依赖数字疗法解释简化:两项随机在线实验

《JMIR Human Factors》:Large Language Model–Based Simplification of Digital Therapeutics Explanations for Insomnia and Nicotine Dependence: Two Randomized Online Experiments

【字体: 时间:2026年06月14日 来源:JMIR Human Factors 3

编辑推荐:

  背景:数字疗法(DTx)是基于证据的软件干预措施,具有治疗健康状况的潜力。然而,其普及仍受限于公众认知度低以及患者教育材料过于复杂、超出推荐可读性水平的问题。大型语言模型(LLM)可能简化此类内容;但其对用户理解的影响尚未得到实证证明。 目的:本研究旨在检

  
背景:数字疗法(DTx)是基于证据的软件干预措施,具有治疗健康状况的潜力。然而,其普及仍受限于公众认知度低以及患者教育材料过于复杂、超出推荐可读性水平的问题。大型语言模型(LLM)可能简化此类内容;但其对用户理解的影响尚未得到实证证明。
目的:本研究旨在检验,与制造商提供的原始文件相比,基于LLM的DTx解释材料简化能否提升感知理解以及可读性、清晰度和可理解性的主观评价。
方法:研究人员利用GPT-4o应用编程接口(API)开发了一款简化工具,配置为确定性输出并依据结构化可读性指令进行指导。从制造商处获取关于失眠和尼古丁依赖的原始DTx解释材料,并转化为简化版本。开展了两项随机、被试间在线实验(总样本量n=1000,每项实验500名参与者)。参与者按年龄和性别分层,并通过相关性筛查(失眠实验:失眠严重程度指数≥8;尼古丁依赖实验:每日吸烟≥5支)。每项实验内,参与者被随机分配查看原始或LLM简化的解释材料。在暴露前后分别评估感知理解。同时收集暴露后对易读性、清晰度和可理解性的评价。
结果:重复测量方差分析显示,两项实验中感知理解均存在显著的组别×时间交互效应:失眠实验(F1,498=24.8; P<.001)和尼古丁依赖实验(F1,498=14.1; P<.001),且LLM简化组的改善幅度更大。曼-惠特尼U检验进一步表明,两项实验中LLM简化解释在易读性、清晰度和可理解性上的评分均显著高于原始版本(所有P<.05),效应量小到中等(r=0.11-0.24)。
结论:与制造商提供的原始材料相比,LLM简化的DTx解释即使在单次暴露后也能显著提升普通人群的感知理解及可读性主观评价。这一发现凸显了基于LLM的简化作为提高普通人群健康信息可感知可及性策略的可扩展潜力。将此类工具整合至患者教育中可增强普通人群对DTx的感知和参与,尽管仍需采用客观理解测量指标进行进一步研究以确认这些益处。
试验注册:临床研究信息服务KCT0011459;https://cris.nih.go.kr/cris/search/detailSearch.do?seq=32221
**基于大型语言模型的数字疗法解释简化:失眠与尼古丁依赖的实证研究**

**研究背景与问题**
数字疗法(DTx,基于软件的循证治疗干预措施)在健康照护领域展现出巨大潜力,可应用于慢性疼痛、心代谢疾病、心衰及精神障碍等多种状况。然而,其普及面临两大障碍:公众认知度低,且患者教育材料复杂度过高,超过推荐可读性水平(美国成年人健康素养对应13-14岁水平,而材料建议撰写的阅读水平为10-11岁)。现有超过95%的患者教育材料需至少高中阅读水平,导致多数人群难以获取。大型语言模型(LLM)具有简化复杂文本的能力,但之前研究多采用计算可读性指标(如Flesch-Kincaid等级),缺乏对终端用户理解的实证评估。为此,研究人员开展本研究,旨在通过随机在线实验检验LLM简化对普通人群感知理解和主观评价的影响。论文发表于《JMIR Human Factors》。

**研究内容与结论**
研究人员开发了基于GPT-4o应用编程接口(API)的文本简化工具,对失眠和尼古丁依赖两种DTx的制造商原始解释材料进行简化,并由三名认证精神病学家验证医学准确性。通过两项独立随机被试间在线实验(总样本n=1000,每项实验500人),参与者按年龄和性别分层,并依据相关性标准筛查(失眠实验:失眠严重程度指数≥8;尼古丁依赖实验:每日吸烟≥5支)。参与者被随机分配查看原始或LLM简化材料,在暴露前后测量感知理解(改编自Flynn & Goldsmith主观知识量表,5条目,5点李克特量表),暴露后评价易读性、清晰度和可理解性(单项评分)。结果表明:基于LLM的简化显著提升了感知理解(两组实验均存在显著组别×时间交互效应),简化组在三个主观评价维度上得分均显著高于原始组(效应量r=0.11-0.24)。这一发现表明,即使单次暴露,LLM简化也可有效改善普通人群对DTx信息的感知可及性,具有可扩展的潜力。

**主要关键技术与方法**
研究使用GPT-4o API构建简化工具,设置温度参数为0、top p参数为1以确保确定性输出,依据结构化提示指令(涵盖内容保留、逻辑连贯性、术语适应、清晰度增强、语气风格、重点强调、长度管理和可读性)生成简化文本。原始材料与简化版本均经三名认证精神病学家独立审查确认医学准确性。参与者通过在线面板服务(Macromill Embrain Co., Ltd)招募,共1000人,按年龄和性别分层随机分配。感知理解采用5条目量表(Cronbach α=0.80-0.82),主观评价采用单项评分。统计分析采用重复测量方差分析和曼-惠特尼U检验。

**研究结果**
**样本特征**:共1000名参与者完成研究,每项实验各500人,控制组与实验组在年龄、性别分布上均衡(每组男女各125人,年龄20-65岁四段各约25%)。

**对感知理解的影响**:重复测量方差分析显示,两项实验中均无显著的组别主效应(失眠:F1,498=3.32, P=.07;尼古丁依赖:F1,498=2.88, P=.09),但存在显著的时间主效应(失眠:F1,498=38.5, P<.001;尼古丁依赖:F1,498=21.5, P<.001),表明暴露后感知理解分数均提升。关键的是,两项实验均发现显著的组别×时间交互效应(失眠:F1,498=24.8, P<.001, 部分η2=0.048;尼古丁依赖:F1,498=14.1, P<.001, 部分η2=0.028),描述性统计显示LLM简化组的感知理解增幅(失眠:均值从1.29升至1.61;尼古丁依赖:均值从1.30升至1.55)远大于控制组(失眠:1.34至1.38;尼古丁依赖:1.32至1.35)。

**对解释的评价**:曼-惠特尼U检验显示,在失眠实验中,LLM简化组在易读性(U=27,281, P=.008, r=0.127)、清晰度(U=27,803, P=.02, r=0.110)和可理解性(U=25,125, P<.001, r=0.196)上均显著高于原始组。在尼古丁依赖实验中亦如此(易读性:U=23,727, P<.001, r=0.240;清晰度:U=27,697, P=.02, r=0.114;可理解性:U=24,738, P<.001, r=0.208)。效应量均为小到中等。

**讨论与结论**
**讨论总结**:研究结果支持LLM简化可改善普通人群的感知理解与主观评价,且效应量虽小但一致,表明单次低强度干预即可带来有意义的提升。与先前工作相比,研究超越了单纯可读性指标,结合了专家临床验证与大样本用户实验,提供了准确性与有效性的新实证。但存在若干局限性:样本来自在线面板,可能具有较高数字素养,限制了向低数字素养人群的推广;人口学信息仅包括年龄和性别,未收集教育、健康素养等潜在混杂变量;理解仅通过自评而非客观知识测试;主观评价采用单项指标;仅考察短期暴露;参与者为有症状但非临床诊断人群;仅使用单一LLM模型(GPT-4o)及特定提示配置;简化干预同时包含词汇简化、语气调整和格式改进(如加粗、段落分层),无法区分语言简化与视觉格式的独立效应。未来需采用客观理解测量、纵向设计、多样化人群及拆分实验设计(如因子设计)进一步验证。

**研究结论翻译**:本研究表明,基于LLM的DTx解释材料简化能显著提升普通人群的感知理解以及可读性、清晰度和可理解性的主观评价。通过聚焦于临床验证内容的转换,LLM可提供一种安全且可扩展的方法,改善数字健康信息的可感知可及性。除DTx外,这些发现具有更广泛含义:许多类型的医学文档(如患者教育材料、知情同意书、临床指导)均可通过LLM简化使患者感觉更易获取。重要的是,通过帮助患者更自信地接触健康信息,基于LLM的工具可能具有减少被动遵从、促进主动参与、依从及共享决策的潜力。未来研究应在临床诊断的患者群体中验证适用性,采用客观知识评估和纵向设计,并评估不同健康状况、人群和语言下的稳健性与泛化能力。
相关新闻
生物通微信公众号
微信
新浪微博
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号