用于肌肉骨骼康复的ChatGPT辅助疼痛病史采集系统的开发与初步心理测量学验证

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Musculoskeletal Science and Practice》：ChatGPT-assisted pain history-taking system for musculoskeletal rehabilitation: Development and preliminary psychometric validation

【字体：大中小】 时间：2026年06月09日 来源：Musculoskeletal Science and Practice 2.2

编辑推荐：

　　背景：慢性肌肉骨骼疼痛需要全面的病史采集，但传统方法常导致记录不一致且跨访视可比性有限。经评估的人工智能（AI）辅助疼痛病史采集工具的证据仍然不足。目的：开发并初步评估慢性肌肉骨骼疼痛电子病史采集系统（CMP-EAS），这是一种ChatGPT辅助、基于框

背景：慢性肌肉骨骼疼痛需要全面的病史采集，但传统方法常导致记录不一致且跨访视可比性有限。经评估的人工智能（AI）辅助疼痛病史采集工具的证据仍然不足。
目的：开发并初步评估慢性肌肉骨骼疼痛电子病史采集系统（CMP-EAS），这是一种ChatGPT辅助、基于框架的结构化疼痛病史采集工作流程。
方法：36名慢性肌肉骨骼疼痛患者在一项单中心观察性研究中完成了CMP-EAS访谈；5名专家评估了内容效度。内容效度通过条目和量表水平指数（I-CVI, S-CVI/Ave）进行评估，并分别评价了相关性和清晰度。在受控条件下，通过一致性（agreement）和基于患病率及偏倚调整的kappa系数（PABAK）在条目和反应水平上进行三次独立重复测试，检查了确定性可重复性。用户体验通过一份21条目问卷（5点Likert量表）进行评估。
结果：CMP-EAS包含13个条目，覆盖核心疼痛病史领域。内容效度极佳（相关性S-CVI/Ave=1.00；清晰度0.97）。条目水平重复性完美（一致性100%；PABAK=1.00），反应水平重复性近乎完美（一致性94–100%；PABAK=0.89–1.00）。用户体验良好（均值±标准差4.2±0.5/5.0），交互舒适度评分最高（4.4±0.5），信任度评分最低（4.0±0.7）。
结论：在台湾南部一家三级医疗中心的普通话样本中，CMP-EAS展示了初步的内容效度、结构一致性、高确定性可重复性以及良好的用户体验。一次只问一个问题、基于框架的工作流程可能标准化初始疼痛病史记录并支持跨访视比较。这些发现反映了系统水平的可重复性而非真实世界的临床性能；在临床推广前需要更广泛的验证。

**论文解读**

**研究背景、问题与目的**
慢性肌肉骨骼疼痛（Chronic Musculoskeletal Pain, CMP）是全球性的公共卫生挑战，严重影响患者功能、参与度和生活质量，并带来巨大经济负担。疼痛病史采集是肌肉骨骼评估的基础步骤，指导临床推理、治疗方案选择以及康复反应的监测。然而，疼痛表达具有高度主观性，受健康素养和沟通技巧影响，传统方法常导致记录不一致、跨访视可比性有限，尤其在门诊时间紧张、文档负担重的情况下变异性更大。现有结构化框架如SOCRATES（部位、发作、性质、放射、关联、时间、加重/缓解因素、严重度）和QISS TAPED（性质、影响、部位、严重度、时间、加重/缓解因素、偏好、期望、诊断）虽能提升病史采集全面性，但日常实践中依从性不足，关键领域常被遗漏或以非标准格式记录。生成式人工智能（AI），特别是大型语言模型（LLMs），可支持自然语言访谈并生成结构化摘要，但现有AI辅助系统多缺乏框架锚定和工作流程约束，存在幻觉、数据捕获不完整、临床有效性有限等风险。为此，研究人员开发了慢性肌肉骨骼疼痛电子病史采集系统（CMP-EAS），一种整合SOCRATES和QISS TAPED框架的ChatGPT辅助标准化问答工作流程，旨在支持工作流程标准化和文档稳定性，生成结构化、可直接用于临床审阅的输出。本研究目的为：①设计并实施基于ChatGPT的标准化提示和框架锚定工作流程；②开展初步评估，包括内容效度和受控条件下的确定性可重复性；③收集用户体验数据以评估可行性并指导优化。本论文发表在《Musculoskeletal Science and Practice》。

**关键技术方法**
本研究为方法学设计，聚焦系统开发与初步评估。样本来源：来自台湾南部一家三级医疗中心康复门诊的36名慢性肌肉骨骼疼痛患者（平均年龄57.2岁，女性占64%）；5名专家（2名物理治疗师、1名康复医师、1名疼痛专科医师、1名心理学家）评估内容效度。主要技术方法：①基于ChatGPT（订阅版）开发CMP-EAS，整合SOCRATES与QISS TAPED框架，设计13个条目的结构化工作流程，包含询问、确认和输出三个模块；②内容效度评估：专家对每个条目的相关性和清晰度评分，计算条目水平内容效度指数（I-CVI）和量表水平内容效度指数平均值（S-CVI/Ave）；③确定性可重测试：在受控条件下对同一患者进行三次独立重复测试（固定输入），以一致性和患病率及偏倚调整的kappa系数（PABAK）评估条目水平和反应水平的稳定性；④用户体验调查：使用21条目5点Likert问卷评估交互舒适度、信任度、可用性及整体满意度。

**研究结果**
**系统开发与结构**：CMP-EAS最终包含13个条目，覆盖疼痛部位、发作、性质、放射、关联、时间、加重/缓解因素、严重度、功能影响、患者偏好、期望、诊断测试等关键领域。每个条目一次只问一个问题，必要时提供简短解释或示例。系统包括询问、确认和输出三个模块，询问模块顺序引导患者回答问题，确认模块允许患者修改或确认回答，输出模块生成结构化摘要以供临床审阅。

**内容效度**：5名专家评估显示，相关性S-CVI/Ave=1.00，清晰度S-CVI/Ave=0.97，表明内容效度极佳。所有13个条目的I-CVI均≥0.80（相关性）或≥0.60（清晰度），仅1个条目（诊断测试）的清晰度I-CVI为0.60，其余均≥0.80。

**确定性可重复性**：在受控条件下进行三次重复测试，条目水平重复性完美（一致性100%，PABAK=1.00）；反应水平重复性近乎完美（一致性94–100%，PABAK=0.89–1.00），表明在固定输入下系统输出稳定一致。

**用户体验**：用户整体体验评分均值±标准差为4.2±0.5（满分5.0），其中交互舒适度评分最高（4.4±0.5），信任度评分最低（4.0±0.7）。可用性和整体满意度评分分别为4.2±0.6和4.2±0.7。这表明系统整体上用户友好，但用户对AI生成医疗信息的信任度相对较低。

**讨论与结论**
讨论部分强调：CMP-EAS初步展示了极佳的内容效度、高确定性可重复性和良好用户体验，支持其在受控条件下的结构一致性。系统通过一次只问一个问题、框架锚定的工作流程，可能有助于标准化初始疼痛病史记录并支持跨访视比较。但信任度评分相对较低（4.0±0.7），提示用户对AI辅助医疗决策的谨慎态度。研究局限性包括：样本量较小、来自单一三级医疗中心、仅评估了受控条件下的系统水平可重复性而非真实临床性能。未来需在更大样本、多中心环境中验证CMP-EAS的临床有效性、跨访视一致性及其对临床工作流程和患者结局的影响。研究结论部分原文翻译如下：
CMP-EAS在受控条件下展示了初步的内容效度、结构一致性和高确定性可重复性，并获得了良好的用户体验。标准化的、一次只问一个问题的AI复述式提示可能有助于更一致的初始疼痛病史记录。鉴于研究范围和相对较低的信任度评分，CMP-EAS应作为临床医生主导评估的辅助工具。这些发现仅限于本研究背景，在临床推广前需进行更广泛的验证。

联系信箱：

粤ICP备09063491号

热点排行