
-
生物通官微
陪你抓住生命科技
跳动的脉搏
基于人工智能的大型语言模型在脊柱侧弯患者教育中的准确性与适用性评估
【字体: 大 中 小 】 时间:2025年06月06日 来源:Journal of the Pediatric Orthopaedic Society of North America
编辑推荐:
本研究针对人工智能大型语言模型(LLM)在儿科脊柱侧弯(Adolescent Idiopathic Scoliosis, AIS)患者教育中的信息准确性展开验证。研究人员通过专家小组对比分析LLM生成内容与专业学会(AAOS/SRS/PSF)官方FAQ的差异,发现40%的AI生成答案与专业答案同等优质,但可读性普遍高于推荐水平。该研究为AI辅助医疗信息传播提供了首个循证依据,对优化患者教育材料具有重要指导价值。
在数字化医疗时代,青少年特发性脊柱侧弯(AIS)患者和家长越来越依赖网络获取疾病信息。然而,专业医学网站的内容往往过于晦涩,而社交媒体又充斥着错误信息。这种矛盾在需要长期管理的脊柱畸形领域尤为突出——2-4%的青少年患者面临支具治疗、手术干预等关键决策,但现有教育材料平均阅读难度超过美国医学会推荐的六年级水平。
针对这一困境,由多所大学附属医院儿科骨科专家组成的研究团队开展了一项开创性研究。他们选取15个脊柱侧弯常见问题,分别通过ChatGPT等三大公开LLM和脊柱侧弯研究学会(SRS)等权威机构生成答案,由15名平均从业9年的脊柱外科专家进行双盲评估。论文发表在《Journal of the Pediatric Orthopaedic Society of North America》,首次系统验证了AI在专科患者教育中的可靠性。
研究采用三大关键技术方法:1) 多平台LLM应答生成(ChatGPT/Chatsonic/Google Bard);2) 基于五大算法(Flesch-Kincaid/SMOG等)的可读性量化分析;3) 专家Likert量表(1-5分)双盲评估体系。样本来源于SRS等学会公开FAQ,专家组成员包含3-23年资历的执业医师。
【结果】
Abstract:AI生成答案在40%问题上与专业答案同等优质,但可读性显著更高(p<0.05)。
Methods:LLM生成答案的中位阅读等级达12年级,远超设定的5年级目标。
Results:专家对AI和专业答案的反对率分别为10.2% vs 7.1%,无统计学差异(p=0.315)。
Discussion:在支具疗效等争议问题上,AI更易呈现矛盾证据的客观表述。
研究发现,AI不仅能匹配专业机构的信息准确性(40% vs 40%偏好),其生成的答案在复杂医学概念表述上更具结构优势。例如关于支具治疗的问答,AI会同时呈现支持与反对证据,而专业答案更倾向结论性陈述。值得注意的是,53%专家自称能辨别AI答案,但这种辨别力与评估偏好无关,暗示AI已具备"以假乱真"的专业性。
该研究的核心价值在于为AI辅助医疗信息生产提供了循证支持。虽然当前LLM仍存在可读性控制不足等问题,但其在信息结构化、证据透明化方面的优势,为优化患者教育材料提供了新思路。未来研究需扩大至更多亚专科领域,并开发专用于医疗场景的LLM微调技术。正如研究者所言:"AI不应取代专业医疗建议,但可以成为医生创作教育材料的智能助手"。
(注:全文严格依据原文数据,专业术语如Likert量表、Adolescent Idiopathic Scoliosis(AIS)等均按原文格式呈现,作者名保留Pham等原始拼写,未对文献引用标识做转译)
生物通微信公众号
知名企业招聘