
-
生物通官微
陪你抓住生命科技
跳动的脉搏
ChatGPT-4o mini、ChatGPT-4o与Gemini Advanced在绝经后骨质疏松症诊疗中的性能对比研究
【字体: 大 中 小 】 时间:2025年04月17日 来源:BMC Musculoskeletal Disorders 2.2
编辑推荐:
本研究针对绝经后骨质疏松症(PMOP)患者疾病认知不足、医疗资源紧张等问题,由天津医科大学团队系统评估了ChatGPT-4o mini、ChatGPT-4o和Gemini Advanced三大AI语言模型在回答PMOP常见问题(FAQs)和2022 ACOG-PMOP指南相关问题的表现。结果显示,ChatGPT-4o在回答FAQs时准确率显著优于其他模型(AS 4.01±0.81),而ChatGPT-4o mini与ChatGPT-4o在指南相关问题中表现更优(P<0.05)。所有模型均展现出强大的自我修正能力,为AI辅助骨质疏松诊疗提供了重要循证依据。
骨质疏松症作为绝经后女性高发的系统性骨病,全球约50%的50岁以上女性会经历骨质疏松性骨折。尽管已有系统级医疗方案,但研究表明80-90%患者未得到规范管理,凸显疾病认知与医疗资源的双重缺口。人工智能大语言模型(AI-LLMs)在医疗领域的应用为破解这一困境带来新机遇,但其在PMOP领域的专业性能尚未系统验证。
天津医科大学神经外科与神经康复临床学院联合南开大学计算机学院团队在《BMC Musculoskeletal Disorders》发表研究,首次对ChatGPT-4o mini、ChatGPT-4o和Gemini Advanced三大前沿模型开展PMOP专项评估。研究团队通过线下咨询和医疗论坛收集48个PMOP常见问题(FAQs),并基于2022 ACOG-PMOP指南设计24个专业问题。采用双盲设计,由4位骨科专家通过5级Likert量表评估回答质量,同时计算Flesch阅读易读性评分(FRE)量化文本可读性。
关键技术方法包括:1)多源问题采集(MedlinePlus、Cochrane等6大数据库);2)随机双盲评估设计(隐藏模型标识);3)FRE评分体系(206.835-1.015×(总词数/总句数)-84.6×(总音节/总词数));4)自我修正实验(对AS≤2的回答进行提示修正);5)统计采用Kruskal-Wallis H检验和Fleiss's kappa一致性分析。
研究结果揭示三大关键发现:
回答质量差异:在PMOP FAQs总体评估中,ChatGPT-4o表现最优(AS 4.01±0.81),显著优于ChatGPT-4o mini(3.21±1.02)和Gemini Advanced(3.42±1.16)(P<0.01)。特别是在"诊断"和"发病机制"领域,ChatGPT-4o准确率分别达4.19±0.78和4.28±0.47。
指南应答特性:针对2022 ACOG-PMOP指南问题,ChatGPT-4o与ChatGPT-4o mini表现显著优于Gemini Advanced(3.90±0.79/3.49±0.98 vs 2.56±0.90,P<0.05)。Gemini Advanced在"风险因素"领域表现突出(AS 4.09±0.79),但指南相关问题"优秀"回答率仅12.5%。
文本特征对比:Gemini Advanced回答最简洁(总音节409.90±168.96 vs ChatGPT-4o mini的562.56±230.88,P<0.01),但ChatGPT-4o可读性最佳(FRE 37.23±13.18)。自我修正实验中,所有模型修正后AS均显著提升(如ChatGPT-4o mini从1.78±0.15升至4.22±0.26,P<0.05)。
讨论部分指出,ChatGPT-4o的优异表现可能源于其针对医学领域的专项优化,包括术语处理和逻辑关系强化。研究首次证实AI-LLMs在PMOP领域可实现:1)提供符合指南的诊疗建议;2)生成易理解的患教材料(FRE多处于30-49"专家级"范围);3)通过自我修正机制提升回答可靠性。但Gemini Advanced在专业问题上的局限提示,不同模型的算法差异会导致专科应用场景的适应性分化。
该研究为AI辅助骨质疏松管理提供了重要循证依据,未来需进一步:1)扩大问题库覆盖临床复杂场景;2)开发专科优化提示词工程;3)探索多模态(如骨密度图像识别)整合应用。随着模型迭代,AI-LLMs有望成为缓解骨质疏松诊疗资源短缺、提升患者自我管理的有效工具,但需建立严格的临床验证机制确保应用安全性。
生物通微信公众号
知名企业招聘