慢性病管理中AI聊天机器人的质量、安全性与公平性:基于模拟患者的实验研究
【字体:
大
中
小
】
时间:2025年09月26日
来源:npj Digital Medicine 15.1
编辑推荐:
本文针对中低收入国家(LMICs)慢性病诊疗质量低下问题,通过模拟患者(SPs)实验设计,系统评估了中文AI聊天机器人ERNIE Bot在冠心病和哮喘管理中的表现。研究发现ERNIE Bot诊断准确率达77.3%,药物处方正确率94.3%,但存在过度检查(91.9%)和过度用药(57.8%)风险,并发现其服务存在基于年龄和经济状况的差异。研究为AI在基层医疗中的应用提供了重要循证依据,对推动数字医疗公平发展具有里程碑意义。
在全球医疗卫生领域,非传染性慢性病(NCDs)正成为中低收入国家(LMICs)面临的重大挑战。2019年全球约4100万(74%)死亡案例归因于慢性病,其中心血管疾病(CVDs)造成1790万人死亡,慢性呼吸系统疾病导致410万人死亡。更令人担忧的是,这些死亡案例中77%发生在LMICs地区。随着人口老龄化和生活方式改变,发展中国家慢性病患病率持续上升,但诊断不足和管理不善的问题依然突出,导致大量可避免的死亡事件发生。
在资源有限的基层医疗机构中,这一问题尤为严重。印度农村地区四分之三的初级保健求助者选择非正规医疗提供者;中国研究发现仅约四分之一慢性病诊断和三分之一药物处方符合临床指南标准;加纳、肯尼亚和越南等发展中国家同样面临医疗质量低下的困境。基层医生往往缺乏必要的资源、培训和支持,农村地区医疗设施和人员短缺更是雪上加霜。
生成式人工智能的兴起为改善医疗可及性带来新机遇。与传统临床决策支持系统不同,生成式AI工具可公开获取,能跨越地理和机构边界提供健康信息。研究表明AI在部分心血管疾病和骨科疾病管理中展现潜力,患者、公众和医疗提供者对这些服务也表现出积极态度。然而,AI在初级保健场景中诊断和管理常见慢性病的性能表现,尤其在LMICs环境下的评估仍然匮乏。
在此背景下,西安交通大学等机构的研究团队在《npj Digital Medicine》发表了创新性研究,通过模拟患者(SPs)实验方法,对中国主流AI聊天机器人ERNIE Bot在慢性病管理中的质量、安全性和公平性进行了全面评估。
研究采用标准化模拟患者方法,由训练有素的SPs使用预设脚本与ERNIE Bot 3.5进行交互,创建384次独立咨询试验。通过对比最新临床指南,从诊断准确性、处方适当性、检查必要性和药物安全性等维度建立评估体系,并分析了患者年龄、性别、经济状况、户籍类型、居住地和医保类型等六大社会人口学因素对AI诊疗行为的影响。
研究结果显示,ERNIE Bot在诊断准确性方面表现突出,整体达到77.3%,其中不稳定型心绞痛诊断准确率76.6%,哮喘诊断准确率78.1%。药物处方正确率更是高达94.3%,显著优于中国基层医生25%的诊断准确率和10%的处方正确率。与ChatGPT-4o和DeepSeek-R1等国际先进模型相比,ERNIE Bot在保持较高诊断性能的同时,展现了本土化适应的优势。
然而,安全性指标揭示出严重问题。ERNIE Bot平均每次咨询要求2.96-3.23项实验室检查,开具4.09种药物,其中91.9%的检验请求和57.8%的药物处方被判定为不必要或不适当。这种过度医疗倾向在ChatGPT-4o(92.5%不必要检验,67.5%不适当处方)和DeepSeek-R1(100%不必要检验,60%不适当处方)中同样存在,表明这可能是大型语言模型(LLMs)的共性问题。
更值得关注的是,研究发现AI诊疗行为存在明显的社会经济差异。65岁老年患者相比55岁患者获得正确诊断的概率高出9.8%,但同时也接受更多不必要的药物治疗;经济富裕患者比较贫困患者被要求更多实验室检查(3.26 vs 2.93项)和药物处方(4.45 vs 3.73种);拥有职工医保(UEMI)相比居民医保(URRMI)患者也获得更多药物。这种差异模式折射出现实医疗环境中资源分配不均的问题在AI系统中的再现。
在方法学方面,研究采用模拟患者标准化评估、多维度质量安全指标体系、社会人口学因素控制实验、以及多模型对比分析等关键技术,确保了研究结果的科学性和可靠性。
研究结果部分显示,ERNIE Bot对标准完整检查表的总体依从性为14.5%,对基本检查表的依从性为20.3%,在不稳定型心绞痛管理中的表现优于哮喘。多变量回归模型证实,年龄和经济状况是影响AI诊疗行为的关键因素,而性别、户籍和居住地等因素未呈现显著差异。
与人类医生和其他AI模型的对比研究发现,虽然ERNIE Bot、ChatGPT和DeepSeek在诊断准确性方面优于基层医生,但过度处方倾向更为明显。敏感性分析表明,即使仅考虑AI的首选诊断和首选用药,其性能仍显著优于人类医生。
讨论部分指出,ERNIE Bot展现出的高诊断准确性表明其有望解决LMICs地区医疗质量低下问题,但低检查表依从性引发了对AI决策透明度和可追溯性的担忧。过度医疗问题可能源于训练数据中对全面性而非适当性的偏好,以及缺乏现实世界的问责机制。社会经济差异的发现强调需要将伦理考量融入AI设计过程,避免加剧现有健康不平等。
研究者建议,未来AI医疗工具开发应优先考虑可解释性、交互探测能力,建立人类监督机制,并在部署前进行严格的情境特异性评估。同时需要开发自动对齐解决方案和最佳实践工具包,通过利益相关方工作坊和聊天机器人重测周期进行共同设计和迭代改进。
该研究作为首项在资源有限环境下对生成式AI聊天机器人进行标准化实证评估的研究,为数字医疗发展提供了重要基准。研究结果表明,AI聊天机器人在扩展医疗可及性的同时,如果缺乏适当保障措施可能引入新的风险。未来的AI系统开发和整合应优先考虑以公平为中心的设计、可解释性、严格的情境特异性验证和持续的人类监督,确保AI聊天机器人能够安全、伦理地为加强全球卫生系统做出贡献。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号