
-
生物通官微
陪你抓住生命科技
跳动的脉搏
基于大语言模型的患者自述症状分类系统在美国医疗体系中的开发与应用
【字体: 大 中 小 】 时间:2025年07月02日 来源:npj Digital Medicine 12.4
编辑推荐:
本研究针对美国医疗系统每月高达2亿次的网站访问需求,开发了一种结合深度神经网络与大语言模型(GPT-4)的多标签分类系统。研究人员通过标注48,000余条患者自述数据,构建了包含504个症状类别的训练集,最终实现的分类器在主要症状识别上达到0.9的F值,并成功部署至覆盖全美50州的15个医疗系统。特别值得注意的是,GPT-4在提供主症状列表时表现出与专用模型相当的分类性能(准确率0.80),同时证明其在补充监督模型未识别症状方面的价值。这项全国性研究首次系统揭示了患者在线症状查询的分布特征,为优化数字医疗导航提供了重要依据。
在数字化医疗时代,美国医疗系统每月面临高达2亿次的网站访问量,其中约7%的搜索与健康问题相关——相当于每天超过10亿次健康相关查询。尽管过去十年数字健康技术飞速发展,但如何准确理解患者通过自由文本描述的症状需求,并将其精准匹配到相应诊疗流程,始终是医疗信息系统面临的重大挑战。传统方法存在分类精度不足、覆盖症状有限等问题,而新兴的大语言模型(LLM)在医疗场景中的应用效果尚未得到充分验证。
针对这一现状,由Clearstep公司主导的多机构研究团队在《npj Digital Medicine》发表了一项突破性研究。研究人员收集了全美15个医疗系统的患者搜索数据,构建了包含48,383条标注记录的专用数据集,涵盖504种临床症状类别。通过结合循环卷积神经网络(RCNN)和密集连接层,开发出高性能的多标签分类系统。令人振奋的是,当提供主症状列表时,GPT-4展现出与专用模型相当的分类能力,为自动化医疗信息处理开辟了新途径。
研究采用了三项关键技术方法:(1)从15个医疗系统网站获取患者自由文本输入,由临床专家团队进行多标签标注,建立含504个症状类别的黄金标准数据集;(2)构建深度神经网络架构,包含词嵌入层、双向LSTM和GRU层,采用sigmoid激活函数输出多标签概率;(3)设计"患者参与循环"机制,通过实时确认和人工强化学习持续优化模型,并对比评估GPT-4在补充分类和自动标注方面的表现。
【数据集特征】分析显示,患者查询呈现显著的长尾分布特征:62%查询包含单一症状,19%包含两个症状。前24个高频症状(如发热、头痛、咽痛等)覆盖了50%的查询量,而214个症状即可覆盖90%的查询。

【模型性能】监督模型在主要症状分类上表现优异:对前24个症状的F值达0.80,前91个症状为0.73。随着类别增加,性能逐渐降至0.70左右。通过分析正确与错误分类的概率分布,确定0.46作为展示阈值,确保95%置信区间无重叠。

【实际部署】该系统在2020-2024年间完成887,640次分类,覆盖全美50州。46.23%查询被识别为单一症状,50.09%为多症状,仅3.68%无法分类。在佛罗里达州的应用案例显示,该技术将护士分诊等待时间从32分钟降至正常水平,每次交互成本仅3.92美元,远低于传统呼叫中心的20-40美元。
【LLM对比】提供主症状列表时,GPT-4与监督模型性能相当(准确率均为0.80)。但在标注监督模型未识别查询时,GPT-4表现波动较大:21%症状类别在所有指标上表现优异(>0.75),但27%类别表现欠佳。

这项研究标志着医疗自然语言处理领域的重要突破。首先,它建立了迄今为止最全面的患者自述症状数据集,系统揭示了查询分布特征;其次,验证了专用模型与LLM的互补价值——前者擅长高频症状分类,后者可补充长尾需求;最后,通过实际部署证明该技术能显著提升医疗效率,如佛罗里达案例中成功识别出COVID-19危重患者。研究也存在一定局限,如对罕见症状(约100类)覆盖不足,且模型性能受患者年龄、性别和地域影响。未来工作可探索LLM辅助的持续学习机制,以应对医学概念漂移问题,同时进一步扩大症状覆盖范围。这项成果为构建更智能、响应更迅速的医疗信息系统奠定了坚实基础。
生物通微信公众号
知名企业招聘