
-
生物通官微
陪你抓住生命科技
跳动的脉搏
大型语言模型(LLM)与医师撰写出院小结的对比研究:质量、安全性与临床辅助潜力
【字体: 大 中 小 】 时间:2025年05月07日 来源:JAMA Internal Medicine 22.3
编辑推荐:
为解决临床文档负担与出院小结质量平衡问题,来自加州大学旧金山分校的研究人员开展了一项横断面研究,对比大型语言模型(LLM)与医师生成的出院小结叙事质量。结果显示:LLM生成文本在整体质量(3.67 vs 3.77, P=0.21)和审阅者偏好(χ2=5.2, P=0.27)上与医师相当,虽错误率较高(2.91 vs 1.82/篇),但潜在危害评分均<1(0.84 vs 0.36),证实LLM辅助临床文档的可行性。
这项发表在《美国医学会杂志》上的研究犹如一场"人机写作大赛",科学家们让大型语言模型(LLM)和资深住院医师同台竞技,各自为100份住院病历(2019-2022年)撰写出院小结。22位"裁判"医师蒙着眼睛(盲法评估)给双方作品打分,结果令人惊喜又带点小意外。
在5分制评分中,AI选手以3.67分紧咬人类选手的3.77分(P=0.21),就像两个学霸的期末成绩难分伯仲。AI写的摘要更像个干练的秘书——文字简洁(4.01 vs 3.70, P<0.001)、条理清晰(4.16 vs 4.01, P=0.02),但偶尔会漏掉些细节(全面性3.72 vs 4.13)。不过它也有"马虎"的时候,平均每篇比人类多犯1个错(2.91 vs 1.82),好在这些错误就像门诊的小擦伤——根据医疗安全(AHRQ)7分量表评估,AI和人类的单个错误危害度都是1.35分,最严重的错误也仅相当于"可能造成永久伤害"(≥4分的错误:AI 6处 vs 人类5处)。
研究者们眨着眼睛说:看来让AI当住院医的"智能速记员"挺靠谱!只要人类医师最后把关,这些会"码字"的算法说不定能帮白衣战士们从文书海洋里探出头喘口气。毕竟在医疗这个性命攸关的领域,人机协作才是王道——就像手术台上的主刀和助手,各展所长才能创造最佳疗效。
生物通微信公众号
知名企业招聘