《JACC: Cardiovascular Interventions》:Performance of Large Language Models on the Acute Coronary Syndrome Guidelines Using Retrieval-Augmented Generation
编辑推荐:
嵌入指南的检索增强生成显著提升LLM在急性冠脉综合征临床决策中的准确性,DeepSeek R1和ChatGPT-4o经RAG优化后分别达到94.7%和92.1%的指南符合率,较非优化模型提升显著。
米凯拉·亚历山德鲁(Michaella Alexandrou)|桑特·库马尔(Sant Kumar)|阿伦·乌梅什·马塔尼(Arun Umesh Mahtani)|迪米特里奥斯·斯特雷普科斯(Dimitrios Strepkos)|佩德罗·E.P. 卡瓦略(Pedro E.P. Carvalho)|德尼兹·穆特卢(Deniz Mutlu)|奥兹古尔·塞利姆·塞尔(Ozgur Selim Ser)|阿萨纳西奥斯·伦帕科斯(Athanasios Rempakos)|奥尔加·C. 马斯特罗德莫斯(Olga C. Mastrodemos)|巴瓦纳·V. 兰甘(Bavana V. Rangan)|桑迪普·贾利(Sandeep Jalli)|亚德尔·桑多瓦尔(Yader Sandoval)|埃马努伊尔·S. 布里拉基斯(Emmanouil S. Brilakis)
美国明尼苏达州明尼阿波利斯市明尼阿波利斯心脏研究所及明尼阿波利斯心脏研究所基金会,雅培西北医院(Minneapolis Heart Institute and Minneapolis Heart Institute Foundation, Abbott Northwestern Hospital, Minneapolis, Minnesota, USA)
摘要
背景
大型语言模型(LLMs)在介入心脏病学中的应用日益广泛,但幻觉现象限制了它们的临床实用性。
目的
本研究旨在评估“检索增强生成”(Retrieval-Augmented Generation, RAG)技术对LLMs的影响。该技术允许LLMs在生成回答时访问指南内容,从而提高基于急性冠状动脉综合征指南的问答准确性。
方法
使用38个基于心脏病学指南的开放式问题及答案,比较了ChatGPT-4o、DeepSeek R1和Med-PaLM 2的准确性。ChatGPT-4o和DeepSeek R1分别在有无RAG的情况下进行了评估,而Med-PaLM 2作为专门针对医学领域的LLM,则在没有RAG的情况下进行了测试。模型输出结果通过人工智能驱动的相似度评分工具与指南建议进行了对比。
结果
采用RAG技术的DeepSeek R1取得了最高的准确性(94.7%;95%置信区间:82.7%-98.5%),其次是使用RAG的ChatGPT-4o(92.1%;95%置信区间:79.2%-97.3%)(P = 0.922)。未使用RAG的ChatGPT-4o的准确率为71.1%(95%置信区间:55.2%-83.0%),而使用RAG后准确性显著提高(P = 0.017)。在未使用RAG的模型中,DeepSeek R1的准确性最高(78.9%;95%置信区间:63.7%-88.9%),其次是未使用RAG的ChatGPT-4o(71.1%)(P = 0.083)。Med-PaLM 2的准确性最低(68.4%;95%置信区间:52.5%-80.9%)。斯皮尔曼相关性分析显示,未使用RAG的DeepSeek R1与Med-PaLM 2之间存在强相关性(r = 0.646;95%置信区间:0.411-0.800;P < 0.001),表明两者的回答模式相似。散点图分析进一步表明,RAG技术对DeepSeek R1中得分较低的问题改善更为显著,而在ChatGPT-4o中则改善较为均匀。
结论
通过RAG将指南内容嵌入LLM的工作流程中,可以提高LLMs在临床应用中的准确性,尤其是在介入心脏病学中常见的场景下。这些结果表明,当LLMs具备领域特定知识后,能够优化临床决策并提高与指南的一致性。
部分内容摘录
方法
我们旨在比较不同LLMs在回答心脏病学指南相关开放式问题时的准确性,特别关注RAG对性能的影响(中心图示)。我们从2020年欧洲心脏病学会(ESC)关于无持续ST段抬高患者急性冠状动脉综合征(ACS)管理指南的配套文件中整理了38个开放式问题及答案。16这些问题专门设计用于补充...
结果
在将指南内容通过RAG嵌入模型后,DeepSeek R1的准确性从78.9%(38个问题中答对30个)提升至94.7%(95%置信区间:82.7%-98.5%;38个问题中答对36个)(表1)。对于ChatGPT-4o,未嵌入指南时的准确率为71.1%(95%置信区间:55.2%-83.0%;38个问题中答对27个),而嵌入指南后准确率提升至92.1%(95%置信区间:79.2%-97.3%;38个问题中答对35个);Med-PaLM 2的准确率最低,为68.4%(95%置信区间:52.5%-80.9%;38个问题中答对26个)。
讨论
我们的研究表明,RAG技术显著提高了ChatGPT-4o的准确性(从71.1%提升至92.1%),而对于DeepSeek R1,这种提升在初始得分较低的问题上更为明显。在未使用RAG的模型中,DeepSeek R1的表现优于ChatGPT-4o和Med-PaLM 2,取得了最高的准确性(78.9%)。尽管DeepSeek R1与未使用RAG的ChatGPT-4o之间的差异在统计学上不显著...
结论
我们的研究表明,当相关指南被嵌入RAG系统时,DeepSeek R1和ChatGPT-4o在回答开放式心脏病学问题时的表现更好。将领域特定知识(如临床指南)嵌入LLMs中,可以解决当前的一些局限性,并显著提升它们支持临床决策的能力。未来的研究应重点优化LLMs在心脏病学领域的应用,以确保最高的准确性、透明度和公平性。
资金支持与作者披露
桑多瓦尔博士报告了以下利益关系:雅培公司(顾问、顾问委员会成员、演讲者)、CathWorks公司(顾问、演讲者)、Cleerly公司(顾问、研究资助方)、GE医疗公司(顾问、顾问委员会成员、演讲者)、美敦力公司(顾问、演讲者)、飞利浦公司(顾问、顾问委员会成员、演讲者)、罗氏诊断公司(顾问、顾问委员会成员、演讲者)和Zoll公司(顾问委员会成员);同时他是《JACC Advances》杂志的副主编。他和其他人共同持有专利20210401347。
致谢
作者感谢两位慷慨的匿名捐赠者以及玛丽·安(Mary Ann)和唐纳德·A·森斯(Donald A. Sens)博士、雷蒙德·埃姆斯(Raymond Ames)和芭芭拉·桑代克(Barbara Thorndike)博士、弗兰克·J·和埃莉诺·A·马斯洛夫斯基慈善信托基金(Frank J. and Eleanor A. Maslowski Charitable Trust)、黛安和克莱因·希科克(Diane and Dr Cline Hickok)、玛丽莲和威廉·赖尔塞(Marilyn and William Ryerse)、格雷格和罗达·奥尔森(Greg and Rhoda Olsen)、威尔玛和戴尔·约翰逊(Wilma and Dale Johnson)、夏洛特夫人和杰里·戈林沃克斯先生家庭基金(Mrs Charlotte and Mr Jerry Golinvaux Family Fund)、罗尔家族基金会(Roehl Family Foundation)等机构的慈善支持。