编辑推荐:
为解决医学文献增长带来的综述难题,研究人员对比 LLM 与人类撰写的临床综述,发现差异并评估检测系统。
在医学研究的快速发展进程中,每天都有海量的新研究成果和临床试验涌现。这使得医学知识体系如滚雪球般不断膨胀,对医疗专业人员和研究人员来说,想要跟上这一知识增长的步伐,犹如逆水行舟,困难重重。在这样的背景下,临床综述就显得尤为重要,它能整合众多研究的证据,为临床实践提供指导,指明未来研究方向。然而,传统的手动撰写临床综述的方式,就像手工打造一件复杂的工艺品,既耗费大量人力,又难以跟上科学发现的迅猛节奏。
为了解决这一困境,大语言模型(LLMs)凭借其在自然语言处理方面的强大能力,逐渐进入了医学研究人员的视野,有望自动化临床综述过程。这些模型,如 OpenAI 的 ChatGPT-3.5,一经推出便引发了广泛关注,在医疗咨询、信息整理和医院管理等多个领域展现出巨大潜力。但 LLMs 生成的临床综述也面临诸多质疑,比如可靠性存疑,生成内容的质量严重依赖训练数据,若数据有偏差或不完整,综述可能出现错误或遗漏关键信息;在学术引用方面,存在虚假引用和编造参考文献等问题。此外,现有检测系统对 AI 生成内容的检测效果也有待验证。
为了深入探究这些问题,北川医学院、电子科技大学和格拉斯哥大学合作开展了一项横断面试点研究。研究成果发表在《npj Digital Medicine》上。该研究旨在系统评估现有平台生成的临床综述与人类撰写的临床综述之间的差距,并测试现有检测系统和 AIGC 测试在拦截生成稿件方面的有效性。
研究人员采用了多种关键技术方法。首先,精心筛选了来自《新英格兰医学杂志》(NEJM)、《柳叶刀》(The Lancet)、《英国医学杂志》(BMJ)和《美国医学会杂志》(JAMA)等顶尖医学期刊的临床综述作为样本。然后,基于多种主流的综述生成平台和模型,利用客观法和大纲法生成相关综述。在评估过程中,采用主观和客观指标相结合的方式,运用专业工具检测抄袭率和 AIGC 检测率,并通过统计学分析确保结果的可靠性。
研究结果如下:
- 生成临床综述的基线特征:研究共生成 2439 篇临床综述,经筛选后,2169 篇纳入分析,涵盖多个系统。
- 总体概述:专家在各主观指标评价上一致性较高。AI 生成的临床综述在基本质量方面,段落、参考文献较少,全面性、真实性和准确性欠佳,主观指标表现也逊于人类撰写的综述。在参考文献分布上,AI 文章近五年参考文献占比较高,但高影响因子和高 CiteScore 文章占比低,不过引用率与人类无差异。在学术出版风险方面,AI 的抄袭检测率低,AIGC 检测率波动大。
- 文章基本质量:与人类撰写的综述相比,AI 临床综述段落数(AI:13.000 [7.000, 83.000],Human:36.000 [29.000, 48.000])、参考文献数量(AI:20.000 [8.000, 78.000],Human:87.000 [71.000, 115.000])、参考文献全面性(AI:0.367 [0.055, 2.041],Human:2.113 [0.723, 4.285])、真实性(AI:100.000 [70.550, 100.000],Human:100.000 [100.000, 100.000])和准确性(AI:100.000 [73.550, 100.000],Human:100.000 [100.000, 100.000])均较低,在语言质量、参考评价深度、逻辑能力、创新能力和总体质量等主观指标上也表现较差。
- 参考文献分布:AI 综述近五年参考文献占比相对较高(AI:46.700 [37.800, 67.100],Human:36.905 [25.000, 54.054]),但在 JCR 分区 Q1 部分参考文献占比(AI:34.300 [25.600, 44.898],Human:60.355 [47.959, 70.370])、高影响因子参考文献占比以及高 CiteScore 参考文献占比均较低。
- 参考文献质量:AI 与人工撰写的综述在所有参考文献的累积引用和平均每篇参考文献的引用次数上无显著差异。
- 学术出版风险:AI 的抄袭检测率低,为 28.000 [16.000, 45.000]。AIGC 检测中,人类撰写的综述 AI 检测率低于 AI 生成的综述,且 AI 生成综述的 AI 检测率波动大(8 - 100)。
- 亚组分析:不同期刊来源的 AI 生成综述在基本质量和参考文献分布上存在差异;不同临床领域,AI 存在一定偏向;采用大纲法生成的综述在字数、段落数和参考文献数上增加,主观质量维度有所提升,但引用分布存在偏差;不同 AI 平台和模型在基本质量、参考文献分布和引用质量上各有特点。
研究结论和讨论部分指出,该研究首次系统比较了人类撰写和 AI 生成的临床综述,并对 AI 生成临床综述的出版风险进行评估。结果表明,AI 生成的临床综述在多数基本质量指标和主观标准上存在不足,现有检测系统面临挑战。未来需在提升综述质量和改进检测系统方面寻求突破。对于医学研究人员而言,AI 工具虽有帮助,但应谨慎使用;AI 初创公司需优化模型,平衡成本与质量;出版商应探索新的评估方式。同时,研究也存在局限性,未来研究应综合考虑 LLMs 综述的迭代发展和检测系统的改进。
这项研究为医学研究人员、AI 开发者和出版商提供了重要参考,有助于推动大语言模型在医学领域的合理应用,保障学术研究的可靠性和公正性。