《Journal of Clinical Epidemiology》:Comparison of AI-assisted and human-generated plain language summaries for Cochrane reviews: a randomised non-inferiority trial (HIET-1)
编辑推荐:
AI辅助生成与人类编写的Cochrane系统综述平语言摘要(PLS)在可读性、质量、安全性和可信度方面无显著差异,验证了人类监督AI生成PLS的非劣效性。研究采用随机对照试验,453名受试者通过在线平台完成评估,AI组与人类组在理解率(88.9% vs 89.0%)和信任评分(3.98 vs 3.91)均达标,但55.4%的人类生成摘要被误判为AI生成。年龄亚组分析显示存在交互效应(p=0.023)。
德克兰·德瓦恩(Declan Devane)|乔安娜·波普(Johanna Pope)|保拉·伯恩(Paula Byrne)|埃文·福特(Evan Forde)|伊莎贝尔·奥伯恩(Isabel O’Byrne)|史蒂文·沃洛辛(Steven Woloshin)|艾琳·库洛蒂(Eileen Culloty)|达伦·达利(Darren Dahly)|英格博格·赫斯·埃尔格斯玛(Ingeborg Hess Elgersma)|希瑟·芒特-卡斯(Heather Munthe-Kaas)|康纳·贾奇(Conor Judge)|马丁·奥唐奈(Martin O’Donnell)|芬恩·克鲁尔(Finn Krewer)|桑德拉·加尔文(Sandra Galvin)|尼基塔·N·伯克(Nikita N. Burke)|特蕾莎·蒂尔尼(Theresa Tierney)|K.M. 赛夫-乌尔-拉赫曼(K.M. Saif-Ur-Rahman)|汤姆·康威(Tom Conway)|詹姆斯·托马斯(James Thomas)
爱尔兰戈尔韦大学健康研究委员会-试验方法学研究网络(Health Research Board-Trials Methodology Research Network, University of Galway, Galway, Ireland)
摘要
目的
比较人工智能辅助生成与人工生成的通俗语言摘要(PLS)在可理解性、可读性、质量、安全性和可信度方面的差异,这些摘要用于Cochrane系统评价。
设计
随机、平行组、双臂、非劣效性试验(ISRCTN85699985)。
参与者
年龄在18岁及以上的成年人,英语阅读能力至少达到7分(满分10分),通过Prolific平台招募。在500名筛选出的参与者中,有465人被随机分配到实验组,其中453人完成了全部分析。
干预措施
参与者被随机分配到三个使用ChatGPT生成并经过人工审核的人工辅助PLS组,或三个已发布的、由人工生成的Cochrane PLS组,这些PLS对应相同的Cochrane系统评价。
结果
主要评估指标:可理解性(10项问卷调查,非劣效性边际为10%)。次要评估指标:可读性、质量、安全性、可信度以及参与者对作者身份的认知。
结果
人工智能辅助组的平均可理解性得分为88.9%(n=228),人工生成组的平均可理解性得分为89.0%(n=225)(平均差异为-0.03个百分点,95%置信区间:-1.9%至2.0%);置信区间的上限(2.0个百分点)未超过非劣效性边际,表明人工智能辅助生成的摘要在可理解性方面不逊于人工生成的摘要。Flesch-Kincaid分级测试显示两组之间没有显著差异(8.20 vs 8.38,p=0.722),但未达到统计学上的非劣效性标准(95%置信区间上限1.72超过了1.0级的差异)。人工智能辅助生成的摘要在Flesch阅读难度指数上得分更高(63.33 vs 50.00,p=0.008),而在Coleman-Liau指数上得分较低。所有摘要均符合预先设定的质量和安全性标准(两组均为100%)。可信度评分相当(3.98 vs 3.91,差异0.068,95%置信区间:-0.043至0.179)。参与者在区分摘要作者身份方面能力有限:56.3%的情况下能正确识别人工智能辅助生成的摘要,34.7%的情况下能正确识别人工生成的摘要(对于一个三选一的问题来说,这一比例与随机猜测的结果相近);有55.4%的人工生成摘要被误认为是人工智能辅助生成的。探索性亚组分析显示年龄对结果有一定影响(p=0.023),但样本量较小(n=14,3%)。
结论
在人工监督下,人工智能辅助生成的PLS在可理解性方面不逊于人工生成的Cochrane摘要,且在质量、安全性和可信度方面表现相当。人工智能生成的摘要与人工生成的摘要几乎无法区分。试验前的审核发现了并纠正了数值错误,这证实了人工监督的必要性。这些发现支持在PLS生成过程中采用人工参与的人工智能工作流程,不过仍需正式评估这种方法在时间和资源方面的影响,以确定其相对于传统手动方法的效率优势。