Cochrane综述中人工智能辅助生成与人工生成的自然语言摘要的比较：一项随机非劣效试验（HIET-1）

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Journal of Clinical Epidemiology》：Comparison of AI-assisted and human-generated plain language summaries for Cochrane reviews: a randomised non-inferiority trial (HIET-1)

【字体：大中小】 时间：2025年12月17日 来源：Journal of Clinical Epidemiology 5.2

编辑推荐：

　　AI辅助生成与人类编写的Cochrane系统综述平语言摘要（PLS）在可读性、质量、安全性和可信度方面无显著差异，验证了人类监督AI生成PLS的非劣效性。研究采用随机对照试验，453名受试者通过在线平台完成评估，AI组与人类组在理解率（88.9% vs 89.0%）和信任评分（3.98 vs 3.91）均达标，但55.4%的人类生成摘要被误判为AI生成。年龄亚组分析显示存在交互效应（p=0.023）。

爱尔兰戈尔韦大学健康研究委员会-试验方法学研究网络（Health Research Board-Trials Methodology Research Network, University of Galway, Galway, Ireland）

摘要

目的

比较人工智能辅助生成与人工生成的通俗语言摘要（PLS）在可理解性、可读性、质量、安全性和可信度方面的差异，这些摘要用于Cochrane系统评价。

设计

随机、平行组、双臂、非劣效性试验（ISRCTN85699985）。

研究环境

在线调查平台，2025年9月。

参与者

年龄在18岁及以上的成年人，英语阅读能力至少达到7分（满分10分），通过Prolific平台招募。在500名筛选出的参与者中，有465人被随机分配到实验组，其中453人完成了全部分析。

干预措施

参与者被随机分配到三个使用ChatGPT生成并经过人工审核的人工辅助PLS组，或三个已发布的、由人工生成的Cochrane PLS组，这些PLS对应相同的Cochrane系统评价。

结果

主要评估指标：可理解性（10项问卷调查，非劣效性边际为10%）。次要评估指标：可读性、质量、安全性、可信度以及参与者对作者身份的认知。

结果

人工智能辅助组的平均可理解性得分为88.9%（n=228），人工生成组的平均可理解性得分为89.0%（n=225）（平均差异为-0.03个百分点，95%置信区间：-1.9%至2.0%）；置信区间的上限（2.0个百分点）未超过非劣效性边际，表明人工智能辅助生成的摘要在可理解性方面不逊于人工生成的摘要。Flesch-Kincaid分级测试显示两组之间没有显著差异（8.20 vs 8.38，p=0.722），但未达到统计学上的非劣效性标准（95%置信区间上限1.72超过了1.0级的差异）。人工智能辅助生成的摘要在Flesch阅读难度指数上得分更高（63.33 vs 50.00，p=0.008），而在Coleman-Liau指数上得分较低。所有摘要均符合预先设定的质量和安全性标准（两组均为100%）。可信度评分相当（3.98 vs 3.91，差异0.068，95%置信区间：-0.043至0.179）。参与者在区分摘要作者身份方面能力有限：56.3%的情况下能正确识别人工智能辅助生成的摘要，34.7%的情况下能正确识别人工生成的摘要（对于一个三选一的问题来说，这一比例与随机猜测的结果相近）；有55.4%的人工生成摘要被误认为是人工智能辅助生成的。探索性亚组分析显示年龄对结果有一定影响（p=0.023），但样本量较小（n=14，3%）。

结论

在人工监督下，人工智能辅助生成的PLS在可理解性方面不逊于人工生成的Cochrane摘要，且在质量、安全性和可信度方面表现相当。人工智能生成的摘要与人工生成的摘要几乎无法区分。试验前的审核发现了并纠正了数值错误，这证实了人工监督的必要性。这些发现支持在PLS生成过程中采用人工参与的人工智能工作流程，不过仍需正式评估这种方法在时间和资源方面的影响，以确定其相对于传统手动方法的效率优势。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号