编辑推荐:
这篇综述聚焦诊断准确性研究中专家小组作为参考标准的情况。通过系统检索,发现专家小组在组成、决策方式及报告质量上差异大。提出应优化设计、评估新技术与专家小组的相互作用,还需完善报告指南,为相关研究提供重要参考。
引言
在诊断准确性研究里,判断一项诊断测试或模型(诊断指标测试或模型)能否精准评估或预测目标疾病状态,需借助参考标准。当缺乏单一可靠的参考标准测试时,专家小组常被用于判定研究对象的目标疾病状况。专家小组一般由相关领域的医学专家组成,他们依据患者的多项信息(如病史、生物标志物检测结果、医学影像数据、随访数据等)来确定疾病情况,其诊断结果可用于计算诊断指标测试或模型的准确性指标 。
2012 年的一项综述显示,不同研究中专家小组的设计和分析方法差异显著,且多数研究未完整报告关键方法学信息 。此后,新的方法学指南不断涌现,人工智能在诊断测试或模型中的应用也日益广泛,这些都促使本研究对专家小组在诊断准确性研究中的应用进行更新和拓展。
方法
本研究是系统范围综述,在 PubMed 数据库检索 2012 年 6 月 1 日至 2022 年 10 月 1 日期间,以专家小组作为参考标准的原发性诊断测试或模型准确性研究。检索词涵盖专家小组、共识诊断、诊断准确性及相关常用测量指标等。
纳入标准为:以专家小组作为参考标准评估诊断指标测试或模型的准确性,且研究以英文、荷兰文或德文发表。排除标准为:全文不可获取或涉及非人类研究对象(如动物)。
数据提取先经 20 篇随机抽取的合格文章试点,再由作者团队讨论完善。由一位作者(BK)提取所有纳入文章的数据,存疑时咨询另一位作者(MK),并由初级研究人员抽查 30 篇文章。提取内容包括研究基本特征、专家小组特征及评估和决策方法。
统计分析对二分和分类结果用百分比描述,连续结果用中位数和四分位数间距描述,并绘制直方图展示。依据专家小组的组成和决策过程,归纳出 4 种主要类型。
结果
检索共得到 4078 项研究,经筛选后 318 项纳入数据提取和分析。
常见的医学领域有肿瘤学(20%)、心脏病学(16%)、传染病学(14%)等。31% 的研究中,指标测试或模型为软件工具(如人工智能或机器学习工具)。研究参与者中位数为 139 人,25% 分位数为 68 人,75% 分位数为 351 人 。
专家小组中专家数量 1 - 20 人不等,中位数为 3 人 。多数研究(46%)使用 3 名专家,13% 的研究未报告专家数量。超 75% 的研究中,同一批专家评估所有参与者;13% 的研究涉及从更大专家库中选取部分专家组成小组,但 12% 的研究未明确报告评估方式。18% 的研究将指标测试或模型结果纳入提供给专家小组的信息中。4% 的研究使用预标记数据,即专家小组在诊断准确性研究前已评估过目标疾病状态。至少 8% 的研究采用差异验证,即不同参与者的参考标准不同。约 5% 的研究要求专家表明对诊断结果的确定程度。
专家小组分为 4 种类型:独立型(33%),专家独立评估并决策,结果依预设规则汇总;共识型(27%),专家共同讨论达成一致;分阶段型(11%),先独立评估,有分歧时共同讨论;决胜型(8%),独立评估有分歧时,由另一位专家裁决 。21% 的研究未明确报告专家小组的决策方式。
讨论
本综述发现,诊断测试或模型研究中专家小组的应用在背景、组成和使用方式上存在很大差异。许多研究未报告专家小组的关键特征和方法,影响研究的可重复性、质量评估及偏差风险判断。
将指标测试或模型结果提供给专家小组,可能导致纳入偏差,但不提供又可能影响诊断准确性。部分研究排除专家意见不一致的参与者,会高估指标测试或模型的准确性。仅 4% 的研究收集专家对每个参与者诊断的不确定性信息,这有助于更准确地估计诊断测试准确性指标,相关计算方法仍在发展中。
本研究有优势也有局限。优势在于概述了专家小组应用趋势,探讨了以往未关注的方面;局限是未全面检索所有文献,结果仅适用于诊断测试或模型研究,在其他研究或临床环境中可能不适用。
基于本综述,未来研究方向如下:一是缺乏专家小组程序的最佳设计指导,需综合考虑成本、专家时间、医学背景、疾病评估难度和不确定性等因素;二是随着大数据和人工智能在诊断准确性研究中的应用,需评估它们与专家小组的相互作用;三是强烈建议统一规范专家小组在诊断测试或模型研究中的使用报告方式,当前报告指南需针对专家小组进行拓展。总之,本综述凸显了在诊断准确性研究中准确分类目标疾病状态的重要性和挑战 。