综述:人工智能辅助诊断工具在人乳头瘤病毒相关宫颈癌、肛门癌及其癌前病变诊断中的性能评估:一项系统评价和荟萃分析
《Intelligent Oncology》:Performance evaluation of artificial intelligence–assisted diagnostic tools for human papillomavirus–related cervical and anal cancers and their precancerous lesions: A systematic review and meta-analysis
【字体:
大
中
小
】
时间:2025年10月18日
来源:Intelligent Oncology
编辑推荐:
HPV相关癌症的AI辅助诊断工具在检测高级别鳞状上皮内病变(HSILs)和癌症方面表现出优异的准确性(敏感性0.90-0.98,特异性0.85-0.97,AUC0.96-0.99),但存在显著异质性,可能与数据来源、模型架构及验证方法相关。未来需解决数据质量、算法透明性及临床转化挑战。
在当今医学领域,早期发现和诊断高危人乳头瘤病毒(HPV)相关的癌前病变和癌症对于有效预防这些疾病至关重要。本研究旨在系统地分析和整合现有文献中关于人工智能(AI)辅助诊断工具在HPV相关癌前病变和癌症检测中的诊断性能。通过遵循系统综述和诊断测试准确性(DTA)的首选报告项目指南,研究团队对PubMed、Embase、Web of Science、IEEE以及Cochrane图书馆中自2000年以来发表的文献进行了全面检索。研究对象包括那些用于宫颈或肛门癌前病变和癌症诊断的AI辅助阴道镜检查研究。研究采用修订版的诊断研究质量评估工具(QUADAS-2)和AI检查清单来评估偏倚风险。使用随机效应模型对诊断性能指标,如准确性、敏感性、特异性以及接收者操作特征(ROC)曲线下的面积(AUC)进行元分析。同时,通过子组分析和元回归分析来识别异质性的来源。最终纳入25项研究,其中21项聚焦于宫颈癌,4项涉及肛门癌。在区分低级别鳞状上皮内病变(LSIL)和高级别鳞状上皮内病变(HSIL)时,研究发现异质性显著,但元回归分析未能识别出任何显著的异质性来源。基于对现有文献的系统回顾,研究团队得出结论,AI辅助诊断工具在诊断HPV相关的宫颈和肛门癌前病变和癌症方面显示出有希望的预测性能。
宫颈癌是全球女性中第四大常见癌症,2022年全球约有66万例新发病例和35万例死亡病例。HPV感染是宫颈癌的主要诱因,而低风险HPV亚型通常不会导致严重的临床后果,但高风险HPV亚型具有致癌性。高风险HPV不仅与大多数的生殖器癌(如外阴癌、阴道癌、阴茎癌和肛门癌)相关,还与部分头颈癌(如舌癌、扁桃体癌和口咽癌)有关。近年来,肛门鳞状细胞癌的发病率在发达国家,如澳大利亚、加拿大、美国以及许多欧洲国家中显著上升。这种趋势主要归因于HPV感染的广泛传播。肛门癌的风险在不同人群中也存在差异,其中生活在HIV阳性人群中的人风险最高,其次是男同性恋者和跨性别女性。因此,早期检测和治疗高级别鳞状上皮内病变(HSILs)对于有效预防肛门和宫颈癌至关重要。
传统的宫颈癌筛查技术,如HPV DNA检测、宫颈细胞学检查以及醋酸试验(VIA),虽然被广泛应用,但存在诸多局限。这些方法通常需要实验室基础设施、较长的处理时间以及经验丰富的临床医生和病理学家的参与。同样,肛门癌筛查也面临类似的挑战。一项关于肛门细胞学检查的元分析显示,对于低级别鳞状上皮内病变(LSILs)和高级别病变(HSILs)的综合敏感性仅为0.61(95%置信区间为0.42-0.77)和0.27(0.10-0.52)。因此,有越来越多的共识认为,仅依靠肛门细胞学检查可能不足以提供准确的诊断,应当结合直接可视化技术,如高分辨率肛门镜(HRA),以提高诊断的准确性。HRA和阴道镜能够实时获取图像,从而有助于识别HSILs。高分辨率成像技术因其相较于传统方法更高的敏感性,被认为是检测HSILs和癌症的有前景的独立筛查工具。
国际肛门肿瘤学会的共识指南强调了在资源有限的环境中优先对高风险个体进行HRA转介的重要性,并倡导扩大HRA筛查基础设施。与这些指南一致,纽约州卫生部艾滋病研究所建议将HRA作为对异常肛门细胞学检查结果个体的标准护理。人工智能在HPV相关癌症的早期筛查和诊断中展现出巨大的潜力,提供了一种增强诊断精确度的策略,尤其在资源匮乏的地区具有变革性的意义。近年来,AI技术在宫颈癌诊断中的应用不断增长,不仅限于阴道镜检查,还包括用于自动分析宫颈涂片的细胞学系统,以及用于改善术前分期的磁共振成像。同时,肛门癌筛查中,HRA的使用也促进了对HPV相关肛门病变的快速和准确识别。高分辨率显微内镜技术的创新使得能够实时成像鳞状上皮细胞核,支持体内诊断并允许更有针对性的活检。
截至目前,已有大量研究探讨了AI在阴道镜和肛门镜图像分析中的应用。这些研究大多基于显微镜图像,使用组织病理学结果作为评估算法准确性的金标准。在本研究中,我们旨在系统地整合当前关于AI在检测HPV相关宫颈和肛门癌前病变和癌症方面的诊断性能的证据。研究团队采用了严格的筛选标准,确保纳入的研究能够有效评估AI算法在区分不同病变等级方面的性能,例如宫颈内上皮瘤样病变(CIN)等级≥2(CIN2+)与正常或良性情况的对比,以及肛门内上皮瘤样病变(AIN)等级≥2(AIN2+)与正常情况的对比。组织病理学结果被视为评估算法准确性的金标准,而对于阴性病例(正常或良性情况),则允许使用组织病理学、正常细胞学或正常阴道镜检查作为替代。
在数据收集和提取过程中,研究团队由一名审稿人(HY)从多个数据库中收集数据,并通过Endnote 20.0进行整理,去除重复项。两名审稿人(HY和ZL)独立评估所有文献,首先筛选标题和摘要,然后审查全文。在存在分歧时,咨询第三名审稿人(ZZ)进行仲裁。对于所有纳入研究,提取了包括出版信息(如标题、第一作者和出版年份)、使用的AI算法、参考金标准、纳入的患者数量、数据集规模和划分(训练、验证和测试数据)、以及算法性能等数据。部分研究没有直接提供混淆矩阵,因此研究人员从样本量、准确率、敏感性和特异性中推导出部分数据。其他主要结果包括准确率、敏感性、特异性、Youden指数、F1分数、AUC以及Kappa值。
为了确保清晰和一致性,研究中使用了特定的符号来表示疾病严重程度的阈值。例如,用“<”表示低于指定等级的病变,如“”表示严重程度低于CIN2的病变;用“?”表示低于或等于指定等级的病变,如“LSIL?”表示LSIL或更轻微的病变;用“+”表示高于或等于指定等级的病变,如“CIN2+”表示CIN2或更严重的病变。在病变等级中,“/”表示“或”,例如“”代表低于CIN2的病变。
研究质量评估采用的是QUADAS-AI清单,这是一种对QUADAS-2和QUADAS-C指南的扩展和修订。研究团队由两名审稿人(HY和ZL)独立评估所有纳入研究,使用参与者的选取、指数测试、参考标准和工作流程来评估研究中偏倚的风险。在参考标准方面,使用活检作为对照的研究被视为低偏倚风险。对于指数测试,大多数研究被认为具有较低的偏倚风险,但其中23项研究因缺乏外部验证而被认为是高偏倚风险。在应用性关注方面,88%的研究在患者选取方面被评为低风险,所有研究在指数测试方面被评为低风险,76%(19/25)的研究在参考标准的应用性方面也被评为低风险。
数据的分析包括对准确率、敏感性、特异性以及AUC的估计,这些结果以森林图的形式呈现,并采用Freeman-Tukey双反正弦变换(除AUC外)进行转换。进行了子组分析,以评估不同诊断阈值的研究,同时通过I2统计量评估统计异质性,I2值大于50%表示异质性显著。为了识别潜在的异质性来源,进行了子组和元回归分析。当子组研究数量小于3时,I2和P值被认为无效。研究团队通过总结的ROC图进行可视化,包括总结点、AUC、95%置信区间和预测轮廓。Deeks漏斗图用于检测潜在的发表偏倚,P值大于0.1表示没有发表偏倚。
元回归分析使用了相关的协变量,包括诊断阈值、数据来源的可访问性(公开数据源与非公开数据源)、多模态学习的采用、交叉验证的使用、卷积神经网络(CNN)或其扩展的应用、迁移学习的实施,以及是否使用组织学活检作为参考标准。所有协变量均与未使用特定技术的场景进行比较,例如“使用迁移学习”与“不使用迁移学习”作为对照。相对诊断优势比用于比较不同子组对诊断能力的影响,P值用于检验相对诊断优势比的统计显著性。所有元分析和额外分析均使用STATA 15(StataCorp LP,美国)和Meta-disc 1.4进行,显著性水平设定为0.05。
研究结果表明,AI辅助诊断工具在宫颈和肛门癌的诊断中表现出高准确性。对于宫颈癌,当区分CIN1+或LSIL+与正常细胞学检查结果的个体时,AI辅助工具的综合敏感性为0.91(95%置信区间为0.87–0.95),特异性为0.89(0.78–0.97),AUC为0.97(0.95–0.98),整体准确率为0.90(0.83–0.95)。相比之下,使用非公开数据集的研究表现相对较弱,敏感性为0.89(95%置信区间为0.86–0.92),特异性为0.85(0.80–0.90),AUC为0.87(0.83–0.91),准确率为0.88(0.82–0.89)。对于肛门癌,研究发现基于CNN的模型表现出较高的准确率,达到0.98,敏感性和特异性接近1(分别为0.97和0.99)。
研究团队还进行了关键性能指标的子组分析,以探讨不同研究因素对诊断性能的影响。对于宫颈癌,基于公开数据集的研究在综合敏感性、特异性和准确率方面均表现优异,分别为0.95(95%置信区间为0.90–0.99)、0.86–0.99和0.87–0.99。相比之下,使用非公开数据集的研究表现较弱,敏感性为0.89(95%置信区间为0.86–0.92),特异性为0.85(0.80–0.90),AUC为0.87(0.83–0.91),准确率为0.88(0.82–0.89)。对于肛门癌,尽管纳入的协变量中只有模型类型存在差异,但其他协变量保持一致。基于CNN的模型表现出较高的准确率,达到0.98,而敏感性和特异性接近1(分别为0.97和0.99)。
研究还发现,所有子组分析中均存在显著的异质性,I2值均超过50%。然而,元回归分析未能识别出任何显著的异质性来源,这可能归因于未报告或无法测量的因素。此外,大多数研究未进行外部验证,这可能导致过拟合,特别是在小规模或同质性数据集中,从而限制了AI性能在真正独立人群中的推广能力。这揭示了当前文献中的一个重要差距,并指出了未来研究的优先方向。
AI辅助诊断工具在宫颈和肛门癌的早期筛查和诊断中展现出显著的精确度,这为临床部署提供了重要价值。AI在癌症检测中的及时性和准确性是治疗结果的关键决定因素,AI在这些方面贡献显著。AI能够提供可扩展的诊断支持,其性能指标与专家临床医生相当,同时允许自动化和可重复性。然而,AI模型的可解释性仍然是一个关键问题。许多深度学习模型被视为“黑盒子”,缺乏对预测生成过程的透明度。这可能影响临床医生和患者对AI输出的信任,尤其是在需要诊断责任的情况下。因此,纳入系统不确定性量化和可解释性措施对于支持临床采用至关重要。
此外,AI在肛门癌研究中的应用相对较少,且大多数研究依赖于汇总统计数据而非原始混淆矩阵,这限制了对详细分析的进行。高异质性使得研究结果的整合变得复杂。尽管研究团队在元回归分析中纳入了所有可用的协变量,但未能发现任何显著的异质性来源,这可能是因为某些因素未被报告或无法测量。仅有两项研究实施了外部验证,而多数研究依赖于内部测试集,这可能导致性能估计被人为夸大。
综上所述,AI在HPV相关癌症的早期检测中具有重要潜力,但其广泛应用仍面临诸多挑战。包括数据质量、临床验证、算法偏差、健康不平等、法律和监管问题等。因此,未来的研究应更加关注AI在实际临床应用中的表现,评估其对临床结果的影响,如减少误诊、减少不必要的干预和降低复发率,并评估其在低收入和中等收入国家(LMICs)中的健康经济影响。此外,研究还应推动更严格的数据报告标准,如遵循医学影像中AI的报告检查表或诊断准确性-AI指南,倡导代码和模型共享,从而促进基于个体患者数据的元分析。同时,应致力于解决算法偏倚问题,从源头上设计公平、透明和可访问的AI工具,以确保其在不同人群中的有效性和可靠性。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号