编辑推荐:
本文系统综述了基于人工智能(AI)的性健康、生殖健康和心理健康(SRMH)风险评估工具的研究进展。
引言
性传播感染(STIs)、HIV 以及心理健康问题是全球健康面临的重大挑战。在性健康和生殖健康方面,每天有超百万人感染 STI,青少年受影响最大。低收入和中等收入国家(LMICs)的生殖健康状况严峻,每年有大量青少年生育,众多女性存在未满足的计划生育需求,由此引发的意外怀孕、不安全堕胎等问题,严重威胁着女性健康。在心理健康领域,全球 70% 的人无法获得良好的心理健康护理,LMICs 的情况更为糟糕,专业心理健康人员匮乏,导致患者难以得到有效治疗。
随着人工智能(AI)技术的发展,其在医疗保健领域展现出巨大潜力。AI 可用于开发分诊系统、症状检查器和风险预测模型等工具,这些工具能分析大量数据,帮助医护人员更好地评估患者风险,优化资源分配,做出更准确的临床决策。而且,性健康、生殖健康和心理健康紧密相关,AI 工具在这三个领域具有跨域应用的潜力。然而,目前针对这三个领域的 AI 风险评估工具的开发和应用存在不足,缺乏对其跨域适用性、有效性和伦理考量的深入分析。本综述旨在填补这些空白,综合现有文献,探讨 AI 在性健康、生殖健康和心理健康风险评估工具中的应用现状、挑战及未来发展方向。
方法
- 文献检索:依据 PRISMA - P 方法,从 ACM 数字图书馆、Science Direct、Sage、Springer、IEEE Xplore、Wiley 和 PubMed 这 7 个数据库中检索 2018 - 2023 年发表的英文研究文章。检索词通过布尔运算符组合,涵盖 “人工智能”“机器学习”“分诊”“症状检查”“性健康”“生殖健康”“心理健康” 等相关词汇,以确保全面获取相关文献。
- 筛选标准
- 纳入标准:与基于 AI 的性健康、生殖健康和心理健康(SRMH)风险评估工具相关的文章;经过同行评审的研究论文;涉及人类参与者且与医疗保健相关;2018 - 2023 年发表;以英文撰写。
- 排除标准:与 SRMH 领域 AI 风险评估工具无关的文章;书籍、电子海报、综述文章、科学会议论文和非研究性文章;未经过同行评审的文章;数据不足或方法不当的文章;提出的工具与人类干预研究无关的文章;2018 年以前发表的文章;非英文文章。
- 筛选流程:将检索结果导出为 CSV 文件(若数据库不支持,则先导出为 BibTeX 格式,再在线转换为 CSV),利用 Google Sheets 进行筛选。通过条件格式化自动检测并删除重复文章,然后依次根据标题、摘要和全文进行筛选,依据排除标准排除不符合要求的文章。对于筛选过程中的分歧,由作者们通过共识解决,以确保筛选的准确性和一致性。
- 数据收集与分析:使用标准化表格收集数据,内容包括文章标题、作者、发表年份、研究设计、AI 工具类型、算法、评估指标等。采用叙述性综合方法对数据进行整理和总结,将数据分类为 AI 工具类型、研究背景、方法、结果、挑战和局限性等类别,通过描述性总结和对比分析突出研究的异同点。
- 风险偏倚评估:运用预测模型风险偏倚评估工具(PROBAST)和 Quadas - 2 工具分别对不同类型的研究进行风险偏倚和适用性评估。由第一作者(SI)应用工具,第三作者(AA)审核,若有分歧则由通讯作者(KM)协调解决,以保证评估的严谨性。
结果
- 文献筛选结果:最初检索到 1743 篇文章,去除重复后剩余 1647 篇。经过标题和摘要筛选,排除 1470 篇,剩下 177 篇进行全文评估,最终 63 篇文章符合纳入标准。这些文章来源广泛,其中 PubMed 和 IEEE Xplore 贡献的入选文章最多。从发表年份来看,2022 年和 2023 年发表的文章数量最多,呈现出研究逐年增加的趋势。
- 研究特征:63 篇文章涵盖多种研究设计,包括回顾性研究、前瞻性研究、观察性研究等。研究目的主要涉及开发和评估 AI 风险预测模型、识别疾病风险因素、评估工具的性能等。研究对象包括不同年龄段、性别和健康状况的人群,如孕妇、癌症患者、精神疾病患者等。
- 风险偏倚评估结果
- PROBAST 评估:部分研究存在方法学缺陷,1 项研究有高风险偏倚,4 项研究因关键数据缺失导致风险偏倚不明确,其余多数研究在大部分 PROBAST 领域风险较低,方法学较为可靠。
- QUADAS - 2 评估:不同诊断准确性研究的方法学质量参差不齐。部分研究在某些领域存在混合风险,如流程和时间方面;部分研究在所有领域风险较低,方法学依从性良好;还有部分研究在所有领域风险不明确,存在较大方法学差距,这表明未来的诊断研究需要提高方法学的透明度和详细程度。
- 研究主题分布:在性健康和生殖健康领域,风险预测工具的研究占主导(83.3%),主要涉及宫颈癌、子宫内膜癌、性传播感染、妊娠并发症等疾病的预测。分诊和症状检查器的研究相对较少,分别占 12.5% 和 4.2%。在心理健康领域,风险预测研究也占比较大(54.8%),主要集中于自杀风险、抑郁、焦虑等心理问题的预测。分诊和症状检查器的研究分别占 31.0% 和 14.3%。总体而言,风险预测工具在两个领域的研究中均占据主导地位。
讨论
- 研究趋势与地理分布:近年来,关于 AI 在 SRMH 风险评估工具方面的研究呈上升趋势,2023 年达到峰值。从地理分布来看,发达国家如美国、英国和澳大利亚的研究成果较多,亚洲的中国和印度也有一定数量的研究发表,但发展中国家的研究相对较少,反映出研究活动在地域上的不平衡。
- AI 工具的应用与挑战:AI 在医疗保健领域的应用广泛,风险预测工具使用最为频繁,涉及多种算法,如随机森林(RF)、逻辑回归(LR)、支持向量机(SVM)等。不同研究使用的评估指标各异,主要取决于干预类型。AI 技术能够通过先进的诊断和个性化干预改善医疗服务,尤其对服务不足的人群有益。然而,AI 也面临诸多挑战,如模型的 “黑箱” 问题导致决策过程不透明,集成到现有医疗系统困难且资源消耗大。此外,AI 算法可能存在偏差,数据的非代表性会导致对边缘化群体的不公平影响,数字技术获取的差异也会加剧社会经济群体之间的差距。
- 伦理考量:多数研究对伦理问题较为重视,如获得伦理批准、确保知情同意等,在心理健康和癌症检测等敏感领域尤为突出。部分回顾性研究根据情况适当寻求知情同意豁免,体现了对参与者权益的保护和研究伦理的坚守。
- 研究差距与未来方向:当前研究存在一些局限性,如数据集小且单一、研究设计多为回顾性和自我报告、忽视重要影响因素、算法验证不足、缺乏与传统方法的比较、大语言模型(LLM)应用有限、特征选择描述不充分、伦理问题探索不深入以及未充分考虑计算资源和数据隐私等。未来研究应注重创建广泛、多样的数据集,减少 AI 模型的偏差;针对不同人群制定标准化的诊断和干预策略;加强 AI 方法的研究,如联邦学习和深度学习,提高模型的准确性和伦理合规性;利用 LLM 提高模型的可解释性,促进与医护人员的协作,改善治疗效果和医疗效率。
结论
本综述分析了 2018 - 2023 年 63 篇关于 AI 在性健康、生殖健康和心理健康风险评估工具中应用的文章,发现风险预测工具占主导地位,且研究存在模型和数据集的偏差与差异。未来研究需要全球和跨学科合作,增加数据集的多样性和包容性,采用稳健的方法推广 AI 模型,制定国际框架以促进 AI 研究和应用的伦理标准和透明度。同时,应克服本次综述的局限性,纳入多语言研究和更广泛的文献,开发公平有效的 AI 工具,为全球健康做出更大贡献。