编辑推荐:
手动进行多导睡眠图(PSG)评估既耗时又主观,研究人员开展了 “基于人工智能(AI)算法的临床 PSG 评估(以呼吸暂停识别为例):数据与模型开发要求” 的研究。结果发现目前算法存在不足,该研究有助于评估现有算法,推动睡眠医学 AI 算法发展。
在睡眠监测领域,传统的手动多导睡眠图(Polysomnography,PSG)评估方式就像一场繁琐又漫长的马拉松。医生们需要逐帧查看 PSG 记录,分析其中复杂的生理信号,判断睡眠阶段、呼吸状况等,这一过程不仅耗费大量时间和精力,而且不同医生的判断标准存在差异,导致评估结果主观性强。随着人工智能(Artificial Intelligence,AI)技术的蓬勃发展,其在医学领域的应用潜力逐渐显现,尤其是在自动化处理复杂数据方面的优势,为睡眠监测带来了新的希望。于是,研究人员踏上了探索 AI 算法在临床 PSG 评估中应用的征程,旨在解决传统评估方式的弊端,提高睡眠监测的效率和准确性。
来自德国德累斯顿工业大学医学院和 Carl Gustav Carus 大学附属医院,以及该校生物医学技术研究所的研究人员开展了相关研究。他们的研究聚焦于 AI 算法在临床 PSG 评估中的应用,以呼吸暂停识别为切入点,深入探讨了算法开发的要求、数据的质量和多样性需求,以及算法评估的关键指标等。研究结果表明,尽管 AI 算法在自动睡眠评估方面取得了一定进展,但目前仍没有完全满足取代手动评估的算法。这一研究对于推动睡眠医学中 AI 算法的发展意义重大,它为评估现有算法提供了参考标准,明确了未来算法开发的方向,有助于促进 AI 技术在睡眠监测临床实践中的广泛应用 。该研究成果发表在《Somnologie》杂志上。
在研究过程中,研究人员主要运用了机器学习技术。他们基于监督学习方法,利用大量由专家标注的 PSG 数据训练模型。同时,将数据合理划分为训练集、验证集和测试集,通过不同数据集的功能来优化模型和评估其性能。此外,研究中涉及的样本队列来源于多个公开数据集以及未公开的睡眠实验室数据。
研究结果
- AI 算法开发基础:在 AI 算法开发方面,监督学习是睡眠医学中常用的方法。它需要大量经专家标注的 PSG 数据,这些数据被划分为训练集、验证集和测试集。训练集用于重现专家标注,将 PSG 信号分割成等长片段并匹配标注,不同类型事件的分割策略有所不同;验证集用于优化训练算法,通过准确率、敏感度和特异性等指标评估模型性能,进而调整模型复杂度和训练参数;测试集则用于评估最终训练好的模型性能,计算多导睡眠图参数如呼吸暂停低通气指数(Apnoe - Hypopnoe - Index,AHI),还能研究不同患者群体间的质量差异 。
- 数据要求:数据对于 AI 算法至关重要。数据应按照美国睡眠医学学会(American Academy of Sleep Medicine,AASM)或德国睡眠研究与睡眠医学学会(Deutsche Gesellschaft für Schlafforschung und Schlafmedizin,DGSM)的现行指南进行评估,包含所有推荐通道。数据划分至少应按患者区分训练集和测试集,理想情况下还应按评分者或地点区分。同时,测试数据应充分代表不同患者群体,涵盖多种睡眠障碍和治疗方式,但部分睡眠障碍患病率低增加了研究难度。研究总结出开发 AI 算法的数据集标准,如至少 1000 个 PSG 数据、来自睡眠实验室患者、完整 PSG 及标注、包含睡眠障碍诊断信息、经多个评分者评分等 。
- AI 算法评估要求:评估 AI 算法需使用通用指标,如用于事件检测的 F1 评分和精度 - 敏感度曲线下面积(Area Under the Precision - Sensitivity Curve,AUPRC),但不能将片段分类质量等同于事件检测质量,临床应用中应关注事件检测和对 PSG 参数的预测能力。算法还应在不同患者群体中进行适用性测试,确保不受年龄、性别、睡眠障碍和治疗方式等因素影响。此外,算法应符合 AASM 标准,将呼吸暂停细分为阻塞性、中枢性、混合性和低通气,并能将输出结果转化为可关联的事件 。
- 呼吸暂停识别技术现状:研究调查了当前呼吸暂停识别算法,多数算法采用按患者区分训练集和测试集的方式,部分还按数据集区分。少数算法能将片段转化为精确事件,多数算法会测试 AHI,但没有算法能完全按照 AASM 建议细分呼吸暂停类型。多数算法仅区分呼吸暂停的有无或呼吸暂停与低通气,仅有部分算法对呼吸暂停进行了有限细分 。
研究结论与讨论
AI 算法在自动睡眠评估领域已取得显著进展,但仍面临诸多挑战。多数现有呼吸暂停识别算法虽满足基本方法学要求,如按患者区分训练集和测试集,部分还采用按数据集区分的方式避免评分者个体影响,但常忽视重要临床方面,如在大规模睡眠实验室数据集上的评估不足,对不同睡眠障碍的研究不够深入,很少通过多个评分者与金标准进行比较。同时,用于训练和评估的大规模临床代表性数据集有限,多中心重复评分成本高、耗时长,多数公开数据集无法满足全面临床验证的标准。因此,在 AI 算法广泛应用于临床实践前,仍需进一步开发和完善。未来,开发可解释的 AI 模型、开源算法和模型权重对于提高其在临床实践中的接受度和适用性至关重要。这一研究强调了跨学科合作的重要性,医学专家和数据科学家需密切协作,持续交流,开发出既符合技术要求又满足临床需求的算法,推动睡眠医学的发展,为患者提供更高效、准确的睡眠监测和诊断服务。