人工智能增强型智能手表AHI估算与AI评分多导睡眠监测在阻塞性睡眠呼吸暂停中的真实世界验证

【字体: 时间:2025年09月26日 来源:Nature and Science of Sleep 3.4

编辑推荐:

  本研究前瞻性验证了基于人工智能(AI)的智能手表算法在韩国人群中对阻塞性睡眠呼吸暂停(OSA)的诊断效能。研究通过将智能手表直接估算的呼吸暂停低通气指数(eAHI)与金标准Level 1多导睡眠监测(PSG)的专家评分(pAHI)及AI评分(aiAHI)进行对比,证实eAHI与aiAHI具有高度一致性(ICC=0.87),对中重度OSA(AHI≥15事件/小时)的检测灵敏度达92.3%、特异度92.6%。该研究首次采用独立开发与验证队列,证实商用可穿戴设备可作为OSA早期识别与纵向监测的实用工具,具有重要临床转化价值。

  
Abstract
Objective
本研究旨在验证一款基于人工智能(AI)的智能手表算法通过直接估算呼吸暂停低通气指数(AHI)来诊断阻塞性睡眠呼吸暂停(OSA)的准确性,并将其性能与AI评分的Level 1多导睡眠监测(PSG)结果进行对比。该模型最初基于南美人群训练,本次研究在韩国成人中进行了跨种族验证。
Methods
共90名成人同时接受了Level 1 PSG和智能手表监测。其中53份数据集包含≥3小时的有效手表数据并被纳入分析。AHI值通过三种方式获得:专家评分的PSG(pAHI)、AI评分的PSG(aiAHI)和智能手表输出(eAHI)。采用Spearman相关系数、组内相关系数(ICC)及受试者工作特征(ROC)曲线评估一致性。
Results
eAHI与aiAHI(ρ=0.88,ICC=0.87)和pAHI(ρ=0.85,ICC=0.82)均呈现强相关性。在检测中重度OSA(aiAHI≥15事件/小时)方面,智能手表算法显示出92.3%的灵敏度、92.6%的特异度和92.5%的总准确率。Bland-Altman分析显示手表存在系统性低估实际AHI的趋势,在轻度OSA患者中尤为明显。
Conclusion
本研究证明,所评估的基于智能手表的AHI估计算法与PSG衍生值具有高度一致性,尤其在中重度OSA的检测与分类方面表现优异。然而需注意,由于评分单元和记录时长计算的限制,该算法倾向于低估OSA患者的AHI。这些发现支持可穿戴技术作为现实环境中OSA早期识别和长期监测的实用、可扩展工具,同时强调需进一步优化以提升对轻度病例检测的准确性。
Introduction
阻塞性睡眠呼吸暂停(OSA)全球患病率约为54%,且从2003年的0.14%显著上升至2020年的4.59%。这一增长与肥胖率上升、OSA意识提高及诊断能力扩展相关。OSA是冠状动脉疾病和脑卒中的独立危险因素,其机制与睡眠中反复间歇性低氧导致氧化应激增加、内皮功能受损有关,进而引发血管舒张功能障碍、炎症反应和加速的动脉粥样硬化。尽管存在这些严重健康风险,全球约80%的OSA患者仍未得到诊断和治疗,仅在美国每年就造成约1500亿美元的社会经济负担。
鉴于OSA诊断人数增加、诊断不足率高以及其心血管与代谢并发症风险上升,快速准确的诊断至关重要。然而,现行金标准Level 1多导睡眠监测(PSG)要求患者在配备监测设备的医院过夜,费用高昂、需专业人员操作且每日可处理患者数量有限。在医疗资源不足地区,检测可及性尤为困难。
家庭睡眠测试(HST)通过在家记录关键生理信号(呼吸气流、努力度、氧饱和度、心率、体位)以克服PSG局限。COVID-19大流行期间HST应用显著加速。美国睡眠医学会(AASM)及其他国际学会推荐HST作为无严重心血管疾病或中枢性睡眠呼吸暂停患者的可行替代方案,证据表明在特定人群中其诊断准确性可与PSG媲美。但HST也有局限:需医生处方、费用较高、缺乏脑电图(EEG)记录以评估睡眠结构、需要熟练的视觉分析且难以每日重复以捕捉AHI变异。
为克服这些限制,可穿戴设备被提出作为OSA诊断的替代方法。尽管可穿戴设备具有便携、可及和连续监测的优势,但大多数基于可穿戴设备的OSA诊断方法聚焦于筛查或严重程度分类而非准确估算AHI。一些设备在受控研究环境中显示出良好结果,但缺乏在多样临床环境中评估诊断准确性的真实世界验证研究,这限制了其作为可靠诊断工具的应用。
三星电子开发的OSA检测算法于2024年2月6日获得美国食品药品监督管理局(FDA)de novo批准(DEN230041),用于在两天监测期内检测22岁及以上成人中重度OSA迹象。光电容积脉搏波(PPG)传感器发射红光和红外光至皮肤以检测血容量变化,并通过分析血红蛋白基于氧结合状态的光吸收差异来测量外周氧饱和度(SpO2)。在睡眠呼吸事件期间,SpO2快速下降,这些去饱和模式可通过可穿戴设备的连续监测捕获。通过分析重复的SpO2去饱和模式检测呼吸暂停事件,并将数据输入基于AI的算法以估算睡眠期间的AHI。
然而,由于OSA的人口学和颅面风险因素存在种族差异,且大多数先前研究未在种族多样队列中评估其算法,将在南美人群训练的本算法在独立韩国队列中进行验证为其跨种族普适性提供了更严格评估。因此,本研究旨在验证基于智能手表的AHI估计算法在韩国受试者中与Level 1 PSG相比的准确性。
Materials and Methods
Study Design and Protocol
这项前瞻性、单中心、开放标签研究于2024年1月至9月进行。参与者包括健康个体和不同严重程度的OSA患者,采用两种不同方法招募。对照组由无打鼾或睡眠呼吸暂停症状的个体组成,排除既往诊断或治疗OSA者,通过线下海报招募。患者组包括表现为打鼾或睡眠呼吸暂停症状的个体,同样排除既往诊断或治疗者。轻度OSA患者通过线下广告招募,中重度OSA患者从以睡眠呼吸暂停为主要症状的三级医疗中心入选。
所有参与者完成STOP-Bang问卷作为筛查部分。对照组候选人需STOP-Bang评分为0,患者候选人评分≥2者最终入选。耳鼻喉科医生收集所有研究对象的睡眠相关病史并进行从鼻腔至喉部的上气道评估。所有PSG记录均由AASM认证睡眠技师按标准协议进行。PSG记录由两位委员会认证神经学家独立评分,遵循AASM标准,分歧通过共识解决,主要指标评分者间可靠性显示高度一致性(ICC>0.8)。研究方案经三星医疗中心机构审查委员会批准(IRB No.: 2023-03-07-154),所有参与者入组前提供书面知情同意,研究遵循《赫尔辛基宣言》原则。
使用PASS 2023软件计算最小样本量为74例,预期ICC值0.906,95%置信区间0.85–0.94。考虑17%脱落率,计划招募90例。年龄≥22岁的纳入标准与FDA de novo批准要求一致。排除标准为心房颤动、妊娠及可能干扰传感器操作的皮肤疾病。
研究对象在机构附属医院进行一晚Level 1 PSG,由AASM认证睡眠技师监督研究。PSG测试日期通过医院与参与者协调安排。参与者被指示在PSG测试期间佩戴智能手表。测试前收集所有参与者人体测量数据(体重、身高、腰围、臀围、颈围)并记录前一日睡眠药物使用和睡眠时长。
Polysomnography
睡眠技师连接标准传感器用于睡眠阶段评估(EEG、眼电图、颏肌电图)、气流测量(鼻压传感器、热敏电阻)、呼吸努力度(腹部和胸部分辨电感带)、心率(心电图)和氧饱和度(脉搏血氧测定)。
PSG记录以欧洲数据格式(EDF)文件保存并按世界时间存储,由神经学专家根据AASM评分手册解读。专家解读得出的AHI值定义为医生阅读AHI(pAHI)。将EDF文件传输至Honeynaps有限公司进行基于人工智能(AI)的PSG分析,使用其FDA 510(k)批准的Somnum软件(K223922,2023年8月16日),该计算机程序旨在分析睡眠和呼吸相关睡眠障碍,可分析标准实验室内PSG记录的生理数据,包括睡眠阶段、呼吸事件、觉醒事件和腿动事件。通过此自动分析生成的AHI值定义为AI阅读AHI(aiAHI)。OSA严重程度分类为轻度(AHI≥5且<15事件/小时)、中度(≥15且<30事件/小时)或重度(≥30事件/小时)。
Wearable Device for Sleep Recording
使用商用Galaxy Watch 6(SM-R930,三星电子)检测研究对象的OSA。手表内置PPG传感器以1 Hz采样率测量睡眠期间SpO2。由于消费者版应用程序(Samsung Health)不提供原始SpO2数据访问,开发了定制研究应用程序传输测量的原始数据。为每位参与者提供配对智能手表和测试智能手机用于数据收集。
使用制造商专有算法自动过滤低质量数据,所有记录数据以ASCII格式存储用于后处理。总记录时间内有效信号低于70%或可用数据少于3小时的数据被排除分析。采用制造商FDA批准的AI算法(FDA提交号DEN230041)分析氧饱和度信号并估算AHI,记为eAHI。
Statistical Analysis
通过Spearman相关系数评估AI程序与可穿戴设备所测AHI值的相关性。为ICC分析,对值加5并应用自然对数转换以校正零值和高度偏态分布。计算ICC以评估两种测量间的一致性。绘制Bland-Altman图以视觉检查两种方法间的一致性。
使用ROC分析和Youden指数估计严重程度分类的最佳eAHI截断值,计算灵敏度、特异度、阳性预测值和阴性预测值。所有分析统计显著性设定为P<0.05。
Results
Subject Selection and Baseline Characteristics
研究纳入29名对照受试者和61名疑似OSA患者。其中37例因PSG测试期间电池耗尽(14例)、SpO2测量少于3小时(3例)、SpO2覆盖率低于70%(10例)或尽管事先指示但患者PSG当晚忘记携带设备致无数据(10例)被排除。
最终分析包括20名对照者和33名患者,共53名参与者。中位年龄42.0岁(范围:32.0–49.0),男性比例71.7%(38例)。平均体重指数(BMI)24.9 kg/m2(范围:17.6–34.5),PSG当日Epworth嗜睡量表(ESS)评分中位数9.0(范围:6.0–11.0)。
对照组与患者组所有基线特征均存在统计学显著差异。患者组年龄更大(46.2 vs 35.7岁,P=0.001)、男性比例更高(87.9% vs 45.0%,P=0.001)、BMI更高(25.6 vs 23.7 kg/m2,P=0.038)且ESS评分更高(10.8 vs 6.5,P<0.001)。
Correlation Analysis Between eAHI and aiAHI
Spearman等级相关分析显示eAHI与aiAHI呈显著正相关(rho=0.88,95% CI:0.81–0.93,P<0.001)。ICC分析也显示两变量间高度一致性(ICC=0.87,95% CI:0.79–0.92,P<0.001),属良好相关性(0.75–0.9)。
Bland-Altman分析显示eAHI与aiAHI间平均差值为?0.118,95%一致性界限为?0.891至0.654。Bland-Altman图显示随两测量均值变化差值变异性小,测量点分布在均值周围且处于一致性界限内。
Diagnostic Performance for Severity Classification
ROC曲线分析评估eAHI在OSA严重程度评估中的性能。对于轻度及以上OSA诊断(aiAHI≥5),最佳eAHI阈值为5.7,ROC曲线下面积(AUC)为0.898(95% CI:0.796–0.974)。此阈值下灵敏度82.5%、特异度84.6%、阳性预测值94.3%、阴性预测值61.1%、准确率83.0%。
对于中度及以上OSA(aiAHI≥15),最佳eAHI阈值为11.1,AUC为0.962(95% CI:0.909–1.00)。此阈值下灵敏度92.3%、特异度92.6%、阳性预测值92.6%、阴性预测值92.9%、准确率92.5%。
对于重度OSA(aiAHI≥30),最佳eAHI阈值为30.6,AUC为0.979(95% CI:0.947–1.00)。此阈值下灵敏度92.3%、特异度95.0%、阳性预测值85.7%、阴性预测值97.5%、准确率94.3%。
Correlation Analysis Between eAHI and pAHI
eAHI与pAHI的Spearman相关系数为0.85(95% CI:0.75–0.91,P<0.001),属高度正相关范围(0.7–0.9),略低于eAHI与aiAHI的相关系数。ICC分析也显示两变量高度一致性(ICC=0.82,95% CI:0.72–0.89,P<0.001),属良好相关性。
以pAHI为参考标准进行ROC曲线分析评估eAHI在OSA严重程度评估中的性能。对于轻度及以上OSA检测(pAHI≥5),最佳eAHI阈值为8.9,AUC为0.886(95% CI:0.796–0.975)。此阈值下灵敏度70.0%、特异度92.3%、阳性预测值96.6%、阴性预测值50.0%、准确率75.5%。
对于中度及以上OSA(pAHI≥15),最佳eAHI阈值为17.4,AUC为0.931(95% CI:0.862–0.999)。此阈值下灵敏度78.6%、特异度100%、阳性预测值100%、阴性预测值80.6%、准确率88.7%。
对于重度OSA(pAHI≥30),最佳eAHI阈值为19.4,AUC为0.962(95% CI:0.914–1.00)。此阈值下灵敏度94.4%、特异度88.6%、阳性预测值81.0%、阴性预测值97.0%、准确率90.6%。
Discussion
本研究中,FDA de novo批准算法衍生的eAHI值与通过PSG获得的aiAHI值高度相关(ICC=0.87,95% CI:0.79–0.92),并在OSA严重程度分类中显示高准确率(轻度83.0%、中度92.5%、重度94.3%)。这些发现表明商用可穿戴设备对OSA诊断具有显著临床效用。
本研究与既往研究相比有两大方法学优势。首先,区分算法开发组与验证组,增强研究有效性。既往研究或同时入组开发与验证组或未明确区分,此分离对防止算法过拟合特定人群特征及提高真实临床环境普适性至关重要。其次,既往研究使用与AHI高度相关变量(如氧减指数ODI)间接预测OSA,本研究应用直接估算AHI值的算法,通过提供定量AHI估算超越简单OSA检测或严重程度分类,提供更大临床效用。
迄今共7项研究分析了PSG检查期间同时佩戴可穿戴设备所测变量与AHI的关系,其中仅两项使用商用可穿戴设备。2024年Browne等使用三星Galaxy Watch 4测量ODI预测AHI严重程度,对轻、中、重度OSA的准确率分别为86%、78%和78%。2022年Jung等使用Galaxy Watch反射式PPG传感器测量SpO2和ODI预测OSA严重程度,以ODI≥5/小时为标准预测AHI≥15/小时的准确率为79.4%。最近McMahon等评估Compumedics Somfit前额佩戴动脉张力测定/PPG设备在92名成人中的性能,报道与PSG衍生AHI强相关(r=0.84),检测AHI≥5的OSA准确率89%,跨标准严重程度阈值的AUC值0.86–0.93。
与既往研究不同,我们通过基于SpO2数据的算法直接估算AHI值,获得更高准确率。中度(92.5%)和重度(94.3%)OSA分类的准确率显著高于既往研究报道。既往研究主要关注分类准确率,本研究通过ICC分析定量评估eAHI与实际AHI(aiAHI和pAHI)间的一致性,代表重要进展。
Bland-Altman分析证明eAHI值持续低于aiAHI值,平均差值?2.93(95% CI:?22.30至16.44)。此eAHI相较于实际AHI的低估可归因于可穿戴设备检测固有的若干方法学因素。首先,设备以1分钟窗口分析呼吸事件,导致同一窗口内多个短事件被分析为单一事件。例如,若一分钟内发生三次10秒呼吸暂停事件,PSG将准确计数三次独立事件,而可穿戴设备仅记录该分钟一次“呼吸暂停存在”。此外,由于1分钟分辨率,理论最大eAHI值限于60事件/小时,这对实际AHI超此阈值的重度OSA患者影响尤甚。而且,由于可穿戴设备固有局限,在无EEG监测下无法准确确定睡眠开始和结束时间,AHI计算中使用总记录时间(TRT)而非总睡眠时间(TST)作为分母。TRT包含清醒期且固有长于TST,导致分母增加及eAHI值降低。这些方法学限制导致智能手表系统性低估AHI,在较高真实AHI值患者中尤为明显,此点经Bland-Altman分析确认。
本研究中,我们使用aiAHI而非pAHI作为主要分析的参考标准。此方法因AI分析提供高客观性和一致性,最小化阅读者间变异(inter-reader variability)及同一阅读者因注意力变化、语境效应和学习效应导致的阅读者内变异(intra-reader variability)。重要的是,补充分析确认pAHI与eAHI高度相关(rho=0.85,ICC=0.82),支持研究发现临床有效性。
本研究临床意义可总结为三个关键点。首先,证明可穿戴设备作为PSG初级筛查工具的潜力。鉴于PSG检测常因时间和经济约束延迟,本研究所验证商用可穿戴设备的高精度筛查能力可能导致诊断指南变更。例如,临床中可疑OSA患者可处方智能手表进行2–3天监测以优先安排PSG检测或可能减少轻度病例的不必要检测。其次,可穿戴设备支持快速客观评估OSA治疗疗效。无需重复PSG测试以评估气道正压 therapy或睡眠手术效果,可穿戴设备可提供更高效治疗监测。第三,可穿戴设备允许真实睡眠环境中AHI评估。PSG检测通常在陌生医院环境单夜收集数据,可穿戴设备可在患者自然睡眠环境多夜收集数据,提供更准确AHI趋势理解,这对睡眠模式夜间变异显著患者尤为宝贵。
本研究存在若干局限。首先,对照组与患者组招募方法存在差异。对照组通过线下海报招募,患者组由以睡眠呼吸暂停为主诉就诊门诊个体组成,可能引入选择偏倚。此招募方法差异源于实际限制:因医院就诊伴睡眠呼吸暂停相关症状患者很可能患OSA,而健康个体罕因此就医。因此,两组在年龄、性别、BMI和ESS评分存在显著差异。但由于主要分析整合所有参与者以评估实际AHI与eAHI相关性,选择偏倚影响可能有限。其次,脱落率高于预期。研究经历34%脱落率,远高于初始预测17%,许多排除因技术问题如电池耗尽和SpO2覆盖率导致,主要归因睡眠技师PSG前手表电量和接触检查培训不足。高脱落率降低分析统计效能。第三,本研究智能手表可计算呼吸暂停和低通气事件,但因缺乏测量胸动传感器无法区分事件为中枢性或阻塞性。尽管记录胸动对区分中枢性与阻塞性睡眠呼吸暂停至关重要,单独基于可穿戴设备SpO2分析无法评估呼吸努力度存在。为克服此局限,近期报道描述使用3D打印技术开发检测胸动的可穿戴传感器,可同时测量氧饱和度以检测呼吸事件,此类技术应用有望通过检测呼吸事件期间胸动区分中枢性与阻塞性呼吸暂停。第四,eAHI在皮肤色素增加个体中可能被低估。归因于反射式PPG传感器所测SpO2值在黑色素含量增加人群中有相较于实际值高估趋势。近期荟萃分析确认此偏倚在深肤色参与者中统计显著,因光学特性中黑色素增加降低PPG信号交流直流比。因此在基于SpO2计算AHI的可穿戴系统中,存在氧去饱和事件可能被掩盖的固有局限,可能导致eAHI低估。最后,本研究局限在于所应用AI算法代表受商业许可保护的“黑盒AI”,阻止开放代码和数据访问。从“不伤害”原则视角,Xu等指出不可解释医疗AI可能对患者安全与自主性造成潜在危害,警告临床医生和患者对算法内部工作缺乏理解可能导致错误纠正延迟、医疗判断验证困难和心理经济负担。因此尽管本研究算法精度高,需在透明度和可验证性方面改进。未来努力应通过实施可解释AI、建立第三方评估系统和基于开放数据集的可重复性评审以缓解黑盒问题。
未来需进行更大样本量和多样人群研究以增强研究发现普适性并进一步验证手表eAHI临床效用。此外需系统调查哪些患者组显示eAHI与实际AHI较大差异。例如分析特定睡眠姿势、严重肥胖、合并症(如心血管疾病或糖尿病)或药物使用对测量准确性影响将为可穿戴设备临床实践局限提供重要见解。最后,利用可穿戴设备连续长期监测能力进行根据睡眠模式AHI日、周和季节波动的睡眠生理学研究,可推进对OSA及各种外部因素(压力、酒精consumption、季节变化)对OSA严重程度影响的理解,克服单夜PSG检测局限。
Conclusion
本前瞻性验证确认商用智能手表算法可直接估算AHI,并与同步Level 1 PSG在OSA各严重程度中保持高度一致性。独特的是,它是首项报告真实AHI值的可穿戴设备研究,同时采用完全独立开发与验证队列及同步Level 1 PSG,从而最小化偏倚。因事件聚合于1分钟区间及总记录时间替代真实睡眠时间,设备倾向于低估AHI。
Author Contributions
Donghyeok Kim:形式分析,验证,方法学,调查,数据管理,初稿撰写,评审编辑,可视化。Jeong Yup Han:软件,数据管理,评审编辑。Hyunjun Jung:软件,数据管理,评审编辑。Da Yeun Song:调查,数据管理,评审编辑。Changhee Lee:调查,资源,评审编辑。Gwanghui Ryu:调查,资源,评审编辑。Sang Duk Hong:调查,资源,评审编辑。Hyo-Yeol Kim:调查,资源,评审编辑。Yong Gi Jung:概念化,方法学,验证,形式分析,初稿撰写,评审编辑,监督,项目管理。
所有作者对工作构想或设计,或数据获取、分析或解读做出实质贡献;参与手稿起草或批判性修订重要知识内容;同意提交文章期刊;评审批准手稿所有版本(包括提交、修订和最终发布);同意承担责任并保证工作所有方面,确保其完整性与准确性。
Disclosure
本研究获三星电子支持。共同作者Jeong Yup Han和Hyunjun Jung作为三星电子员工负责数据收集、原始信号解读和手稿算法部分方法学起草,但未参与研究设计、数据分析或结果解读,所有由三星医疗中心研究人员独立进行。其余作者声明无利益冲突。
Data Sharing Statement
研究期间使用和/或分析的数据集可向通讯作者合理请求获取。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号