《European Journal of Neurology》:Machine Learning for Diagnosis and Differentiation of Central Disorders of Hypersomnolence: A Systematic Review
编辑推荐:
中枢性嗜睡障碍(Central Disorders of Hypersomnolence, CDH)除1型发作性睡病(Narcolepsy Type 1, NT1)外,由于特征重叠和缺乏可靠生物标志物(biomarkers)而难以诊断和管理。机器学习(Mach
中枢性嗜睡障碍(Central Disorders of Hypersomnolence, CDH)除1型发作性睡病(Narcolepsy Type 1, NT1)外,由于特征重叠和缺乏可靠生物标志物(biomarkers)而难以诊断和管理。机器学习(Machine Learning, ML)通过检测细微生理模式和区分CDH亚型,有潜力改善诊断。本系统综述系统性地探讨了当前ML在CDH中的应用,评估了其局限性,并提出了未来方向。遵循PRISMA指南,研究人员检索了MEDLINE、Embase、PsycINFO、IEEE Xplore、CINAHL、Web of Science和Google Scholar(截至2025年6月),以寻找使用ML对成人CDH进行分类或特征描述的研究。提取并分析了ML方法、数据类型和诊断结局。在3274项研究中,41项符合纳入标准(37篇同行评审文章和4篇预印本)。数据来源包括神经影像学(功能磁共振成像fMRI、正电子发射断层扫描PET)、睡眠评估(多次睡眠潜伏期试验MSLT、多导睡眠图polysomnography)、人口统计学资料和标准化问卷。监督式ML可靠地识别了已知特征,包括早期快速眼动(Rapid Eye Movement, REM)起始、下丘脑分泌素缺乏和脑电图(Electroencephalography, EEG)频谱变化,对NT1表现出较强性能,但在其他CDH亚型中泛化能力有限。尽管许多研究报告了高准确率,但临床相关性常受到僵化的诊断标签的限制,这些标签可能无法反映CDH的真实复杂性。非监督式学习揭示了异质性表型,并暴露了现有诊断标签的局限性。ML有潜力改善CDH诊断。深度学习(Deep Learning, DL)模型在特征提取方面具有前景;然而,其黑箱性质和高数据需求阻碍了临床应用。未来进展依赖于大规模、多样化数据集、多模态和纵向数据,以及临床医生与数据科学家之间的紧密合作。
1 引言
中枢性嗜睡障碍(Central Disorders of Hypersomnolence, CDH)是一组以日间过度嗜睡(Excessive Daytime Sleepiness, EDS)和/或过度睡眠需求为特征的睡眠障碍。国际睡眠障碍分类第三版(ICSD-3)定义了八种障碍:1型发作性睡病(Narcolepsy Type 1, NT1)、2型发作性睡病(Narcolepsy Type 2, NT2)、特发性嗜睡症(Idiopathic Hypersomnia, IH)、克莱恩-莱文综合征(Kleine-Levin Syndrome, KLS)、精神病性嗜睡、内科疾病所致嗜睡、药物或物质所致嗜睡以及睡眠不足综合征(Insufficient Sleep Syndrome, ISS)。尽管分类明确,但CDH常存在特征重叠,且当前诊断工具准确性有限。NT1由于睡眠起始快速眼动(Rapid Eye Movement, REM)睡眠期(SOREMPs)、人白细胞抗原(Human Leukocyte Antigen, HLA)-DQB1*06:02阳性以及脑脊液(Cerebrospinal Fluid, CSF)中食欲素缺乏等生物标志物,特征最明确。相反,NT2和IH缺乏可靠生物标志物,临床重叠显著,诊断不确定性高。这导致了“发作性睡病边界区”(Narcolepsy Borderland, NBL)概念的产生,涵盖定义不清的嗜睡状态。缺乏特异性生物标志物和ICSD-3标准的局限性凸显了对数据驱动诊断工具的需求。机器学习(Machine Learning, ML)通过识别复杂数据集中的隐藏模式,有望支持生物标志物发现和诊断改进。深度学习(Deep Learning, DL)作为ML的分支,可从原始数据中提取特征。监督与非监督方法各有侧重。本系统综述旨在评估ML在改善CDH诊断标准方面的现有证据,识别数据模态、描述ML方法、分析其处理诊断不确定性的作用,尤其关注NBL。
2 方法
2.1 研究问题:本综述的研究问题为:“哪些数据类型和ML技术已被应用于改善成人中枢性嗜睡障碍的诊断准确性、亚型分类或生物标志物识别?”
2.2 纳入与排除标准:纳入标准为:人类成人(≥18岁),根据ICSD-3诊断或怀疑患有CDH(包括NT1、NT2、IH、KLS、ISS);应用ML或DL方法,目标为开发诊断工具、识别生物标志物、聚类/分类患者亚型或预测诊断。排除标准为:儿童、青少年或动物研究;继发于精神障碍、内科疾病或药物的嗜睡;未应用ML/DL方法的研究;ML应用于无直接CDH诊断关联的睡眠特征等。
2.3 检索策略:研究人员在MEDLINE、Embase、PsycINFO、IEEE Xplore、CINAHL、Web of Science和Google Scholar(截至2025年6月)中进行了全面检索,并辅以手工检索。检索概念包括“嗜睡”、“机器学习”和“诊断”。
2.4 研究选择:使用Covidence进行管理,至少两名独立评审员筛选标题、摘要和全文,分歧通过讨论解决。最终纳入41项研究(37篇同行评审文章和4篇预印本)。
2.5 数据提取与综合:提取作者、年份、人群、临床目标、数据类型、预处理步骤、学习类型、ML方法、训练验证策略、关键结果及局限性。按数据集、ML方法和研究目标进行分组,对监督与非监督方法进行叙事综合,并评估方法学质量。
3 结果
3.1 纳入研究概述:初始检索共发现3274篇论文,经去重和筛选后,最终纳入41项研究。3.2 研究特征:其中9项采用非监督ML方法,32项采用监督ML方法。12项研究使用了循环交替模式(Cyclic Alternating Pattern, CAP)数据集。特征方面,多导睡眠图(Polysomnography, PSG)衍生特征最为常见(26项),其次为临床记录(8项)、问卷(8项)和多次睡眠潜伏期试验(Multiple Sleep Latency Tests, MSLT)特征(8项)。仅5项研究使用原始PSG数据,5项使用生物标志物(如HLA状态和CSF水平),2项使用神经影像学。多数研究(30项)依赖单一模态,11项整合多模态数据。33项研究使用传统ML,8项使用DL,且DL研究多出现在2021年之后。3.3 结果的质量与验证:非监督研究中,通过轮廓系数、肘部法、重抽样及临床判断评估聚类效度。监督研究多数采用内部验证(如k折交叉验证),仅5项进行外部验证或跨中心验证。使用CAP数据集的研究验证协议一致性较差。3.4 非监督机器学习应用的结果:3.4.1 方法类型:包括K-Means聚类、K-Medoids聚类、层次聚类和自适应共振理论(Adaptive Resonance Theory, ART)神经网络。3.4.2 疾病与数据集:多数研究聚焦于NT1、NT2和IH,样本量从15到超过1000不等。多数使用多模态数据(PSG、MSLT、问卷、人口统计学、CSF食欲素-1水平、HLA分型)。3.4.3 主要发现:所有非监督ML研究均识别出具有共享特征的患者聚类。NT1始终被识别为独特表型,两项研究发现以女性为主的NT1聚类。聚类常揭示NT2与IH之间的重叠,如一项研究发现无猝倒患者的两组,其中一组HLA-DQB1*0602阳性率和CSF食欲素-1水平较低。基于主观测量(如症状严重程度)的聚类反映了整体严重程度而非独立诊断类别。IH的异质性得到进一步描述,包括MSLT昼夜节律差异和夜间睡眠表型差异。3.5 监督ML应用的结果:3.5.1 方法类型:最常用的方法为基于树的模型(如随机森林Random Forest、极端梯度提升Extreme Gradient Boosting, XGBoost,14项),其次为线性模型(5项)、支持向量机(Support Vector Machine, SVM,4项)以及神经网络。神经网络包括卷积神经网络(Convolutional Neural Network, CNN)、长短期记忆网络(Long-Short-Term-Memory Network, LSTM)和Transformer架构,其中4项采用多任务学习同时进行睡眠分期和诊断。3.5.2 疾病与数据集:常见诊断组为NT1、NT2和IH,许多研究纳入健康对照或非发作性睡病对照。样本量从约30到超过3000。多数使用PSG衍生特征(如频谱功率、睡眠结构指标、纺锤波和慢波),部分使用自动睡眠评分生成的睡眠密度图特征。12项研究使用了CAP数据集。3.5.3 主要发现:3.5.3.1 NT1与健康对照分类:研究一致显示高准确率和特异性。关键特征包括睡眠EEG差异(如REM-觉醒解离、REM中α波功率增加、觉醒和NREM1中σ和δ活动减少)、REM起始潜伏期和睡眠不稳定性。静息态fMRI显示额叶和顶叶变化。3.5.3.2 NT1与NT2分类:利用MSLT中的REM相关动态(如NREM2/NREM3向REM转变)及周末睡眠时长等特征。移除猝倒和食欲素水平会降低模型特异性。PET活动显示基底节、赫氏回和纹状体差异。3.5.3.3 CDH内部分类:基于问卷的模型用于筛查显示一定潜力。整合时间信息(如夜间睡眠四分位)的PSG特征优于手动评分特征。IH与NT1的鉴别基于睡眠EEG谱特征,NT2与IH的鉴别性能中等。REM起始潜伏期是分类CDH组的关键特征,睡眠不稳定性指标在区分NT1与NT2或对照时更具信息量。
4 讨论
4.1 非监督学习研究的优势与局限性:非监督ML在揭示CDH表型异质性方面具有潜力,特别是识别超出明确诊断类别之外的亚型。研究结合客观和主观数据,一致识别出同质性NT1聚类,并揭示NT2、IH及NBL人群中的异质性。一些聚类匹配新型亚型,如女性主导的NT1或基于症状严重程度的NBL组,提示性别差异和自我感知影响。但多数研究依赖从睡眠图衍生特征而非原始数据,可能忽略细微模式,且缺乏外部验证和前瞻性随访。未来的研究应将数据驱动亚型与长期结局相关联。4.2 监督学习研究的假设与特征分析:监督ML中,已确定的临床和生物标志物(如早期REM起始、睡眠阶段解离、猝倒、食欲素缺乏)持续作为关键预测因子。NT1是分类最明确的组,NT2和IH的分类性能下降,反映了当前分类固有的不确定性。频谱特征(如REM中α活动增加、觉醒时σ减少、NREM1中δ功率增加)对NT1特别有信息价值,但对NT2和IH效用有限。监督学习依赖ICSD-3诊断标签作为金标准,这可能强化有缺陷的分类框架,并阻碍新生物标志物的发现。CAP数据集的使用需谨慎,因其设计并非用于疾病分类,且样本量小、类别不平衡、睡眠分期系统陈旧,限制泛化性。多数监督研究使用基于树的方法,可解释性强,但需注意性能报告常基于时期级别而非患者级别,可能高估临床相关准确性。类不平衡问题也需警惕,推荐报告F1分数。比较组的选择差异(健康对照或非CDH条件)导致跨研究性能比较不可靠,临床挑战在于CDH亚型间尤其是NBL内的区分。4.3 方法学考量与挑战:主要挑战是缺乏大规模、多样化、标注良好的数据集。小数据集增加过拟合风险。欧洲发作性睡病网络(EU-NN)数据库提供了多模态数据但无原始PSG;国际瑞士原发性嗜睡症和发作性睡病队列研究(iSPHYNCS)正在收集纵向多模态数据。算法方面,DL在特征提取方面日益突出,如基于自动睡眠评分的睡眠密度图可捕获睡眠阶段解离。预测练模型(如自监督学习、迁移学习)改善了泛化性,例如SleepGPT基于Transformer检测宏观结构异常。但这些模型计算强度高且可解释性有限。整合可解释性方法(如注意力可视化)和临床医生参与至关重要。前沿方向包括多模态Transformer、半监督学习、使用原始生理信号及多模态融合。此外,需要标准化评估框架,包括外部验证和跨人口学亚组的一致性能报告,以及代码和数据的开放共享。4.4 临床意义:NT1是最易识别的CDH亚型,而NT2和IH仍存在诊断模糊性。ML模型强调的预测特征(如REM起始潜伏期、睡眠阶段解离)已为临床熟悉,但ML展示了其作为区分因子的算法潜力。当前模型虽不成熟用于独立诊断,但可作为临床决策支持工具。非监督方法作为假设生成工具,可发现新表型并指导生物标志物研究。
5 结论
本系统综述强调了在CDH分类中整合客观(如PSG、生物标志物)和主观(如问卷)评估的必要性,同时指出时间信息和长期可穿戴数据的未开发潜力。未来进展依赖于纵向、多模态数据收集以及临床医生、数据科学家和ML专家之间的紧密合作。借助大规模、多模态数据集,ML方法在改善诊断和发现临床相关亚型方面具有强大潜力,有助于实现患者个体化治疗和管理。