综述：机器学习用于中枢性嗜睡障碍的诊断和鉴别：系统综述

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《European Journal of Neurology》：Machine Learning for Diagnosis and Differentiation of Central Disorders of Hypersomnolence: A Systematic Review

【字体：大中小】 时间：2026年06月12日 来源：European Journal of Neurology 3.9

编辑推荐：

　　中枢性嗜睡障碍（Central Disorders of Hypersomnolence, CDH）除1型发作性睡病（Narcolepsy Type 1, NT1）外，由于特征重叠和缺乏可靠生物标志物（biomarkers）而难以诊断和管理。机器学习（Mach

中枢性嗜睡障碍（Central Disorders of Hypersomnolence, CDH）除1型发作性睡病（Narcolepsy Type 1, NT1）外，由于特征重叠和缺乏可靠生物标志物（biomarkers）而难以诊断和管理。机器学习（Machine Learning, ML）通过检测细微生理模式和区分CDH亚型，有潜力改善诊断。本系统综述系统性地探讨了当前ML在CDH中的应用，评估了其局限性，并提出了未来方向。遵循PRISMA指南，研究人员检索了MEDLINE、Embase、PsycINFO、IEEE Xplore、CINAHL、Web of Science和Google Scholar（截至2025年6月），以寻找使用ML对成人CDH进行分类或特征描述的研究。提取并分析了ML方法、数据类型和诊断结局。在3274项研究中，41项符合纳入标准（37篇同行评审文章和4篇预印本）。数据来源包括神经影像学（功能磁共振成像fMRI、正电子发射断层扫描PET）、睡眠评估（多次睡眠潜伏期试验MSLT、多导睡眠图polysomnography）、人口统计学资料和标准化问卷。监督式ML可靠地识别了已知特征，包括早期快速眼动（Rapid Eye Movement, REM）起始、下丘脑分泌素缺乏和脑电图（Electroencephalography, EEG）频谱变化，对NT1表现出较强性能，但在其他CDH亚型中泛化能力有限。尽管许多研究报告了高准确率，但临床相关性常受到僵化的诊断标签的限制，这些标签可能无法反映CDH的真实复杂性。非监督式学习揭示了异质性表型，并暴露了现有诊断标签的局限性。ML有潜力改善CDH诊断。深度学习（Deep Learning, DL）模型在特征提取方面具有前景；然而，其黑箱性质和高数据需求阻碍了临床应用。未来进展依赖于大规模、多样化数据集、多模态和纵向数据，以及临床医生与数据科学家之间的紧密合作。

1 引言

中枢性嗜睡障碍（Central Disorders of Hypersomnolence, CDH）是一组以日间过度嗜睡（Excessive Daytime Sleepiness, EDS）和/或过度睡眠需求为特征的睡眠障碍。国际睡眠障碍分类第三版（ICSD-3）定义了八种障碍：1型发作性睡病（Narcolepsy Type 1, NT1）、2型发作性睡病（Narcolepsy Type 2, NT2）、特发性嗜睡症（Idiopathic Hypersomnia, IH）、克莱恩-莱文综合征（Kleine-Levin Syndrome, KLS）、精神病性嗜睡、内科疾病所致嗜睡、药物或物质所致嗜睡以及睡眠不足综合征（Insufficient Sleep Syndrome, ISS）。尽管分类明确，但CDH常存在特征重叠，且当前诊断工具准确性有限。NT1由于睡眠起始快速眼动（Rapid Eye Movement, REM）睡眠期（SOREMPs）、人白细胞抗原（Human Leukocyte Antigen, HLA）-DQB1*06:02阳性以及脑脊液（Cerebrospinal Fluid, CSF）中食欲素缺乏等生物标志物，特征最明确。相反，NT2和IH缺乏可靠生物标志物，临床重叠显著，诊断不确定性高。这导致了“发作性睡病边界区”（Narcolepsy Borderland, NBL）概念的产生，涵盖定义不清的嗜睡状态。缺乏特异性生物标志物和ICSD-3标准的局限性凸显了对数据驱动诊断工具的需求。机器学习（Machine Learning, ML）通过识别复杂数据集中的隐藏模式，有望支持生物标志物发现和诊断改进。深度学习（Deep Learning, DL）作为ML的分支，可从原始数据中提取特征。监督与非监督方法各有侧重。本系统综述旨在评估ML在改善CDH诊断标准方面的现有证据，识别数据模态、描述ML方法、分析其处理诊断不确定性的作用，尤其关注NBL。

2 方法

2.1 研究问题：本综述的研究问题为：“哪些数据类型和ML技术已被应用于改善成人中枢性嗜睡障碍的诊断准确性、亚型分类或生物标志物识别？”

2.2 纳入与排除标准：纳入标准为：人类成人（≥18岁），根据ICSD-3诊断或怀疑患有CDH（包括NT1、NT2、IH、KLS、ISS）；应用ML或DL方法，目标为开发诊断工具、识别生物标志物、聚类/分类患者亚型或预测诊断。排除标准为：儿童、青少年或动物研究；继发于精神障碍、内科疾病或药物的嗜睡；未应用ML/DL方法的研究；ML应用于无直接CDH诊断关联的睡眠特征等。

2.3 检索策略：研究人员在MEDLINE、Embase、PsycINFO、IEEE Xplore、CINAHL、Web of Science和Google Scholar（截至2025年6月）中进行了全面检索，并辅以手工检索。检索概念包括“嗜睡”、“机器学习”和“诊断”。

2.4 研究选择：使用Covidence进行管理，至少两名独立评审员筛选标题、摘要和全文，分歧通过讨论解决。最终纳入41项研究（37篇同行评审文章和4篇预印本）。

2.5 数据提取与综合：提取作者、年份、人群、临床目标、数据类型、预处理步骤、学习类型、ML方法、训练验证策略、关键结果及局限性。按数据集、ML方法和研究目标进行分组，对监督与非监督方法进行叙事综合，并评估方法学质量。

3 结果

3.1 纳入研究概述：初始检索共发现3274篇论文，经去重和筛选后，最终纳入41项研究。3.2 研究特征：其中9项采用非监督ML方法，32项采用监督ML方法。12项研究使用了循环交替模式（Cyclic Alternating Pattern, CAP）数据集。特征方面，多导睡眠图（Polysomnography, PSG）衍生特征最为常见（26项），其次为临床记录（8项）、问卷（8项）和多次睡眠潜伏期试验（Multiple Sleep Latency Tests, MSLT）特征（8项）。仅5项研究使用原始PSG数据，5项使用生物标志物（如HLA状态和CSF水平），2项使用神经影像学。多数研究（30项）依赖单一模态，11项整合多模态数据。33项研究使用传统ML，8项使用DL，且DL研究多出现在2021年之后。3.3 结果的质量与验证：非监督研究中，通过轮廓系数、肘部法、重抽样及临床判断评估聚类效度。监督研究多数采用内部验证（如k折交叉验证），仅5项进行外部验证或跨中心验证。使用CAP数据集的研究验证协议一致性较差。3.4 非监督机器学习应用的结果：3.4.1 方法类型：包括K-Means聚类、K-Medoids聚类、层次聚类和自适应共振理论（Adaptive Resonance Theory, ART）神经网络。3.4.2 疾病与数据集：多数研究聚焦于NT1、NT2和IH，样本量从15到超过1000不等。多数使用多模态数据（PSG、MSLT、问卷、人口统计学、CSF食欲素-1水平、HLA分型）。3.4.3 主要发现：所有非监督ML研究均识别出具有共享特征的患者聚类。NT1始终被识别为独特表型，两项研究发现以女性为主的NT1聚类。聚类常揭示NT2与IH之间的重叠，如一项研究发现无猝倒患者的两组，其中一组HLA-DQB1*0602阳性率和CSF食欲素-1水平较低。基于主观测量（如症状严重程度）的聚类反映了整体严重程度而非独立诊断类别。IH的异质性得到进一步描述，包括MSLT昼夜节律差异和夜间睡眠表型差异。3.5 监督ML应用的结果：3.5.1 方法类型：最常用的方法为基于树的模型（如随机森林Random Forest、极端梯度提升Extreme Gradient Boosting, XGBoost，14项），其次为线性模型（5项）、支持向量机（Support Vector Machine, SVM，4项）以及神经网络。神经网络包括卷积神经网络（Convolutional Neural Network, CNN）、长短期记忆网络（Long-Short-Term-Memory Network, LSTM）和Transformer架构，其中4项采用多任务学习同时进行睡眠分期和诊断。3.5.2 疾病与数据集：常见诊断组为NT1、NT2和IH，许多研究纳入健康对照或非发作性睡病对照。样本量从约30到超过3000。多数使用PSG衍生特征（如频谱功率、睡眠结构指标、纺锤波和慢波），部分使用自动睡眠评分生成的睡眠密度图特征。12项研究使用了CAP数据集。3.5.3 主要发现：3.5.3.1 NT1与健康对照分类：研究一致显示高准确率和特异性。关键特征包括睡眠EEG差异（如REM-觉醒解离、REM中α波功率增加、觉醒和NREM1中σ和δ活动减少）、REM起始潜伏期和睡眠不稳定性。静息态fMRI显示额叶和顶叶变化。3.5.3.2 NT1与NT2分类：利用MSLT中的REM相关动态（如NREM2/NREM3向REM转变）及周末睡眠时长等特征。移除猝倒和食欲素水平会降低模型特异性。PET活动显示基底节、赫氏回和纹状体差异。3.5.3.3 CDH内部分类：基于问卷的模型用于筛查显示一定潜力。整合时间信息（如夜间睡眠四分位）的PSG特征优于手动评分特征。IH与NT1的鉴别基于睡眠EEG谱特征，NT2与IH的鉴别性能中等。REM起始潜伏期是分类CDH组的关键特征，睡眠不稳定性指标在区分NT1与NT2或对照时更具信息量。

4 讨论

4.1 非监督学习研究的优势与局限性：非监督ML在揭示CDH表型异质性方面具有潜力，特别是识别超出明确诊断类别之外的亚型。研究结合客观和主观数据，一致识别出同质性NT1聚类，并揭示NT2、IH及NBL人群中的异质性。一些聚类匹配新型亚型，如女性主导的NT1或基于症状严重程度的NBL组，提示性别差异和自我感知影响。但多数研究依赖从睡眠图衍生特征而非原始数据，可能忽略细微模式，且缺乏外部验证和前瞻性随访。未来的研究应将数据驱动亚型与长期结局相关联。4.2 监督学习研究的假设与特征分析：监督ML中，已确定的临床和生物标志物（如早期REM起始、睡眠阶段解离、猝倒、食欲素缺乏）持续作为关键预测因子。NT1是分类最明确的组，NT2和IH的分类性能下降，反映了当前分类固有的不确定性。频谱特征（如REM中α活动增加、觉醒时σ减少、NREM1中δ功率增加）对NT1特别有信息价值，但对NT2和IH效用有限。监督学习依赖ICSD-3诊断标签作为金标准，这可能强化有缺陷的分类框架，并阻碍新生物标志物的发现。CAP数据集的使用需谨慎，因其设计并非用于疾病分类，且样本量小、类别不平衡、睡眠分期系统陈旧，限制泛化性。多数监督研究使用基于树的方法，可解释性强，但需注意性能报告常基于时期级别而非患者级别，可能高估临床相关准确性。类不平衡问题也需警惕，推荐报告F1分数。比较组的选择差异（健康对照或非CDH条件）导致跨研究性能比较不可靠，临床挑战在于CDH亚型间尤其是NBL内的区分。4.3 方法学考量与挑战：主要挑战是缺乏大规模、多样化、标注良好的数据集。小数据集增加过拟合风险。欧洲发作性睡病网络（EU-NN）数据库提供了多模态数据但无原始PSG；国际瑞士原发性嗜睡症和发作性睡病队列研究（iSPHYNCS）正在收集纵向多模态数据。算法方面，DL在特征提取方面日益突出，如基于自动睡眠评分的睡眠密度图可捕获睡眠阶段解离。预测练模型（如自监督学习、迁移学习）改善了泛化性，例如SleepGPT基于Transformer检测宏观结构异常。但这些模型计算强度高且可解释性有限。整合可解释性方法（如注意力可视化）和临床医生参与至关重要。前沿方向包括多模态Transformer、半监督学习、使用原始生理信号及多模态融合。此外，需要标准化评估框架，包括外部验证和跨人口学亚组的一致性能报告，以及代码和数据的开放共享。4.4 临床意义：NT1是最易识别的CDH亚型，而NT2和IH仍存在诊断模糊性。ML模型强调的预测特征（如REM起始潜伏期、睡眠阶段解离）已为临床熟悉，但ML展示了其作为区分因子的算法潜力。当前模型虽不成熟用于独立诊断，但可作为临床决策支持工具。非监督方法作为假设生成工具，可发现新表型并指导生物标志物研究。

5 结论

本系统综述强调了在CDH分类中整合客观（如PSG、生物标志物）和主观（如问卷）评估的必要性，同时指出时间信息和长期可穿戴数据的未开发潜力。未来进展依赖于纵向、多模态数据收集以及临床医生、数据科学家和ML专家之间的紧密合作。借助大规模、多模态数据集，ML方法在改善诊断和发现临床相关亚型方面具有强大潜力，有助于实现患者个体化治疗和管理。

联系信箱：

粤ICP备09063491号

热点排行