《Annals of Biomedical Engineering》:Screening and Evaluation of Post-stroke Dysphagia: Insights from Neurology, Artificial Intelligence and Data Science—A Scoping Review
卒中后吞咽障碍(PSD)影响约42%的急性卒中患者,增加住院费用和住院时间。早期识别可改善预后,但许多患者——尤其是低资源环境中的患者——无法获得金标准评估。本范围综述探讨人工智能(AI)和数据科学——定义为利用计算方法、统计建模和机器学习从生物医学数据中提取具有临床意义模式的跨学科应用——在PSD筛查和评估中的整合。研究人员综合了床旁筛查工具、声学语音分析及新兴的AI驱动模型用于吞咽障碍和误吸风险分层的证据,批判性评价了与小样本量、过拟合风险及外部验证需求相关的局限性。传统工具如饮水吞咽测试(WST)显示出高灵敏度但特异性不一;近期研究支持将此类测试与基于语音的生物标志物相结合,如吞咽后湿声(wet voice)、基频微扰(jitter)和振幅微扰(shimmer)。尽管湿声作为独立标志物的灵敏度有限(8–29%),但其在多模态方法中的高特异性(75–94%)支持继续深入探究。基于声学参数训练的AI模型在检测渗透-误吸事件方面表现出良好性能,而移动和语音平台可能扩大诊断覆盖范围,但需进一步验证。研究人员还回顾了最佳筛查时机,强调在卒中发病24小时内进行评估并对高危患者进行重复评估。未来方向提倡多模态、以患者为中心的方法,结合可穿戴生物传感器、云端分析和文化适应性算法,同时应对基础设施需求、数字素养、工作流程整合和伦理考量等实施挑战。临床专业知识与计算技术的融合为公平、可扩展和精准的吞咽障碍护理提供了有前景的路径。
**1 引言**
卒中后吞咽障碍(PSD)是脑血管事件后常见且关键的并发症,汇总分析数据显示其合并患病率约为42%,但由于评估时间、人群和方法的不同,各研究报道的发病率差异显著。吞咽障碍是吸入性肺炎、功能恢复不良和死亡率增加的主要促成因素。PSD构成重大公共卫生负担:美国全国住院样本分析(2009–2013年)显示,吞咽障碍诊断与平均8.8天的住院时间相关,而无吞咽障碍患者为5.0天(增加76%),住院费用更高,出院至后期照护的可能性更大,院内死亡率约高1.7倍。PSD的负担在低资源环境中尤为严峻,那里缺乏专家诊断评估、专业人员、仪器评估设备和系统筛查方案等卒中照护基础设施。健康公平考量在PSD管理中居于核心地位,因为筛查和康复服务获取方面的不平等 disproportionately 影响中低收入国家(LMICs)的人群。本综述旨在综合当前证据和技术创新——特别是利用人工智能(AI)和数据科学——以增强并可能转变PSD的筛查和评估。
本综述中,"数据科学"一词指代计算方法的跨学科应用——包括机器学习、统计建模、信号处理和模式识别——以从声学信号、临床测量和影像学等生物医学数据中提取具有临床意义的信息。近期发展表明,在资源有限环境中,利用声音分析和语音生物识别来识别吞咽障碍相关改变具有可行性。神经病学、言语语言病理学与计算工具之间的交叉使得跨学科方法成为可能,反映了吞咽生理复杂性及其卒中后受损的机制。尽管这些经过验证的临床和仪器工具已经可用,但全面的吞咽障碍评估往往受到基础设施、费用和专家可及性的限制——尤其在中低收入国家。计算科学和AI的最新进展为可扩展、准确的筛查方法开辟了新途径,包括基于语音的生物标志物、移动应用和基于声学及临床数据训练的机器学习算法。然而,证据仍分散于各学科之间,这些工具的临床整合面临与验证、可用性和公平性相关的挑战。本范围综述旨在系统描绘PSD筛查和评估的当前图景,突出传统工具、声学-感知方法和AI驱动创新,通过连接神经病学、言语语言病理学和数据科学,识别转化研究的关键机会,并为多样化的医疗环境设计可及、情境适应性筛查策略。
**2 方法学**
本范围综述按照Arksey和O'Malley的方法学框架进行,并遵循范围综述PRISMA扩展(PRISMA-ScR)清单报告。文献检索涵盖PubMed、Scopus、Embase、Web of Science和Cochrane Library数据库2008年1月至2025年4月的文献,采用布尔运算符和截词检索,并手工检索纳入研究的参考文献列表。纳入标准包括:(1)评估经验证吞咽障碍筛查工具和方案的临床研究;(2)筛查或仪器评估的系统综述或荟萃分析;(3)提出或验证基于AI工具或声学标志物的原创研究;(4)与低资源环境相关的技术框架或方案。排除标准包括无翻译的非英文研究、仅关注儿童或非神经性吞咽障碍的研究、以及未在后续工作中验证新技术的单病例报告。
两位作者独立进行文献筛选和全文审阅,分歧通过共识或第三方仲裁解决。数据提取内容包括工具特征、变量、诊断性能指标(灵敏度、特异度、AUC)和实施背景;对于AI研究,还包括模型类型、输入特征、验证方法和性能指标。采用Braun和Clarke的六阶段框架进行定性主题综合,涵盖六个领域:PSD的临床相关性和负担、传统筛查和仪器评估工具、声学和感知语音分析、机器学习模型和数字健康应用、筛查时机和频率评估、以及低资源或远程医疗环境中的适用性。
**3 结果**
**3.1 吞咽障碍筛查的临床影响**
PSD与吸入性肺炎相关,约三分之一受影响个体出现此并发症,是早期死亡率的主要预测因素。除肺炎外,大型回顾性队列研究显示吞咽障碍还与脱水、尿路感染和便秘等额外并发症独立相关,凸显其广泛的临床影响。有研究者强调PSD可能是卒中严重度之后住院死亡的第二大重要危险因素。24小时内筛查与改善预后相关,可能缩短住院时间和减少并发症,但针对24小时筛查的正式成本效益数据仍然有限。作者们证明吞咽后湿声的存在并非总是预测误吸,但提示喉功能障碍风险增加。Brodsky等的近期证据强调饮水吞咽测试(WST),特别是容量递增或连续啜饮方案,对误吸检测具有良好灵敏度(高达91%)但特异性不一。将感知性语音分析与这些方案相结合可提供更好的风险分层。
**3.2 临床预测因素和评估工具**
临床预测因素如吞咽后音质变化——特别是紧张度增加、无力感降低和GRBAS(Grade, Roughness, Breathiness, Asthenia, Strain)量表改变——仍有价值,尽管各研究间灵敏度存在差异。吞咽后的声音异常已被证明可指示残留物或气道受损,强化了团块摄入后立即进行感知监测的临床获益。临床评估工具图景包括标准化床旁工具如Gugging吞咽筛查(GUSS)、多伦多床旁吞咽筛查测试(TOR-BSST)和标准化吞咽评估(SSA),以及仪器评估如视频透视吞咽研究(VFSS)和纤维内镜吞咽评估(FEES)。在床旁工具中,GUSS显示出最高诊断准确性(AUC 0.87–0.93),TOR-BSST显示高灵敏度(91%)和中度特异性(66%),容积-黏度吞咽测试(V-VST)实现了最佳的灵敏度(94%)和特异性(88%)组合。Daniels等证明存在两个或更多临床特征——如发声困难、咳嗽无力或咽反射异常——可高灵敏度预测误吸。Caviedes等进一步证实将湿声与颈听诊和饮水吞咽测试结合可提高误吸特异性及似然比。
研究探索了基频微扰(jitter)、振幅微扰(shimmer)和噪声谐波比(HNR)等声学标志物在识别误吸事件中的效用。尽管感知性湿声检测灵敏度有限(8–29%),但其高特异性(75–94%)和阴性预测值使其成为排除阴性病例风险的有用工具。这种低灵敏度但相对较高特异性的模式意味着湿声缺失仅能提供有限的无风险保证,因为其低灵敏度会漏诊相当比例的误吸患者。因此,湿声不应作为误吸的独立排除测试,但其特异性在多模态评估中进行风险分层时具有价值。此外,吞咽后嗓音变异性在吞咽障碍个体中大于对照组。
在神经肌肉疾病环境中,研究者强调声音变化(包括湿声或吞咽后发声努力增加)常常是吞咽障碍最早期的体征,可能是疲劳或通气患者中唯一可观察的体征。这些发现强化了将感知性语音评估整合入多学科评估的重要性。
**3.3 数字健康筛查和评估资源**
近期技术进步使得吞咽障碍评估工具的数字部署成为可能。Youmans和Stierwalt(2006)证明了年龄和食物稠度相关的舌压变化,建立了舌功能测量的标准化数据,提出将客观舌肌力测量与临床评估相结合,为量化口咽运动功能提供框架。Murugappan等利用离体喉模型证明声带上的液体可引入发声的非线性扰动,支持吞咽后声学特征与团块残留之间的机制联系;与数字频谱图检查整合后,此类特征可提供自动化筛查线索。Santos等证明吞咽后感知性音质参数如紧张度和无力感发生显著变化,特别是进食糊状食物后,提示吞咽障碍个体的代偿性发声努力。
原型设备设计用于连续监测,如Casiddu和Porfirione开发的移动系统,突出结合加速度计、声学传感器和AI驱动事件检测的可行性。这些系统纳入远程监测框架后,可在无人监督进食期间提供误吸风险早期预警,对进行性神经肌肉疾病人群尤其有价值。
**3.4 吞咽障碍评估中的人工智能**
基于AI的工具已从实验环境扩展至初步临床验证。Saab等提出使用卒中患者元音和语句发声进行吞咽障碍筛查的深度学习工具,实现AUC 0.91,展示了准确、无创、仅基于语音的筛查方法的可行性,但临床或移动应用部署前需外部验证。Girardi等综述了使用卷积神经网络(CNN)进行VFSS解读的AI赋能工具,分类误吸和渗透模式,显示出匹配专家评估者的潜力。
然而,评价这些AI模型时必须承认若干关键方法学局限。迄今为止多数研究在单中心、同质化小样本数据集上进行,引发对过拟合的重大担忧——模型在训练数据上表现优异但无法泛化到新人群或环境。深度神经网络的"黑箱"性质对临床可解释性构成额外挑战:临床医生无法轻易理解模型为何将特定患者标记为高风险,这可能限制信任和采纳。此外,极少有这些模型在独立队列中经过外部验证,这是任何临床部署前的必备条件。
吞咽后的语音改变现可通过语音生物识别算法评估,检测"湿声"或不规则谐波衰减,使用振幅微扰(shimmer)和基频微扰(jitter)等测量指标。这些声学参数,特别是与基于标记VFSS结局训练的神经网络结合建模时,可实现具有高通阴性预测值的实时误吸风险筛查。区域特异性适应至关重要:Gallano等强调拉丁美洲需要文化适应性数据集和语言特定发声模型;实现AI驱动语音评估的文化和语言适应涉及若干技术挑战:训练数据必须包含代表区域口音、方言和语音模式的多样化说话者群体;特征提取流程必须针对语言特定标准值校准;验证研究必须在目标人群中进行以确保模型性能跨语言群体泛化。Lopes等引入了针对葡萄牙语使用者的验证频谱协议。但Warms和Richards警示,不结合多模态发现时不应过度解读湿声。
**3.5 生物医学语音信号处理中的降噪:卒中后吞咽筛查的启示**
降噪是生物医学语音信号分析中的关键预处理步骤,特别是在开发用于卒中后人群吞咽障碍筛查的机器学习算法中。声带生物标志物——如基频微扰(jitter)、振幅微扰(shimmer)、噪声谐波比(NHR)和频谱斜率——的准确提取对环境噪声高度敏感。没有有效的噪声抑制,用于区分正常和误吸语音样本的声学特征的可靠性可能受损,可能破坏基于AI模型的诊断准确性。
近期研究强调了用于误吸检测的深度学习音频数据中进行噪声清理的必要性。其实施了包括幅值归一化、修剪和去噪后将原始音频转换为梅尔频谱图的多阶段预处理流程,发现当前后吞咽语音数据使用受控修剪和片段标准化清洗时,AUC等性能指标显著改善。这些措施减少了类内方差并优化了EfficientAT神经网络检测误吸相关语音改变的能力,在多种配置下实现AUC高于0.80。
作者们展示了数字信号处理(DSP)技术在生物医学语音应用中的更广泛效用。除信号增强外,基于语音的模型的可靠性和稳健性本身也是积极研究的领域,因为模型可信度和跨人群及记录条件的稳定性是安全临床转化的先决条件。频谱减法、维纳滤波和卡尔曼滤波等技术——特别是与实时处理结合时——已被证明可改善依赖语音的系统中的信噪比(SNR)和清晰度。特别是时域和频域卡尔曼滤波在病理性语音数据集中的语音增强方面已被证明优于传统频域估计器。
这对吞咽障碍筛查具有重要启示。在基于语音的评估中,如分析湿声或细微吞咽后声学扰动时,背景噪声可模拟或掩盖临床相关线索。通过在预处理期间应用稳健降噪技术,提取的语音特征保真度得以保持,从而增强模型在真实世界、通常声学不受控环境(如病房或康复中心)中的泛化能力和准确性。此外,将降噪输入与领域特异性增强(如极性反转、时间拉伸)结合,可增强模型对患者间和场景间语音变异性的稳健性。
**3.6 最佳筛查时机**
筛查理想情况下应在卒中后24小时内进行,有证据显示延迟评估与更差的预后相关。这一时间线得到机构方案和Cochrane证据的支持。尽管美国心脏协会/美国卒中协会(AHA/ASA)、欧洲卒中组织和世界卒中组织等多个国际指南推荐早期吞咽障碍筛查,但目前尚无单一普遍采用的确切时间和方法共识指南。AHA/ASA指南推荐任何经口摄入前筛查,欧洲卒中组织呼吁筛查方案标准化。3盎司和100毫升WST作为快速、低成本工具具有高灵敏度,特别是在观察到窒息和湿声等误吸指标时。对于神经状态波动或迟发性吞咽困难的患者必须进行重新评估。美国国立卫生研究院卒中量表(NIHSS)捕获的卒中严重度可作为吞咽障碍预测的辅助指标,但幕上和幕下病变的区分至关重要,因为幕下卒中需采用较低NIHSS阈值以避免漏诊。
**3.7 低资源环境中的计算和数据科学资源**
技术可及性至关重要。基于移动的AI平台可仅使用语音信号分类误吸风险和卒中后呼吸并发症,这些工具在低成本神经网络上运行且可离线工作。然而,在低资源环境中部署基于AI的筛查工具面临实质性实际障碍,包括:(a)开发、验证和维护数字平台的成本;(b)基础设施需求,包括可靠电力和互联网连接——尽管离线功能工具缓解部分担忧,软件更新、数据同步和远程技术支持仍存挑战;(c)临床医生和患者的数字素养,特别是农村或欠发达地区对基于智能手机的健康应用熟悉度可能有限;(d)将新型筛查工具整合入本已超负荷的人员不足医疗设施临床工作流程的挑战。这些障碍意味着基于AI的解决方案虽具前景,但尚不适合立即广泛部署,需要包括利益相关者参与、迭代可用性测试和情境特异性适应在内的谨慎实施策略。
在资源有限环境中,经验证的床旁筛查方案仍是最立即可部署的策略;颈椎听诊联合机器学习和声学语音分析等新兴方法具有前景,但需更强前瞻性验证和成本效益分析后方可广泛部署。此类方法具有吸引力,因其可在无专有系统的情况下运行。Santamato等提出的基于声音的标记与基本笔记本电脑设置兼容,支持在基层医疗中心或区域医院部署。临床证据证实了在仪器不可用时使用床旁听觉-感知标记作为筛查旗标的可行性。
**4 讨论**
本范围综述描绘了快速演变的图景——PSD的传统床旁和仪器工具正日益得到声学-感知标志物和人工智能的补充。综合得出三个观察:首先,没有任何单一筛查工具兼具最佳灵敏度和特异性,这支持将经验证的床旁工具与基于语音的标志物配对的多模态策略。其次,AI驱动声学模型报告了高判别性能(AUC值常超过0.90),但其证据基础仍由小样本、单中心数据集主导,外部验证有限,缓和了临床部署就绪性的主张。第三,低资源环境中的公平实施不仅取决于算法性能,还取决于基础设施、数字素养、工作流程整合以及文化和语言适应性模型。
**4.1 未来展望**
语音分析和深度学习的整合正在革新PSD筛查工具。Saab等的概念验证研究中,DenseNet-121和ConvNeXt-Tiny架构应用于卒中患者元音、单词和语句发声的梅尔频谱图,其集合分类器实现了89%的参与者水平灵敏度、79%的特异性和0.91的AUC,展示了准确、无创、仅语音筛查方法的可行性,但临床或移动应用部署前需独立队列的外部验证。
AI辅助视频透视吞咽研究(VFSS)也取得重大进展。Jeong等开发了基于YOLOv7分割VFSS帧和检测渗透及误吸相的网络AI平台,准确率高达96%,在一分钟内处理完整VFSS检查,展示了自动化视频支持工具的可行性,但临床采用前需更大多中心验证。
多模态传感器整合正成为前沿领域。结合喉部振动传感器、压力垫和环境数据的物联网(IoT)原型系统具有全面居家监测的潜力,可能实现从分诊到诊断和康复的端到端支持,无需高级基础设施。
隐私保护联邦学习对全球可扩展性至关重要。联邦模型允许跨医院分散训练而无需交换原始患者数据,增强跨多样化人群的模型稳健性,同时保护隐私——这对多样化医疗环境中的公平部署至关重要。
随着云计算、微型化生物传感器和数据互操作性的发展,它们开辟了通往更丰富数据集的路径。这些将支持荟萃分析级别的综合、语音和传感器生物标志物的标准化,以及循证临床指南的制定。Kim等开发了基于集合CNN的频谱图模型,采用短时傅里叶变换(STFT)和梅尔频率倒谱系数(MFCC),应用于超过580名参与者的大队列,系统达到AUC=0.950、灵敏度=94.7%、特异性=77.9%,进一步验证了纯声学数字生物标志物在PSD检测中的作用。
但广泛采用需要严格的多中心验证、临床医生培训和强有力伦理监督,包括偏见审计和知情同意机制。健康公平——必须嵌入PSD照护路径从筛查获取到AI工具设计的全过程——对于确保技术情境敏感性适应并避免加剧数字不平等至关重要。
**4.2 数据密集型技术在PSD筛查中的伦理考量**
AI驱动的数据密集型筛查技术的部署引发若干需实质性讨论的伦理挑战。首先,敏感患者语音数据的收集和分析需要稳健的知情同意流程。卒中后患者可能存在认知障碍、失语或决策能力降低,需要法定授权代表参与和使用简化、可及的同意材料。伦理义务延伸至确保患者和家庭理解其语音录音将如何存储、使用以及可能用于模型训练共享。其次,长期数据存储和安全必须符合适用法规,明确的数据治理政策涉及保留期限、去识别化程序和违规响应协议。第三,算法偏见是严重关切:主要训练主流语言或标准方言说话者的AI模型可能对少数语言、区域方言或卒中前存在无关语音障碍的说话者表现不佳。模型开发和临床部署前应进行跨人口亚组(包括年龄、性别、种族和语言背景)的系统性偏见审计。最后,AI决策的透明度,包括向临床医生提供可解释性工具(如注意力图、SHAP值),对建立信任和确保AI作为决策支持工具而非临床判断的不透明替代至关重要。
**4.3 局限性**
本范围综述存在若干局限性。作为范围综述,未对纳入研究进行正式质量评估或偏倚风险评价,符合既定范围综述方法学。检索限于英文出版物,可能排除了非英语区域——特别是PSD负担集中的中低收入国家——的相关研究。纳入研究设计的异质性(从观察性研究到概念验证AI模型)限制了跨工具和方法的诊断性能指标直接比较。许多AI研究在单中心环境中进行且样本量小,其报告的性能指标可能无法泛化至更广泛人群;这些模型中的过拟合风险无法排除。发表偏倚可能导致阳性结果研究的过度代表。最后,AI的快速发展意味着此处描述的一些工具可能已在搜索完成后被取代或进一步验证。
**4.4 结论**
人工智能和数据科学代表卒中后吞咽障碍筛查和评估的变革性工具。其整合入临床工作流程——特别是在专业照护获取有限的环境中——可增强诊断准确性、实现早期干预并减少并发症。PSD的早期检测和干预已被证明可降低吸入性肺炎发生率、缩短住院时间并降低医疗成本,突显了投资改进筛查策略的经济合理性。尽管当前模型具有前景,但需进一步工作以确保验证、可用性和公平部署。重要的是,新兴证据强调通过感知和声学手段测量的吞咽后语音改变,不仅是残留物或误吸的标志,也代表了神经肌肉控制中的功能适应。结合临床敏锐度与机器学习洞察的混合模型可能为未来筛查策略提供最稳健的方法。