编辑推荐:
肌萎缩侧索硬化(ALS)患者常出现构音障碍,现有 AI 模型分析效果有限。研究人员开展基于注意力深度学习 AI 模型评估构音障碍的研究,最佳模型 R2达 0.92 、RMSE 为 6.78,还识别出关键语音要素,为研究和患者护理提供新工具。
在神经疾病的研究领域,肌萎缩侧索硬化(Amyotrophic Lateral Sclerosis,ALS)是一种极具挑战性的复杂 neurodegenerative 疾病。它主要侵袭负责随意肌肉运动的上下运动神经元,就像一个隐藏在身体内部的 “破坏者”,悄无声息地引发一系列严重问题。患病初期,患者常出现肢体无力、肌肉痉挛等症状,而随着病情无情地发展,肌肉会逐渐严重萎缩,最终导致瘫痪,甚至呼吸衰竭,从确诊到出现这些严重症状,平均仅仅只有 2 - 4 年的时间。
在 ALS 患者中,构音障碍是一个极为常见且棘手的问题,超过 80% 的患者会受到它的困扰。对于那些以延髓起病的 ALS 患者来说,情况更为糟糕,他们在肢体症状出现之前,就会经历言语、唾液分泌和吞咽功能的改变,而且与脊髓起病的患者相比,他们的说话速率、言语可懂度下降得更快,生存率也更低。
目前,在评估 ALS 进展方面,常用的工具是修订版 ALS 功能评定量表(ALSFRS - R)。然而,这个量表存在明显的缺陷,它通过 12 个问题来评估 12 个方面,包括言语恶化情况,但这种低粒度的评估方式就像用一把 “粗糙的尺子” 去测量精细的物品,根本无法及时捕捉到言语的细微变化。同样的问题也出现在其他影响言语的健康状况评估中,比如帕金森病。为了更准确地评估构音障碍,研究人员尝试了各种方法,其中倾听者努力(Listener Effort,LE)评分被认为是一种有潜力的临床有意义的测量指标,不过它也面临着评分易变、不同倾听者存在偏差等问题。
在这样的背景下,来自 IBM Research、EverythingALS 等多个机构的研究人员,决心攻克这一难题。他们开展了一项极具意义的研究,旨在利用基于注意力的深度学习 AI 模型,更精准地评估构音障碍的严重程度。这项研究成果发表在《npj Digital Medicine》上,为该领域带来了新的曙光。
研究人员采用了一系列关键技术方法来开展研究。他们从 EverythingALS 组织的大型纵向言语研究(Austen Speech Study)中招募参与者,收集了 125 名参与者的 2102 条录音,这些参与者包括 ALS 患者和非 ALS 参与者,且非 ALS 参与者在人口统计学上与 ALS 组相匹配。由三名专业的言语病理学家(Speech - Language Pathologists,SLPs)对录音进行回顾性评估,按照 0 - 100 分的量表对倾听者努力程度进行评分。在数据处理方面,为了减少评分中的异常值影响,研究人员计算了复合倾听者努力得分(Composite Listener Effect Score,CLES),并通过严格的筛选标准确定最终用于分析的录音。在模型构建上,他们对强大的预训练编码器进行端到端微调,添加分类头来训练基于注意力的深度学习 AI 模型,并通过五折和十折交叉验证评估模型性能。
研究结果令人振奋。在复合倾听者努力得分评估方面,研究发现三名 SLP 的评分比例分别为 32%、34%、34% ,且 CLES 与 ALSFRS - R 言语评分之间存在很强的相关性(R2=0.5,p<0.00001)。同时,句子长度与困惑度(衡量文本不可预测性或语言复杂性的指标)的关系并不均匀,且困惑度与 CLES 之间没有显著相关性。
在模型性能方面,研究人员比较了多种模型。结果显示,五折交叉验证时,基于手工特征的模型中,OpenSMILE - 6.3k 的 RMSE 为 11.27±1.51,R2为 0.78±0.05;基于注意力的深度学习 AI 模型中,AST - FT 的 RMSE 为 10.78±2.03,R2为 0.78±0.05,而 Whisper - FT 表现最佳,RMSE 为 6.78±0.96,R2为 0.92±0.02 。性别特异性模型方面,男性模型 R2为 0.86±0.04(RMSE 为 7.67±1.39),女性模型 R2为 0.93±0.02(RMSE 6.90±0.75)。
临床解释分析发现,模型关注的关键单词和音素与构音障碍密切相关。例如,单词 “a” 以及与之相关的音素(AH0、AE1、AO1)在检测 CLES 中很重要;含有复杂 r 元音的音素,如 AO1 - R、AA1 - R 和 E - R ,在 ALS 患者中发音时往往出现发音不足的情况;单词开头带有浊齿擦音的 “the”“that” 等,以及含有 w 音素的 “when”“we”“without” 等单词也受到模型高度关注。此外,参与者吸气时发出的声音被模型识别为早期言语恶化的特征。
研究结论和讨论部分进一步强调了这项研究的重要意义。该研究提出的基于注意力的深度学习 AI 模型,在量化构音障碍患者的言语变化方面表现出色,不仅提高了评估的精度和粒度,还能识别出关键的语音要素,这对于临床试验中量化治疗组和安慰剂组的变化至关重要,也能帮助患者提前预知构音障碍的恶化,以便更好地规划使用辅助沟通工具。不过,研究也存在一些局限性,比如数据集中语言多样性不足,缺乏关于 ALS 表型和其他疾病特征的详细信息,且对照组未纳入其他神经退行性疾病。未来的研究可以朝着增加语言多样性、纳入更详细临床信息等方向改进,以进一步提升模型的性能,为 ALS 和其他神经疾病的研究与患者护理提供更有力的支持,推动整个神经疾病诊疗领域的发展。