基于自然语言处理的帕金森病数字表型分析：揭示语言标记物在认知分型中的诊断潜力

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

【字体：大中小】 时间：2025年06月25日 来源：npj Parkinson's Disease 6.7

编辑推荐：

　　本研究通过自然语言处理技术，对帕金森病（PD）患者及轻度认知障碍亚型（PD-MCI/PD-nMCI）的连续语音进行多维度语言特征分析，结合支持向量机（SVM）和递归特征消除（RFE）算法，成功构建了区分准确率达85%的分类模型。研究发现动作动词比例、话语错误率等语言特征与运动症状严重度（MDS-UPDRS III）显著相关，为PD早期诊断和认知分型提供了新型数字化生物标志物。

帕金森病作为第二大神经退行性疾病，其诊断主要依赖运动症状的临床观察，但越来越多的证据表明，语言障碍往往早于典型运动症状出现。然而，现有研究存在三大瓶颈：一是传统语言评估依赖人工分析效率低下；二是多数研究聚焦单一语言维度；三是针对不同认知表型（如是否伴发轻度认知障碍PD-MCI）的语言特征差异研究不足。这些局限使得语言标记物在临床实践中的应用价值未能充分释放。

意大利临床科学研究所的研究团队在《npj Parkinson's Disease》发表创新性研究，首次将计算语言学与可解释机器学习相结合，系统分析了36名PD患者（含16名PD-nMCI和20名PD-MCI）和20名健康对照的连续语音特征。研究采用SAND量表中的图片描述任务诱发自然语言产出，通过CLAN软件提取35个跨语言维度特征，运用嵌套交叉验证的SVM模型实现四组分类，最佳AUC达85%。关键发现包括：PD-nMCI组动作动词比例与MDS-UPDRS III评分显著负相关（ρ=-0.50），PD-MCI组无动词话语比例与MoCA评分负相关（ρ=-0.60），揭示了语言特征与临床指标的生物学关联。

技术方法上，研究采用标准化SAND图片描述任务采集语音样本，Whisper自动语音识别系统转录文本，CLAN软件进行词性标注和特征提取（含语音错误率、形态错误率等35个指标）。通过递归特征消除（RFE）选择最优特征子集，支持向量机（SVM）构建分类模型，并采用SHAP值进行特征重要性解释。所有分析均基于10折嵌套交叉验证框架，确保结果可靠性。

研究结果部分呈现四大核心发现：

全PD组vs健康对照分类：以回溯修正比率（retracing ratio）为最关键特征，模型准确率77%，揭示PD患者言语自我监控功能障碍。

PD-nMCI亚组特征：动作动词比例下降最具鉴别力（准确率84%），支持"动作-语言耦合"理论，反映基底节-前额叶网络损伤。
PD-MCI亚组特征：无动词话语比率升高（准确率83%），提示语法简化与执行功能衰退相关。
亚型间鉴别：形态错误率和放弃词比率可区分PD-nMCI与PD-MCI（准确率76%），表明认知衰退伴随更广泛语言域损伤。

讨论部分指出，该研究首次实现三大突破：一是开发出可解释的AI管道，通过SHAP值明确各语言特征的贡献权重；二是验证动作动词缺陷作为PD-nMCI特异性标记，与运动症状严重程度直接相关；三是发现无动词结构与整体认知衰退（MoCA）的关联，为PD-MCI诊断提供新视角。尽管存在样本量限制和单语言验证的局限性，但研究提出的"语言数字表型"框架为开发居家监测工具（如TELL系统）奠定基础，未来可通过多中心验证推动其临床应用。

这项研究的创新价值在于将离散的语言异常转化为可量化的数字生物标志物，不仅证实语言分析在神经退行性疾病中的诊断潜力，更重要的是建立了语言特征与特定神经环路损伤的对应关系。正如作者Christian Salvatore强调的，这种自动化分析方法有望整合到现有临床路径中，实现PD的早期筛查和精准分型，最终推动个体化治疗决策。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号