基于初始音素的命名延迟检测算法在图片命名任务中的可行性研究
《Biomedical Signal Processing and Control》:Can an initial phoneme-based algorithm improve automatic naming latency detection during picture naming tasks? A feasibility study
【字体:
大
中
小
】
时间:2025年11月04日
来源:Biomedical Signal Processing and Control 4.9
编辑推荐:
本研究针对图片命名任务中自动命名延迟(aNL)检测精度不足的问题,开发了一种基于初始音素(InitP)优化的FHNW_NL算法。通过训练集优化16个InitP的语音包络参数,在测试集上验证显示其与人工标注延迟(mNL)的差异(2.1±51.0ms)显著优于Kaldi(-33.4±109.9ms)和Chronset(-3.4±296.1ms)。该算法为失语症语言评估提供了更精准的自动化工具,具有临床转化潜力。
当我们看到一张苹果图片时,大脑会瞬间完成视觉识别、概念提取、词汇检索和语音编码等一系列复杂过程,最终脱口而出"苹果"这个词。这个看似简单的行为,对失语症患者来说却可能充满挑战。失语症作为一种语言处理障碍,常由脑卒中或外伤引起,严重影响患者的语言理解和表达能力。在临床评估中,图片命名任务被广泛用于评估语言处理能力,而命名延迟(NL)——即图片呈现到正确命名的间隔时间——成为衡量语言处理效率的关键指标。
目前,人工标注命名延迟(mNL)仍是金标准,但这个过程耗时耗力。虽然出现了自动命名延迟(aNL)检测工具如Chronset和SayWhen,但它们存在计算资源消耗大、检测精度不足等问题。特别是初始音素(InitP)的声学特性差异会显著影响检测结果,例如清擦音/f/因能量较弱常导致检测延迟。这些局限性促使研究人员探索更精准、高效的自动化解决方案。
在这项发表于《Biomedical Signal Processing and Control》的研究中,来自瑞士西北应用科技大学的团队开发了一种基于初始音素的命名延迟检测算法FHNW_NL。该研究使用了134名健康受试者和31名失语症患者的9029个德语音频样本,通过优化语音包络的六个关键参数(包括幅度阈值、斜率阈值、时间间隔等),针对16个不同初始音素进行了个性化训练。
研究方法上,团队首先改进了先前开发的阈值算法,引入基于时间域的语音包络分析,避免了频谱分析的计算负担。算法在自动语音识别工具Kaldi提供的时间参考点前后100-1000ms窗口内搜索语音起始点,利用梅尔顿-米德优化算法最小化FHNW_NL与mNL的差异。对比评估采用了Chronset和Kaldi作为基准,所有音频均通过Praat软件进行了人工标注验证。
研究结果显示,FHNW_NL与mNL的差异在训练集和测试集中均保持在±15ms的评分者变异区间内。具体而言,训练集的平均差异为-3.1±43.1ms,测试集为10.5±76.8ms。在测试子集中,FHNW_NL的绝对差异均值为23.3±45.4ms,显著优于Kaldi(57.2±99.6ms)和Chronset(99.9±278.8ms)。按音素类别分析,鼻音组的改善最为明显,差异从先前研究的101.7ms降至2.6ms。
值得注意的是,清擦音组(特别是/?/)表现出较大变异,研究人员发现这与后续音素的声学特性密切相关。例如/?a/、/?t/、/?p/等组合会产生不同的声学特征,影响检测精度。失语症患者的数据显示,FHNW_NL倾向于比mNL延迟,这可能与患者语音能量较弱有关,但总体仍在可接受范围内。
讨论部分指出,该研究的创新性在于将初始音素特异性参数优化与轻量级时间域分析相结合,在保证精度的同时显著降低了计算复杂度。与需要复杂频谱分析的现有工具相比,FHNW_NL更适合集成到移动医疗应用中,为失语症患者提供实时的命名延迟反馈。未来通过扩大训练数据集,特别是增加特定音素组合和失语症患者的样本量,有望进一步提升算法性能。
这项研究为语言障碍的自动化评估提供了重要技术支撑,不仅适用于临床诊断,也可拓展至心理语言学研究和在线语言评估领域。基于初始音素的优化策略为语音信号处理开辟了新思路,展现了在医疗人工智能领域的应用前景。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号