跨语言元音分析中的目标检测：一种用于法医语音处理的新颖语言无关方法

《Speech Communication》：Object detection for cross-linguistic vowel analysis: A novel language-agnostic method for forensic speech processing

【字体：大中小】 时间：2026年02月22日 来源：Speech Communication 3

编辑推荐：

　　法医语音对比中元音检测效率低、跨语言泛化差的问题，本研究创新性地将YOLOv5对象检测模型直接应用于语音频谱图，无需依赖文本转录或声学模型，实现语言无关的元音分割。实验表明该方法在10种不同语系语言测试集中平均时间IoU达0.865，较传统手动标注提速82.6%，且F1值比蒙特利尔语音对齐系统提升58.5%。提出的动态时间IoU评估指标有效解决了连续语音中元音边界模糊问题，为法医语音分析提供了透明可解释的自动化解决方案。

索汉·甘戈帕德亚（Soham Gangopadhyay）|因德普里特·辛格（Inderpreet Singh）|普拉蒂克·潘迪亚（Prateek Pandya）|阿希什·马尼（Ashish Mani）|苏米特·戈斯瓦米（Sumit Goswami）

印度北方邦诺伊达市阿米蒂大学（Amity University, Uttar Pradesh, Noida）的阿米蒂法医科学研究所（Amity Institute of Forensic Sciences），邮编201301

摘要

法医语音识别在很大程度上依赖于元音分析，但目前的方法仍受到语言特定依赖性和手动处理瓶颈的限制。我们首次将目标检测（Object Detection）技术应用于语音分割，将元音提取视为对语音频谱图的视觉模式识别任务。我们使用了基于8925张来自40位说话者的标注频谱图训练的YOLOv5l模型，该模型无需转录文本、声学模型或语音词典即可直接从视觉表示中学习通用的频谱-时间共振峰（spectro-temporal formant）模式。我们还引入了一种专门用于评估时域内语音分割质量的新时间IoU（Temporal IoU）指标，这种指标支持灵活的多对多匹配，能够处理连续语音中元音边界的固有不确定性。在涵盖十种语言类型多样性的多语言测试集上的评估显示（平均时间IoU为0.865，边界错误少于10毫秒），且没有任何语言特定的成分影响。在清晰录音的情况下，我们的系统在F1分数上比蒙特利尔强制对齐（Montreal Forced Alignment）方法高出58.5%，同时处理时间减少了82.6%。这种计算机视觉方法从根本上将语音分析重新定义为与语言无关的模式识别，适用于资源匮乏的语言、多语言语音处理，以及适合法律环境中专家证词的透明、可解释的自动化语音分析。

引言

音频法医学是法医学的一个分支，专注于分析与犯罪活动相关的声音证据，以便在法庭上使用。语音法医学特别处理包含人类声音的证据，例如勒索电话、恐吓电话等录音。（美国行为与社会科学协会，1979年）

语音法医学程序是基于人类语音产生的基本原理发展起来的。声音是由声门处的声带快速动态振动产生的基频（F0），然后通过声道（口腔、鼻腔和咽部）以及发音器官（舌头、嘴唇、牙齿、上颚和悬雍垂）的腔体进行修改，从而产生人类语言中的各种复杂声音（B?ckstr?m等人，2022年）。声道腔体作为可变共鸣器，选择性地减弱和共振基频的谐波，这些谐波在音素中表现为共振峰频率（F1、F2、F3等），在频谱图中可见（Coleman，2000年）。

历史上，法医语音识别依赖于听觉-频谱图方法，即通过视觉模式匹配频谱图来进行“声纹”分析，这种方法在20世纪60-70年代流行起来（Kamine，1969年；美国行为与社会科学协会，1979年）。然而，这些方法因缺乏实证验证和主观解释而受到大量科学批评（Bolt等人，1970年；Ladefoged和Vanderslice，1967年），美国声学学会委员会得出结论认为频谱图不包含足够的信息来可靠地识别个体说话者（Bolt等人，1970年）。这导致许多司法管辖区拒绝接受声纹证据，并促进了基于证据的现代方法的发展。

现代法医语音识别经历了范式转变（Morrison，2009年；Saks和Koehler，2005年；Morrison，2014年），从主观模式匹配转向基于定量声学测量和统计建模的证据方法。当前的最佳实践，如欧洲法医科学研究所网络（ENFSI）所概述的（Drygajlo等人，2015年；ENFSI法医语音和音频分析工作组，2021年）以及最近的共识声明（Morrison等人，2021年），采用似然比（likelihood ratio，LR）框架，提供基于统计的、经过实证验证的声音证据评估。这些方法结合了声学-语音特征提取和自动说话者识别系统，并通过严格的验证协议进行评估（Morrison和Enzinger，2019年；Rose，2002年）。

虽然视觉频谱图分析在历史上发挥了作用，并且在包括印度法医科学实验室在内的某些司法管辖区仍有限使用（印度法医科学服务局，2022年；印度最高法院，2019年；Gouri等人，2024年），但国际最佳实践已转向定量方法。现代工作流程提取包括共振峰频率、基频、倒谱系数和其他频谱-时间测量在内的声学特征，并使用似然比框架进行评估，而不是依赖主观的频谱图比较（Morrison，2014年）。

实施这些基于证据的方法的一个关键瓶颈是提取元音段以进行声学特征分析的耗时过程。目前使用PRAAT等工具的手动提取方法仍然非常耗人力（Boersma和Weenink，2025年），而现有的自动化方法在法医学适用性方面存在挑战。用于语音分割的深度学习系统通常作为“黑箱”运行，生成音素序列而不向审查人员提供底层声学测量数据（Algabri等人，2020年；Algabri等人，2021年）。对于法医学应用而言，透明度至关重要：审查人员必须能够提取、可视化并解释特定的声学参数，如共振峰频率、音高轮廓和频谱特征，这些是法庭上呈现的说话者识别证据的基础（Morrison等人，2021年；ENFSI法医语音和音频分析工作组，2021年）。这种可解释性和可测量输出的要求将法医语音工具与通用语音识别系统区分开来。

在频谱图中，元音通常很容易识别，因为频谱图上有明确的共振峰条。其他声音，如摩擦音和爆破音，虽然可以通过聚集在某些频率附近的能量脉冲来识别，但没有类似的模式（Russell，2005年）。鼻音中也可见共振峰带，但在说话者识别中不如元音常用。在法医学案例中，通常参考前四个共振峰，这些共振峰出现在5-5.5 kHz的频率范围内（Suthar和French，2023年；Lu和Dang，2008年）。因此，元音是最适合用于法医语音识别和比较任务的模式匹配技术的实体。

计算机视觉是人工智能的一个领域，旨在使机器能够解释和理解视觉数据，如图像和视频。目标检测是计算机视觉的核心任务之一，涉及在图像中识别和定位对象。现代目标检测模型，如“你只看一次”（YOLO）、基于区域的卷积神经网络（R-CNN，Ren等人，2017年）和单次检测器（SSD），利用深度学习（DL）技术实时高效地识别多个对象。这些模型广泛应用于自动驾驶、视频监控、医学成像和机器人技术等领域，为各种行业提供快速准确的目标检测。YOLO模型是一系列单阶段目标检测算法，以其实时应用中的速度和准确性而闻名。与传统的两阶段检测器不同，YOLO将目标检测视为一个单一的回归问题，直接从完整图像中预测边界框和类别概率。这种设计使YOLO模型异常快速。Ultralytics在2020年发布的YOLOv5（Jocher，2020年）是一个基于PyTorch构建的快速且多功能的目标检测模型（Paszke等人，2019年）。如上所述，元音在频谱图图像中很容易可视化，因此这些指示元音的模式自然适合作为计算机视觉流程的特征，用于从语音频谱图中快速检测元音。

直接应用于频谱图的计算机视觉方法提供了一种根本不同的范式：它不是用不透明的端到端分类取代专家分析，而是加速了预处理步骤，同时保留了对视觉证据和声学测量的完全访问。检测到的元音区域可以直接在频谱图上可视化，并显示其边界框，使法医审查人员能够验证检测结果，使用现有方法提取传统声学特征，并在法律程序中呈现自动化检测结果和后续的手动测量数据作为可追溯、可解释的证据。

在这项工作中，我们引入了一个包含约9000张来自40位不同说话者音频文件的标注频谱图图像的新数据集。然后我们训练了一个YOLOv5模型，直接从频谱图中检测元音实例。该框架提供了一种解决从语音样本中手动提取元音数据这一耗时过程的方案。图1展示了所提出的工作流程，其中许多手动和主观的元音提取过程可以被基于YOLOv5的检测框架替代。这项工作的主要贡献包括：

1.
目标检测在语音分析中的新应用：我们首次证明，最先进的目标检测模型（YOLOv5）可以成功应用于语音频谱图进行元音检测，其性能优于传统的语音分析方法。
2.
与语言无关的元音检测框架：与需要语言特定声学模型、转录文本和语音词典的现有强制对齐系统不同，我们的方法直接在频谱图模式上操作，能够在不同语言类型中保持一致的性能，而不需要任何语言特定的成分。
3.
用于语音评估的时间IoU指标：我们引入了一种灵活的多对多时间IoU指标，专门用于评估时域内的元音检测准确性，解决了传统空间目标检测指标在语音应用中的局限性。
4.
全面的法医验证：通过对十种不同语言的广泛评估、噪声鲁棒性测试和基线比较，我们证明分析时间减少了82.6%，同时实现了86.5%的平均时间IoU。
5.
法医语音学的开放框架
：我们提供了一个从音频到法医特征的完整流程，包括自动提取共振峰频率、音高轮廓和LPC分析，可以直接应用于实际的法医语音识别任务。

方法论

本节介绍了这项工作的开发、测试和实施细节。

性能评估

我们使用多种指标评估了训练模型的性能。模型在数据集的训练子集上进行训练，评估则在未见过的验证集和测试集上进行。

结论

本研究表明，将计算机视觉应用于语音频谱图可以实现与语言无关的元音检测，为自动化语音分割提供了一种根本不同的新方法。训练有素的YOLOv5l模型直接在频谱图模式上操作，无需转录文本、声学模型或语言特定资源，能够在不同语言中保持一致的性能，同时保持了法医学所需的透明度。

作者贡献声明

索汉·甘戈帕德亚（Soham Gangopadhyay）：撰写——审稿与编辑、原始草稿撰写、可视化、验证、方法论、调查、形式分析、数据整理、概念化。

因德普里特·辛格（Inderpreet Singh）：撰写——审稿与编辑、原始草稿撰写、软件开发、方法论、调查、形式分析、数据整理、概念化。

普拉蒂克·潘迪亚（Prateek Pandya）：撰写——审稿与编辑、监督。

阿希什·马尼（Ashish Mani）：撰写——审稿与编辑、监督。

苏米特·戈斯瓦米（Sumit Goswami）：撰写——审稿与编辑。

利益冲突声明

作者声明他们没有已知的竞争财务利益或个人关系可能影响本文报告的工作。

摘要

引言

相关研究

相关研究

方法论

性能评估

结论

作者贡献声明

利益冲突声明

热点排行

新闻专题