音频法医学是法医学的一个分支,专注于分析与犯罪活动相关的声音证据,以便在法庭上使用。语音法医学特别处理包含人类声音的证据,例如勒索电话、恐吓电话等录音。(美国行为与社会科学协会,1979年)
语音法医学程序是基于人类语音产生的基本原理发展起来的。声音是由声门处的声带快速动态振动产生的基频(F0),然后通过声道(口腔、鼻腔和咽部)以及发音器官(舌头、嘴唇、牙齿、上颚和悬雍垂)的腔体进行修改,从而产生人类语言中的各种复杂声音(B?ckstr?m等人,2022年)。声道腔体作为可变共鸣器,选择性地减弱和共振基频的谐波,这些谐波在音素中表现为共振峰频率(F1、F2、F3等),在频谱图中可见(Coleman,2000年)。
历史上,法医语音识别依赖于听觉-频谱图方法,即通过视觉模式匹配频谱图来进行“声纹”分析,这种方法在20世纪60-70年代流行起来(Kamine,1969年;美国行为与社会科学协会,1979年)。然而,这些方法因缺乏实证验证和主观解释而受到大量科学批评(Bolt等人,1970年;Ladefoged和Vanderslice,1967年),美国声学学会委员会得出结论认为频谱图不包含足够的信息来可靠地识别个体说话者(Bolt等人,1970年)。这导致许多司法管辖区拒绝接受声纹证据,并促进了基于证据的现代方法的发展。
现代法医语音识别经历了范式转变(Morrison,2009年;Saks和Koehler,2005年;Morrison,2014年),从主观模式匹配转向基于定量声学测量和统计建模的证据方法。当前的最佳实践,如欧洲法医科学研究所网络(ENFSI)所概述的(Drygajlo等人,2015年;ENFSI法医语音和音频分析工作组,2021年)以及最近的共识声明(Morrison等人,2021年),采用似然比(likelihood ratio,LR)框架,提供基于统计的、经过实证验证的声音证据评估。这些方法结合了声学-语音特征提取和自动说话者识别系统,并通过严格的验证协议进行评估(Morrison和Enzinger,2019年;Rose,2002年)。
虽然视觉频谱图分析在历史上发挥了作用,并且在包括印度法医科学实验室在内的某些司法管辖区仍有限使用(印度法医科学服务局,2022年;印度最高法院,2019年;Gouri等人,2024年),但国际最佳实践已转向定量方法。现代工作流程提取包括共振峰频率、基频、倒谱系数和其他频谱-时间测量在内的声学特征,并使用似然比框架进行评估,而不是依赖主观的频谱图比较(Morrison,2014年)。
实施这些基于证据的方法的一个关键瓶颈是提取元音段以进行声学特征分析的耗时过程。目前使用PRAAT等工具的手动提取方法仍然非常耗人力(Boersma和Weenink,2025年),而现有的自动化方法在法医学适用性方面存在挑战。用于语音分割的深度学习系统通常作为“黑箱”运行,生成音素序列而不向审查人员提供底层声学测量数据(Algabri等人,2020年;Algabri等人,2021年)。对于法医学应用而言,透明度至关重要:审查人员必须能够提取、可视化并解释特定的声学参数,如共振峰频率、音高轮廓和频谱特征,这些是法庭上呈现的说话者识别证据的基础(Morrison等人,2021年;ENFSI法医语音和音频分析工作组,2021年)。这种可解释性和可测量输出的要求将法医语音工具与通用语音识别系统区分开来。
在频谱图中,元音通常很容易识别,因为频谱图上有明确的共振峰条。其他声音,如摩擦音和爆破音,虽然可以通过聚集在某些频率附近的能量脉冲来识别,但没有类似的模式(Russell,2005年)。鼻音中也可见共振峰带,但在说话者识别中不如元音常用。在法医学案例中,通常参考前四个共振峰,这些共振峰出现在5-5.5 kHz的频率范围内(Suthar和French,2023年;Lu和Dang,2008年)。因此,元音是最适合用于法医语音识别和比较任务的模式匹配技术的实体。
计算机视觉是人工智能的一个领域,旨在使机器能够解释和理解视觉数据,如图像和视频。目标检测是计算机视觉的核心任务之一,涉及在图像中识别和定位对象。现代目标检测模型,如“你只看一次”(YOLO)、基于区域的卷积神经网络(R-CNN,Ren等人,2017年)和单次检测器(SSD),利用深度学习(DL)技术实时高效地识别多个对象。这些模型广泛应用于自动驾驶、视频监控、医学成像和机器人技术等领域,为各种行业提供快速准确的目标检测。YOLO模型是一系列单阶段目标检测算法,以其实时应用中的速度和准确性而闻名。与传统的两阶段检测器不同,YOLO将目标检测视为一个单一的回归问题,直接从完整图像中预测边界框和类别概率。这种设计使YOLO模型异常快速。Ultralytics在2020年发布的YOLOv5(Jocher,2020年)是一个基于PyTorch构建的快速且多功能的目标检测模型(Paszke等人,2019年)。如上所述,元音在频谱图图像中很容易可视化,因此这些指示元音的模式自然适合作为计算机视觉流程的特征,用于从语音频谱图中快速检测元音。
直接应用于频谱图的计算机视觉方法提供了一种根本不同的范式:它不是用不透明的端到端分类取代专家分析,而是加速了预处理步骤,同时保留了对视觉证据和声学测量的完全访问。检测到的元音区域可以直接在频谱图上可视化,并显示其边界框,使法医审查人员能够验证检测结果,使用现有方法提取传统声学特征,并在法律程序中呈现自动化检测结果和后续的手动测量数据作为可追溯、可解释的证据。
在这项工作中,我们引入了一个包含约9000张来自40位不同说话者音频文件的标注频谱图图像的新数据集。然后我们训练了一个YOLOv5模型,直接从频谱图中检测元音实例。该框架提供了一种解决从语音样本中手动提取元音数据这一耗时过程的方案。图1展示了所提出的工作流程,其中许多手动和主观的元音提取过程可以被基于YOLOv5的检测框架替代。这项工作的主要贡献包括:
- 1.
目标检测在语音分析中的新应用:我们首次证明,最先进的目标检测模型(YOLOv5)可以成功应用于语音频谱图进行元音检测,其性能优于传统的语音分析方法。
- 2.
与语言无关的元音检测框架:与需要语言特定声学模型、转录文本和语音词典的现有强制对齐系统不同,我们的方法直接在频谱图模式上操作,能够在不同语言类型中保持一致的性能,而不需要任何语言特定的成分。
- 3.
用于语音评估的时间IoU指标:我们引入了一种灵活的多对多时间IoU指标,专门用于评估时域内的元音检测准确性,解决了传统空间目标检测指标在语音应用中的局限性。
- 4.
全面的法医验证:通过对十种不同语言的广泛评估、噪声鲁棒性测试和基线比较,我们证明分析时间减少了82.6%,同时实现了86.5%的平均时间IoU。
- 5.
法医语音学的开放框架
:我们提供了一个从音频到法医特征的完整流程,包括自动提取共振峰频率、音高轮廓和LPC分析,可以直接应用于实际的法医语音识别任务。