
-
生物通官微
陪你抓住生命科技
跳动的脉搏
人类语音可信意图传递的多民族语音数据集构建与声学特征分析
【字体: 大 中 小 】 时间:2025年06月01日 来源:Scientific Data 5.8
编辑推荐:
本研究针对语音感知与可信度研究领域缺乏多样化语音数据集的问题,构建了包含96名不同种族、年龄和性别发言者的1152条语音样本的开放数据集。通过线性/非线性分类模型分析声学特征(如F0、HNR、CPP),发现70%准确率的可信意图分类效果,填补了现有研究对非白人群体和发声者主观意图的空白,为跨文化语音心理学和AI语音技术发展提供重要资源。
语音科学的重要缺口与突破
人类语音不仅是信息载体,更是传递信任的关键媒介。然而现有语音研究长期存在"白人西方个体主义偏差"(WWIB),超过80%的语音数据集仅包含白人青年样本,严重限制研究结论的普适性。更关键的是,既往研究多聚焦听者对可信度的感知,却鲜少关注说话者如何主动调控声音传递可信意图——这种双向研究的缺失,使得语音交互机制的理解始终存在盲区。
英国埃塞克斯大学心理学系的Constantina Maltezou-Papastylianou团队在《Scientific Data》发表的研究,通过构建首个涵盖白人、黑人和南亚人群的多代际语音数据库(18-90岁),结合机器学习技术,首次系统揭示了人类主观可信意图的声学表达规律。这项研究不仅为消除语音研究的样本偏差树立新标准,更为语音合成、司法鉴定等应用领域提供了关键基线数据。
关键技术方法
研究通过在线平台Prolific和社区招募96名受试者(60名18-45岁,36名60岁以上),采集每位受试者朗读20个中性语句的两种版本:自然发音(neutral)和刻意传递可信意图(trustworthy)的录音。使用Praat软件标准化采样率(48kHz)和强度(67dB),通过VoiceLab提取10项声学特征(包括基频F0、谐噪比HNR、频谱斜率LTAS等)。采用留一法交叉验证(LOSO CV)比较随机森林(RF)与逻辑回归(LR)的分类效能。
多维度研究结果
1. 数据集构建特征
• 样本覆盖:包含1152条标准化语音(576中性/576可信),平衡三种族(白人40、黑人28、南亚28)、两年龄段(青年/老年)和性别比例
• 声学参数:首次同步记录长期平均频谱(LTAS)斜率(-13至-20 dB/octave)等9项特征,南亚群体显示最高谐噪比(HNR=12.06dB)
2. 分类模型表现
• 总体效能:RF模型以71%准确率(AUC=77%)显著区分可信意图,关键指标为F0标准差(β=0.03, p<0.001)和HNR(β=-0.27, p<0.001)
• 种族差异:白人群体分类最优(F1=71%),南亚群体因样本量较小降至64%
• 年龄对比:老年组CPP(cepstral peak prominence,倒谱峰突出)贡献度达18%,显著高于青年组
3. 声学特征规律
• 普适特征:所有人群可信语音均伴随F0均值升高(+29.2Hz)和 shimmer(振幅微扰)降低(APQ3=-13.05)
• 特殊模式:黑人老年组LTAS均值(-19.27dB)显著低于其他群体,可能与共振峰特征相关
理论突破与应用前景
这项研究首次实证验证了人类主观可信意图存在可量化的声学表达模式,挑战了传统研究中单纯依赖听者感知的范式。特别值得注意的是,不同种族群体虽共享核心声学线索(如提高基频),但在频谱能量分布(LTAS)等特征上呈现文化特异性,这为开发跨文化语音识别系统提供了关键参数。
数据集开放获取的特性使其在多个领域具有转化价值:在临床方面,可为发声障碍患者提供康复对照标准;在人工智能领域,能为消除语音合成算法的种族偏见提供训练数据;在心理学层面,则开创了"发声者意图-声学特征-听者感知"三位一体的研究新范式。研究团队特别指出,未来需扩大样本量以验证南亚老年组中观察到的独特CPP模式(28.06dB),这可能是文化特异性语音调控的重要线索。
这项研究的意义不仅在于填补了语音多样性研究的空白,更开创性地将发声者主观意图纳入声学分析框架,为理解人类语音的社会功能提供了全新视角。随着语音交互技术在医疗、教育等领域的普及,这种兼顾声学客观性和文化包容性的研究思路,将成为下一代语音技术发展的基石。
生物通微信公众号
知名企业招聘