编辑推荐:
为解决语音自然度理解不系统的问题,弗里德里希?席勒大学耶拿分校的研究人员开展相关研究,提出语音自然度概念框架,有助于推动跨领域研究,发表于《Trends in Cognitive Sciences》。
语音在日常交流中至关重要,无论是人与人对话,还是人与智能设备交互。但你是否注意过,有些语音听起来自然流畅,有些却显得生硬怪异?这种语音自然度的差异,影响着交流体验。在如今人工智能(AI)蓬勃发展的时代,合成语音广泛应用于客服、游戏、公共交通等诸多领域 ,语音自然度的重要性愈发凸显。可当前,人们对语音自然度的理解并不系统,存在概念不明确、研究方法多样难统一、不同研究领域缺乏交流以及理论基础薄弱等问题。
为深入探究语音自然度,来自弗里德里希?席勒大学耶拿分校(Friedrich Schiller University Jena)等多个机构的研究人员,针对这些问题展开了全面研究。他们的研究成果发表在《Trends in Cognitive Sciences》上,为该领域发展带来新契机。
研究人员首先进行了全面的文献回顾。通过在 Web of Science 数据库中以 “naturalness AND voice” 或 “human-likeness AND voice” 为关键词检索,筛选出 72 篇相关文章。在此基础上,深入分析现有研究存在的问题。
研究发现,语音自然度在概念上缺乏统一明确的定义和术语。不同研究背景下,定义差异明显。如在言语语言病理学中,自然度常被定义为符合听众对语速、节奏、语调、重音模式和句法结构的标准;而在合成语音研究领域,多将其定义为语音与人类声音的相似程度。这种不一致使得研究结果难以比较和整合。
在研究方法上,操作化的异质性突出。研究涉及的语音类别和特征繁多,包括人类与合成语音、卡通语音、病理语音(如帕金森病患者语音、气管食管语音等)、声学处理后的人类语音等。实验设计和测量方式也各不相同,如使用不同等级和端点命名的评定量表,这导致研究结果可比性差,且由于实验细节报告不足,难以确定方法差异对结果的影响。
不同研究领域之间缺乏交流。语音自然度研究主要涉及言语语言病理学和合成语音两个领域,但这两个领域各自为战,很少相互参考。从使用 VOSviewer 进行的交叉引用分析可以看出,相关研究形成了多个独立的 “回音室” 式集群,阻碍了对语音自然度全面深入的理解。
此外,多数自然度研究源于应用领域,旨在优化人工智能或改善语音障碍患者生活质量,然而这些研究缺乏语音感知理论支撑,导致应用知识增长的同时,基础机制研究滞后。
针对这些问题,研究人员提出了语音自然度的概念框架。该框架包含两种自然度类型:基于偏差的自然度(deviation-based naturalness)和基于拟人度的自然度(human-likeness-based naturalness)。基于偏差的自然度,指的是与代表最大自然度的参考标准相比的偏差程度,评定者可依据 “声音是否失真”“是否听起来不寻常” 等问题进行判断,参考标准既可以是明确给出的,也可以是评定者基于自身经验和期望的内在隐含标准。基于拟人度的自然度,则通过与真实人类声音的相似程度来定义,评定者可判断 “声音是否像真实人类说话”。这一概念框架为语音自然度的明确定义提供了灵活直观的参考,有助于促进研究结果的系统整合和比较。
研究人员还对自然度与其他相关概念进行了区分。在与独特性(distinctiveness)的关系上,虽然二者都涉及规范或参考标准以及偏差,但独特性可涵盖自然度之外的多种偏差形式,自然的声音可能独特也可能普通,二者关系需进一步实证研究。在与真实性(authenticity)的关系方面,真实性在科学文献中有特定含义,涉及语音情感、身份等方面,与语音自然度在语音处理的不同阶段进行评估,虽二者概念相似,但为避免混淆,应予以区分。
为更好地推动语音自然度研究,研究人员给出了实用建议。如为参与者和读者提供简洁明了的语音自然度定义;使用统一的关键词,如 “naturalness”“human-likeness”“authenticity” ,方便跨学科查找相关研究;详细报告研究方法细节,包括声学处理、测量方式、评定者指导语和信度报告等;尽可能提供刺激示例,让读者对语音材料有更直观的感受;以包容性的方式呈现研究结果,便于不同背景读者理解;在研究可能影响刺激材料生态效度的情况下,对自然度进行量化评估。
语音自然度研究与语音处理理论紧密相连。神经认知模型表明,语音感知存在多个处理阶段,语音自然度评估主要在语音对象分析的初始阶段,涉及低水平听觉分析和语音结构模式分析,包括对声学特征偏差和相似性以及模式偏差和相似性的评估。而真实性评估通常在语音信息分析的后期阶段,二者可能相互影响。
目前,语音自然度研究仍面临诸多挑战。在未来研究方向上,需进一步探究语音自然度评估的时间进程和潜在大脑机制,对比其与真实性评估以及其他语音特征评估的差异;研究经验(如使用语音助手、接触语音障碍患者等)对听众语音自然度感知的影响;明确基于拟人度和基于偏差的自然度在大脑层面是否可分离;在实验控制和现场录音之间找到平衡,确定语音自然度降低对研究生态效度的影响;探究自然语音是否总是更受青睐,以及自然度偏好是否受情境影响;研究个体对不自然语音特征的容忍度和偏好差异,及其与其他听觉认知领域或个人特质的关系;考察年龄、性别、文化背景等因素对语音自然度感知的影响。
该研究提出的语音自然度概念框架,为后续研究奠定了坚实基础。它有助于整合不同领域的研究成果,促进言语语言病理学、合成语音研究等领域的交流合作,推动语音自然度研究朝着更系统、更深入的方向发展。同时,也为改善语音合成技术、提升语音障碍患者治疗效果、优化人机交互体验等实际应用提供了重要的理论支持。
研究人员在开展研究时,主要运用了文献综述、数据统计分析以及构建概念框架等方法。通过系统的文献检索和筛选,收集大量语音自然度相关研究资料;运用数据统计方法对研究数据进行分析,如对不同语音类别、评定量表等进行量化分析;基于分析结果,构建语音自然度的概念框架,提出两种自然度类型并明确其定义和应用方式。
研究结果表明:
- 语音自然度概念模糊:目前缺乏统一明确的定义和术语,不同研究领域定义差异大,影响研究结果的比较和整合。
- 研究方法多样难统一:操作化异质性明显,语音类别、实验设计和测量方式多样,实验细节报告不足,可比性差。
- 领域交流不足:言语语言病理学和合成语音两个主要研究领域缺乏交流,形成独立研究集群,阻碍全面理解语音自然度。
- 理论基础薄弱:多数研究源于应用领域,缺乏语音感知理论支撑,基础机制研究滞后。
- 提出概念框架:构建了包含基于偏差的自然度和基于拟人度的自然度的概念框架,为明确定义语音自然度提供参考,有助于整合研究成果。
- 明确相关概念差异:区分了语音自然度与独特性、真实性的概念,指出它们在语音处理中的不同作用和关系。
- 给出研究建议:为后续语音自然度研究提供了实用建议,包括定义、关键词、方法报告、刺激示例、结果呈现和自然度量化等方面。
- 关联语音处理理论:将语音自然度研究与语音处理理论相联系,明确其在语音感知处理阶段中的位置和作用。
- 指出研究方向:明确了未来语音自然度研究在时间进程、大脑机制、经验影响、情境因素、个体差异等方面的研究方向。
总的来说,该研究全面剖析了当前语音自然度研究存在的问题,提出了创新性的概念框架和实用建议。这不仅为解决现有研究困境提供了思路,也为未来研究指明了方向,对推动语音自然度领域的发展具有重要意义。它有望促进跨学科研究的融合,推动语音技术的创新发展,提高人们在语音交流中的体验,在语音相关的健康医学和生命科学领域发挥关键作用,助力解决语音障碍患者康复、人机交互优化等实际问题。