编辑推荐:
在嘈杂环境下,传统基于麦克风的人机语音交互系统面临挑战。研究人员开发了基于柔性纳米柱结构的抗噪声摩擦电声传感器(Anti-noise TEAS)并与深度学习模型(DLM)集成。该系统抗噪性强,能精准引导机器人执行任务,为嘈杂环境下的人机协作提供新方案。
随着人工智能和物联网技术的飞速发展,人机交互在健康监测、灾后救援、智能控制等众多领域得到了广泛应用。其中,人机语音交互凭借其直观、高效和信息丰富的特点,成为了研究的热点。然而,在嘈杂环境中,传统基于麦克风的语音交互系统却遭遇了重大挑战。比如在火灾现场、暴雨天气等嘈杂场景下,环境噪声会严重干扰语音信号,导致语音识别准确率大幅下降,使得人机协作难以顺利进行 。为了解决这一难题,来自中山大学等机构的研究人员开展了深入研究,相关成果发表在《Nature Communications》上。
研究人员开发了一种基于柔性纳米柱结构的抗噪声摩擦电声传感器(Anti-noise TEAS),并将其与基于卷积神经网络的深度学习模型(Anti-noise TEAS-DLM)相结合。这种高度协同的系统为复杂嘈杂场景下的人机协作提供了强大的声学信号识别能力。
研究中用到的主要关键技术方法包括:首先是传感器的制备技术,通过复制蝉翼表面结构制作柔性 CNTs/PDMS 纳米柱基底作为正摩擦电极,FEP 作为负摩擦电极,组装成 Anti-noise TEAS;其次是信号处理和模型构建技术,对采集到的声学信号进行预处理,转化为适合模型训练的 Log-Mel 频谱图,构建基于卷积神经网络的 DLM 进行多标签自动语音识别(ASR);还利用了多种测试和分析技术,如通过多种设备测试传感器的声学响应特性,采用 t-SNE 聚类和 Grad-CAM 等方法分析模型性能 。
在研究结果部分:
- Anti-noise TEAS 的结构和工作原理:Anti-noise TEAS 由柔性 CNTs/PDMS 纳米柱基底和 FEP 组成,基于接触分离传感原理,通过接触人体喉部,能直接捕获喉部混合模式振动的声学基频信号。
- Anti-noise TEAS 的性能优化:系统研究了不同 PET 间隔层厚度和 FEP 膜厚度对传感器声学响应特性的影响,确定了最佳结构设计,使传感器具有宽频率响应范围、高灵敏度和良好的耐久性。
- DLM 的构建和性能评估:构建的基于 CNN 的 DLM 对声学信号具有强大的识别能力,在多标签 ASR 任务中,语义识别准确率达到 99.8%,个体识别准确率达到 99.8%,整体准确率为 99.8%。
- 系统的抗噪性能和应用验证:在多种嘈杂环境下,Anti-noise TEAS-DLM 系统表现出卓越的抗噪能力,能有效区分命令信号,而传统麦克风结合 DLM 的系统(MIC-DLM)在嘈杂环境下性能显著下降。在虚拟和现实的复杂场景实验中,Anti-noise TEAS-DLM 能准确控制机器人、无人机等完成复杂任务,如灾后救援任务,而 MIC-DLM 和通过麦克风听觉感知执行任务(MIC-Hearing)的方式在嘈杂环境下则出现较多错误 。
研究结论和讨论部分指出,Anti-noise TEAS-DLM 系统具有高灵敏度、抗噪声和强大的稳定性,为嘈杂环境下的人机协作,如灾后救援、协同作业和野外探险等,提供了切实可行的解决方案。该系统能有效识别复杂声学信号,几乎不受噪声干扰,可视化技术也证明了其在特征提取和信息识别方面的有效性。这一研究成果推动了先进人机交互技术的发展,有望拓展到更多人机协作任务中,为多样化和智能化的人机协作带来新的机遇和方向 。