基于GAN语音隐写的双通道安全动态交互框架:面向隐蔽对话的DialogStego方法
【字体:
大
中
小
】
时间:2025年10月12日
来源:Knowledge-Based Systems 7.6
编辑推荐:
本文提出了一种创新的语音对话隐写框架DialogStego,通过生成对抗网络(GAN)语音合成器实现秘密对话在载体对话中的动态嵌入。该框架突破传统静态媒体隐写的局限,具备主通道和侧通道双重安全性,在保证对话内容逻辑正确性和说话人一致性的同时,实现了高质量隐写语音的生成与秘密语音的高保真提取。实验表明该方法在嵌入容量和效率方面均优于现有基线方法。
本文构建了一个新颖的语音对话隐写框架,将动态交互特性融入隐写过程,通过隐藏C和D的对话到A和B的对话中实现隐蔽通信。该框架创新性地解决了传统隐写在动态媒体应用的局限性。
为实现对话隐写目标,本研究涉及三组关键技术:基于语音合成的隐写方法可生成符合逻辑的对话载体;神经声码器(Neural Vocoder)的突破性进展为高质量语音合成提供支持;生成对抗网络(GAN)技术为隐写语音的逼真度提供保障。
如图3所示,本方法包含隐藏和提取两个过程。隐藏过程将秘密语音的梅尔频谱图(Mel spectrogram)嵌入载体语音的梅尔频谱图,通过精心设计的嵌入模块F(·)生成隐写语音的梅尔频谱图,再借助GAN声码器合成高质量隐写语音。提取过程则通过特定解码器重建秘密语音的梅尔频谱图,最终利用预训练声码器还原秘密语音。
4.1LJ Speech数据集:包含13,100段22.05kHz采样率的单人朗读音频,常用于声码器和文本转语音(TTS)研究。
4.2AISHELL-3数据集:85小时218名中文母语者48kHz采样语音,适用于多说话人TTS研究。
4.3VCTK数据集:包含110名英语母语者的44.1kHz采样语音,为多说话人语音合成提供数据支持。
本节通过系统实验验证了所提方法的可行性、安全性和有效性。在HiFi-GAN和iSTFTNet等典型声码器上的测试表明,生成的隐写语音和提取的秘密语音在质量与可懂度方面均表现优异,且在主侧通道隐写分析中展现出卓越的安全性。
本研究成功构建了将语音对话嵌入其他语音对话的新型框架,将静态载体拓展至动态交互载体。提出的DialogStego方法通过精心设计的嵌入模块和秘密信息解码器,实现了在梅尔频谱图层面的高效嵌入与提取,为动态隐写通信开辟了新途径。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号