Speech-FT：融合预训练和微调的语音表示模型以实现跨任务泛化

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Artificial Life》：Speech-FT: Merging Pre-trained And Fine-Tuned Speech Representation Models For Cross-Task Generalization

【字体：大中小】 时间：2025年11月22日 来源：Artificial Life 1.5

编辑推荐：

　　提出两阶段微调框架Speech-FT，先减少语音表征模型漂移再通过权重插值恢复跨任务泛化，在多个模型和任务中显著提升性能，特别是在SUPERB基准的自动语音识别任务中误差率降低。

摘要：

对语音表示模型进行微调可以提高其在特定任务上的性能，但往往会损害其跨任务的泛化能力。这种性能下降通常是由于表示层发生了过度变化，导致难以保留预训练过程中学到的信息。现有的方法（如在微调过程中对权重变化进行规范化）可能无法保持与预训练模型足够高的特征相似性，从而可能丧失跨任务的泛化能力。为了解决这个问题，我们提出了Speech-FT，这是一种新颖的两阶段微调框架，旨在在利用微调优势的同时保持跨任务的泛化能力。Speech-FT首先应用专门设计的微调方法来减少表示层的变化，然后通过权重空间插值与预训练模型进行融合，以恢复跨任务的泛化能力。在HuBERT、wav2vec 2.0、DeCoAR 2.0和WavLM Base+等模型上的广泛实验表明，Speech-FT在各种监督学习、无监督学习和多任务微调场景中都能显著提升性能。此外，与那些明确限制权重变化的微调基线方法（如权重空间规范化和LoRA微调）相比，Speech-FT在跨任务泛化方面表现更优。我们的分析显示，尽管允许更大的权重空间更新，Speech-FT仍能保持与预训练模型更高的特征相似性。值得注意的是，Speech-FT在SUPERB基准测试中取得了显著的提升。例如，在对HuBERT进行自动语音识别微调时，Speech-FT将音素错误率从5.17%降低到3.94%，单词错误率从6.38%降低到5.75%，说话人识别准确率从81.86%提高到84.11%。Speech-FT为预训练后进一步优化语音表示模型提供了一个简单而有效的解决方案。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号