基于AIGC与风格映射的甬剧语言智能生成与迁移研究:TFCPG-CVAE融合模型的创新应用
《Scientific Reports》:Automatic generation and transfer of Yongju opera language using AIGC technology and style mapping
【字体:
大
中
小
】
时间:2025年12月23日
来源:Scientific Reports 3.9
编辑推荐:
本研究针对甬剧传承面临的内容创作效率低、风格迁移困难等问题,创新性地结合人工智能生成内容(AIGC)技术与风格映射方法,构建了Transformer条件概率生成(TFCPG)与条件变分自编码器(CVAE)双模型架构。实验表明,该模型在BLEU评分(45.55±1.32)和风格迁移准确率(97.03%)上显著优于基线模型,为传统戏曲文化的数字化保护与创新提供了可借鉴的技术路径。
在全球化与数字化的浪潮冲击下,承载深厚历史底蕴的地方戏曲如何在新时期焕发活力,成为文化传承领域的重要课题。起源于浙江宁波的甬剧,以其独特的方言韵味和表演艺术被誉为传统文化瑰宝,然而近年来却面临观众流失、创作资源短缺、受众老龄化等传承困境。尤其值得关注的是,年轻一代对甬剧逐渐失去兴趣,这一古老艺术形式的存续发展岌岌可危。正是在这样的背景下,人工智能生成内容(AIGC)技术为传统戏曲的现代化转型带来了新的曙光。
发表于《Scientific Reports》的研究论文《Automatic generation and transfer of Yongju opera language using AIGC technology and style mapping》由Xiaohong Meng、Ping Hu和Zhi Li*共同完成,开创性地将AIGC技术与风格映射方法相结合,针对甬剧语言的自动生成与迁移这一核心问题展开了深入探索。研究人员敏锐地意识到,传统的内容创作方式难以满足当代戏曲传承的需求,而AIGC技术凭借其在自然语言处理和计算机视觉等领域的突破性进展,展现出在文化内容生成方面的巨大潜力。
为系统解决甬剧语言生成的技术难题,研究团队构建了多源数据集,包含从宁波市戏剧研究院等机构收集的100部经典剧本、50部现代剧本以及500段唱词音频。在此基础上,创新提出了双模型架构:基于Transformer的条件概率生成(TFCPG)模型作为内容生成器,负责将现代汉语输入转化为符合甬剧语法规范的文本;条件变分自编码器(CVAE)作为风格处理器,通过操作风格潜变量融入方言词汇和韵律特征。
关键技术方法包括:基于TextRank算法的关键词提取技术,用于增强生成文本的相关性;高通过滤器(HPF)音频降噪技术,提升唱词音频质量;多任务学习(MTL)策略,同步优化内容预测、风格分类等任务;以及条件变分自编码器(CVAE)风格映射网络,实现现代文本向戏曲风格的精准转换。实验使用TensorFlow 1.4框架,设置批次大小为32,采用Adam优化器,学习率为0.01。
研究首先对甬剧语言特征进行了系统梳理,总结出方言词汇、语法结构、语音韵律等五大特征类别。例如,甬剧保留了大量宁波方言词汇(如"阿拉"、"番薯"),使用特定句型和词序(如倒装句、省略句),并具有丰富多变的声调和多样化的唱腔。基于这些特征,研究团队构建了包含12,800个多模态数据的高质量语料库,通过语音学规则生成3,840个变异数据集,并利用风格迁移合成技术补充2,560个伪平行数据集,有效解决了方言数据稀缺的问题。
在文本生成性能方面,TFCPG模型在完整剧本生成中的BLEU得分达到36.4,显著优于Transformer基线模型(22.6)。在词汇表匹配任务中,TFCPG的BLEU得分高达53.9,显示出在捕获甬剧专有词汇方面的卓越能力。模型平均处理时间仅为33.32±2.15分钟,比Transformer基线缩短56.6%,在相关性(4.32)、流畅性(3.87)和一致性(4.06)等用户满意度指标上均表现优异。
CVAE模型在风格迁移任务中取得了44.26的BLEU评分,风格迁移准确率达到97.03%,显著优于序列到序列(Seq2Seq)基线模型10.28%。在四类文本数据(完整剧本、词汇表、文本摘要和文本信息)的风格迁移中,CVAE模型平均准确率达到95.79%,特别是在文本信息迁移任务中准确率高达97.03%。余弦相似度为0.9182,困惑度低至102.34,表明生成文本在保持内容完整性的同时,具有流畅的语法结构。
消融研究进一步证实了各组件的重要性。去除关键词提取功能后,TFCPG模型的BLEU评分下降至40.55;去除多任务学习策略后,评分进一步降至31.5;而缺少风格映射网络的CVAE模型在风格一致性指标上明显下降。这些结果凸显了完整模型架构中各个组件的不可或缺性。
本研究通过TFCPG与CVAE的创新性融合,成功构建了甬剧语言生成与迁移的综合技术框架。该框架不仅显著提升了戏曲文本的生成效率(时间减少56.6%),更在风格保真度(准确率97.03%)和内容一致性(BLEU评分45.55)方面设立了新的技术标准。特别值得关注的是,模型能够将现代汉语输入如"江南春色美,桃花正盛开"转化为具有甬剧特色的"江南春色实可夸,粉红桃花满树桠",在保留原意的同时融入了地道的方言表达。
从技术层面看,这项研究的突破在于首次实现了语义与风格特征的精细解耦与重组,通过TFCPG的动态特征控制机制和CVAE的变分推理优化,协同优化了风格与内容的平衡。从文化传承角度,该研究为传统戏曲的数字化保护提供了可复制的技术范式,使甬剧这类非物质文化遗产能够在数字时代获得新的表达形式与传播渠道。
研究的实际应用价值已初步显现,生成的台词和唱词片段可直接用于剧本创作和排练演出,为甬剧的新剧本创作和传统剧目数字化重建提供了技术支持。未来,这一技术框架有望扩展至其他地方戏曲的保护与创新,为中华传统戏曲文化在数字时代的传承与发展开辟新的路径。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号