关于正干波音乐记谱的自动识别:数据集与方法
《Journal on Computing and Cultural Heritage》:On the Automatic Recognition of Jeongganbo Music Notation: Dataset and Approach
【字体:
大
中
小
】
时间:2025年11月07日
来源:Journal on Computing and Cultural Heritage
编辑推荐:
针对韩国传统音乐中广泛使用的Jeongganbo乐谱数字化难题,本研究提出了一套完整的自动识别方案。首先构建了包含近3000张实际乐谱和4万张合成数据的多模态数据集,创新性地设计了包含位置编码的Transformer架构,通过合成数据生成和增强技术有效缓解标注数据稀缺问题。实验表明,在真实数据测试集上达到89%的精确匹配率,关键指标如符号误差率(SER)低至3.4%,并成功实现了乐谱的自动转录与可视化重构,为韩国文化遗产的数字化保存提供了可靠的技术框架。
Jeongganbo 是一种起源于15世纪的东亚音乐记谱系统,它在韩国传统音乐中占据着核心地位。作为一种能够同时表达音高和时值的记谱方法,Jeongganbo 为韩国音乐文化的传承提供了独特的价值。然而,这种以纸质形式存在的记谱系统面临诸多挑战,如材料的自然老化、保存的困难以及数字化工具应用的局限性。因此,为了解决这些问题,本文提出了一种基于深度学习的自动识别和转录方案,并构建了一个专门用于 Jeongganbo 的数据集,以促进该记谱系统的数字化。
Jeongganbo 的结构是基于一个矩阵式布局,其阅读方向为自上而下、由右向左。每个单元称为“jeonggan”,而一列 jeonggan 构成一个“gak”,多个 jeonggan 被一条粗线分隔,称为“daegang”。这种记谱方式通过位置来表示音符的时值,而音高则由特定的符号来表示。在 Jeongganbo 中,有12种音高,但现代版本只包含其中的10种,主要是因为某些音高在当代音乐中不再使用。此外,通过添加不同的偏旁部首,可以表示音高所在的音域,例如“氵”表示音高升高,“亻”表示音高降低。
在节奏和时值的表达上,Jeongganbo 通过将音符分布在多个行或列中,来表示不同的节奏模式。例如,一个jeonggan可以有两行或三行,每一行代表一个音符,通过行的分布和位置可以推断出音符的时值。此外,某些符号如三角形“△”表示休止符,而连字符“-”则表示前一个音符的延续。对于持续演奏的音符,整个 jeonggan 可能会留空,表示该音符持续到下一个 jeonggan。
本文提出的 Jeongganbo 数据集是首个用于光学音乐识别(OMR)任务的标注数据集,包含近3000个样本。这些数据不仅包括真实数据,还通过合成数据生成和增强策略来解决数据稀缺的问题。数据集的构建基于韩国国家传统音乐中心发布的软件生成的记谱集,其中涵盖了韩国宫廷音乐乐团演奏的所有曲目。通过这一数据集,研究者可以更好地理解 Jeongganbo 的结构和元素,并利用它来训练自动识别模型。
在数据集的构建过程中,首先对原始记谱进行分割,提取出每个 jeonggan,并使用 EasyOCR 进行手动标注,以确保数据集的准确性。随后,利用合成数据生成策略来增加数据量,包括随机改变符号的位置、大小以及添加一些不常见的符号,以模拟真实世界中的变体和错误。此外,数据增强方法如噪声添加、重新缩放和字体变化也被采用,以提高模型的泛化能力。
在模型构建方面,本文采用了一种基于 Transformer 架构的神经网络,其结构包括编码器和解码器。编码器负责从图像中提取特征,而解码器则根据编码器的输出生成符号序列。模型在训练过程中使用了负对数似然损失函数,以最小化预测符号与真实符号之间的差异。实验结果表明,该模型在真实数据上的识别准确率接近90%,展示了其在 Jeongganbo 记谱识别中的有效性。
本文还探讨了模型在不同数据增强策略下的表现。通过对比不同的增强方案,研究者发现,包含所有增强策略的“Complete”方案在多个评估指标上表现最佳,例如符号错误率(SER)和精确匹配率(EMR)。这表明,合成数据的生成和增强策略对模型的识别性能有显著影响。此外,研究者还对实验结果进行了统计显著性分析,以确认模型在不同数据集上的表现是否具有统计意义。
Jeongganbo 的自动识别不仅有助于保存和研究韩国传统音乐,还为未来的音乐学研究提供了新的可能性。通过将 Jeongganbo 转换为机器可读格式,如 Jeongganbo XML 或嵌套数组,研究者可以利用计算工具对音乐进行分析和处理。此外,本文还展示了如何将自动识别的结果应用于实际场景,例如自动转录 Jeongak 音乐集和生成符号音乐。这些应用不仅验证了模型的有效性,还证明了其在实际操作中的可行性。
未来的研究方向包括扩展 OMR 框架,使其能够处理不在 jeonggan 内的元素,如演奏技巧符号或歌词。此外,研究者还计划开发适用于扫描历史 Jeongganbo 文档的 OMR 系统,以应对诸如模糊线条、不同字体或不规则位置等挑战。同时,研究者还考虑引入自监督学习和领域适应机制,以减少对真实标注数据的依赖。最后,本文还计划利用 OMR 解析的音乐集进行进一步的音乐学研究,并将数据集转换为西方五线谱格式,以促进国际交流和研究。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号