构建音乐分析语料库与模块化基础设施：开启欧洲音乐研究新征程

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

【字体：大中小】 时间：2025年04月24日 来源：Scientific Data 5.8

编辑推荐：

　　为满足计算机辅助研究欧洲音乐创作需求，研究人员打造 Distant Listening Corpus（DLC1）。该语料库含 1283 份带注释乐谱，提供模块化数字基础设施。其成果有助于音乐分析、理论教学等，推动音乐研究发展。

　　在音乐研究的广阔天地中，长期以来，书面音乐一直是西方音乐理论化的重要基石。它不仅作为历史文献，记录着音乐作品的传承，还以通用西方音乐记谱法（Common Western Music Notation，CWMN）对潜在表演和录音进行抽象表达。然而，在音乐研究迈向数字化、科学化的进程中，一系列问题逐渐凸显。一方面，虽然符号编码的数字音乐乐谱语料库数量在增加，但对于像调性及其历史演变这类重要课题的研究而言，现有语料库在规模和可用性上仍存在不足。另一方面，音乐学术研究中的许多关键概念，如和声（harmony），难以从乐谱或声音中直接、明确地观察到，这为深入研究音乐的内在结构和规律带来了挑战。

为了突破这些困境，来自奥地利安东?布鲁克纳大学（Anton Bruckner University）和瑞士洛桑联邦理工学院（école Polytechnique Fédérale de Lausanne）的研究人员 Johannes Hentschel、Yannis Rammos、Markus Neuwirth 和 Martin Rohrmeier 开展了一项意义深远的研究。他们致力于构建一个适用于计算机辅助研究欧洲音乐创作（自 1600 年起）的分析注释音乐乐谱语料库（DLC¹），并打造相应的模块化数字基础设施。

经过不懈努力，研究人员取得了丰硕的成果。他们创建的 DLC¹语料库包含了 1283 份经过分析注释、符号编码的音乐乐谱，涵盖了 36 位作曲家的作品，成为目前已发布的同类资源中规模最大的之一。同时，该语料库还提供了模块化数字基础设施，用于可追溯、协作式的注释乐谱管理。这一成果对于推动计算机辅助音乐分析、音乐理论教学以及 “精读” 方法的发展具有重要意义，相关研究成果发表在《Scientific Data》上。

在研究过程中，研究人员运用了多种关键技术方法。在乐谱获取方面，对于无法获取开放许可或不准确的符号编码乐谱，委托排版人员使用 MuseScore 3 进行精确排版；对于已有数字版本或光学音乐识别（Optical Music Recognition，OMR）软件输出的乐谱，则仔细与原始来源比对。在语料库管理上，借助 git 版本控制软件和 GitHub 协作平台，构建了分布式语料库创建工作流程（pipeline），确保每个注释乐谱的生成过程透明可追溯。此外，利用 ms3 解析库和 DiMCAT 库，实现了对乐谱数据的处理、验证和分析。

语料库构建流程

乐谱采购：每个子语料库基于特定音乐学标准确定收集范围，如 “作曲家 X 的 Y 乐器和 / 或 Z 体裁作品”。收集过程中，优先选择有许可的数字符号编码版本，若无可委托排版人员转录可靠印刷源，或对现有数字版本与原始源进行仔细比对1。
语料库存储库：使用模板初始化 git 存储库作为子语料库的开端，存储库名称作为语料库标识符。模板中的辅助文件控制自动化流程，模板文件用于生成元数据文件，完成注册和上传后，子语料库进入后续管理流程2。
管理指南：制定公开的管理指南，涵盖准备新子语料库的步骤、元数据字段编码要求、使用 ms3 解析器批量更新文件等内容，并在语料库发布前进行最终确认3。
版本发布：通过配置预提交钩子和网络钩子，实现版本发布自动化。每次合并到主分支时触发网络钩子，在虚拟机器上执行一系列操作，包括确定版本号、创建包含更新内容的 git 提交、生成 “Frictionless data package” 并发布到 GitHub 和 Zenodo 平台。DLC¹采用 “语义版本控制”，根据变更程度确定版本号更新类型4。
注释工作流程：设计 DCML 注释工作流程，将任务分配给多个音乐理论家协作完成。通过算法验证注释格式，经至少两位音乐理论家交叉审核达成共识，确保注释符合指南要求。工作流程在并行 git 分支上进行，完成后合并产生新版本5。

数据记录

数据概况：DLC¹可在 Zenodo 平台获取，包含 40 个子语料库，旨在代表不同欧洲音乐创作风格，时间跨度从 16 世纪末到第二次世界大战。目前包含约 1330 份编码乐谱（约 170 万个音符），其中 1283 份经过注释，涉及和声、声部进行和曲式相关分析6。
数据文件构成
- 元数据文件：distant_listening_corpus.metadata.tsv 文件为每首作品提供多方面信息，包括文件路径、ID、描述性统计数据、MuseScore 软件默认元数据以及自定义元数据，有助于定位、分组语料库文件并与 “语义网” 集成7。
- 小节文件：distant_listening_corpus.measures.tsv 文件为每首作品的每个小节提供详细信息，如小节位置、长度、节拍信息以及重复结构相关信息，通过 “quarterbeats” 列记录绝对时间偏移，“next” 列用于解码重复结构，方便在音乐研究和机器编码中定位音乐事件8。
- 音符文件：distant_listening_corpus.notes.tsv 文件记录每首作品中每个音符的详细信息，包括时间戳、音高、MIDI 音高、持续时间、所在谱表和声部等，“chord_id” 用于关联同一和弦中的音符9。
- 其他乐谱元素文件：distant_listening_corpus.chords.tsv 文件包含除音符和注释标签外的所有乐谱元素，如和弦、力度标记、低音谱号等，通过 “event” 列进行分类筛选，方便研究人员根据具体需求获取相关信息10。
- 注释标签文件：distant_listening_corpus.expanded.tsv 文件记录每个注释标签的详细信息，DLC¹中的注释标签遵循 DCML 和声注释标准，可解析为表格模型。该标准涵盖调、和弦、乐句和终止式四个层面，方便研究人员从不同角度对音乐进行分析11。

技术验证

研究人员对乐谱和注释标签进行了严格的技术验证。一方面，使用解析器自动验证乐谱和注释标签的格式正确性，确保符合相关标准。在注释工作流程中，每次 git 提交前都会触发 ms3 审查命令，检查乐谱和注释标签是否存在不一致问题。另一方面，音乐理论家团队对乐谱和注释标签进行交叉审核，确保音乐内容的连贯性。对于不符合标准的注释标签，会进行相应处理，如记录警告信息或忽略误报警告，以保证数据质量12。

研究结论与讨论

这项研究成功构建了 DLC¹语料库及其模块化基础设施，为音乐研究带来了多方面的突破。从研究资源角度看，大规模的注释乐谱和规范的数据格式，为音乐学者提供了丰富且易于处理的研究素材，有助于深入探究欧洲音乐创作的演变规律。在研究方法上，创新的工作流程和技术验证机制，确保了数据的准确性和可追溯性，为后续音乐研究提供了可靠的范式。在应用领域，该成果不仅能推动计算机辅助音乐分析的发展，为音乐理论教学提供生动案例，还为 “精读” 方法在音乐研究中的应用开辟了新途径。然而，研究也存在一定的局限性，如在某些音乐元素的注释上可能存在主观性，不同音乐理论家的理解和判断可能存在差异。未来的研究可以进一步优化注释标准，提高注释的一致性和准确性，拓展语料库的覆盖范围，为音乐研究领域的持续发展注入新动力。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号