编辑推荐:
为满足计算机辅助研究欧洲音乐创作需求,研究人员打造 Distant Listening Corpus(DLC1)。该语料库含 1283 份带注释乐谱,提供模块化数字基础设施。其成果有助于音乐分析、理论教学等,推动音乐研究发展。
在音乐研究的广阔天地中,长期以来,书面音乐一直是西方音乐理论化的重要基石。它不仅作为历史文献,记录着音乐作品的传承,还以通用西方音乐记谱法(Common Western Music Notation,CWMN)对潜在表演和录音进行抽象表达。然而,在音乐研究迈向数字化、科学化的进程中,一系列问题逐渐凸显。一方面,虽然符号编码的数字音乐乐谱语料库数量在增加,但对于像调性及其历史演变这类重要课题的研究而言,现有语料库在规模和可用性上仍存在不足。另一方面,音乐学术研究中的许多关键概念,如和声(harmony),难以从乐谱或声音中直接、明确地观察到,这为深入研究音乐的内在结构和规律带来了挑战。
为了突破这些困境,来自奥地利安东?布鲁克纳大学(Anton Bruckner University)和瑞士洛桑联邦理工学院(école Polytechnique Fédérale de Lausanne)的研究人员 Johannes Hentschel、Yannis Rammos、Markus Neuwirth 和 Martin Rohrmeier 开展了一项意义深远的研究。他们致力于构建一个适用于计算机辅助研究欧洲音乐创作(自 1600 年起)的分析注释音乐乐谱语料库(DLC1),并打造相应的模块化数字基础设施。
经过不懈努力,研究人员取得了丰硕的成果。他们创建的 DLC1语料库包含了 1283 份经过分析注释、符号编码的音乐乐谱,涵盖了 36 位作曲家的作品,成为目前已发布的同类资源中规模最大的之一。同时,该语料库还提供了模块化数字基础设施,用于可追溯、协作式的注释乐谱管理。这一成果对于推动计算机辅助音乐分析、音乐理论教学以及 “精读” 方法的发展具有重要意义,相关研究成果发表在《Scientific Data》上。
在研究过程中,研究人员运用了多种关键技术方法。在乐谱获取方面,对于无法获取开放许可或不准确的符号编码乐谱,委托排版人员使用 MuseScore 3 进行精确排版;对于已有数字版本或光学音乐识别(Optical Music Recognition,OMR)软件输出的乐谱,则仔细与原始来源比对。在语料库管理上,借助 git 版本控制软件和 GitHub 协作平台,构建了分布式语料库创建工作流程(pipeline),确保每个注释乐谱的生成过程透明可追溯。此外,利用 ms3 解析库和 DiMCAT 库,实现了对乐谱数据的处理、验证和分析。
语料库构建流程
- 乐谱采购:每个子语料库基于特定音乐学标准确定收集范围,如 “作曲家 X 的 Y 乐器和 / 或 Z 体裁作品”。收集过程中,优先选择有许可的数字符号编码版本,若无可委托排版人员转录可靠印刷源,或对现有数字版本与原始源进行仔细比对1。
- 语料库存储库:使用模板初始化 git 存储库作为子语料库的开端,存储库名称作为语料库标识符。模板中的辅助文件控制自动化流程,模板文件用于生成元数据文件,完成注册和上传后,子语料库进入后续管理流程2。
- 管理指南:制定公开的管理指南,涵盖准备新子语料库的步骤、元数据字段编码要求、使用 ms3 解析器批量更新文件等内容,并在语料库发布前进行最终确认3。
- 版本发布:通过配置预提交钩子和网络钩子,实现版本发布自动化。每次合并到主分支时触发网络钩子,在虚拟机器上执行一系列操作,包括确定版本号、创建包含更新内容的 git 提交、生成 “Frictionless data package” 并发布到 GitHub 和 Zenodo 平台。DLC1采用 “语义版本控制”,根据变更程度确定版本号更新类型4。
- 注释工作流程:设计 DCML 注释工作流程,将任务分配给多个音乐理论家协作完成。通过算法验证注释格式,经至少两位音乐理论家交叉审核达成共识,确保注释符合指南要求。工作流程在并行 git 分支上进行,完成后合并产生新版本5。
数据记录
- 数据概况:DLC1可在 Zenodo 平台获取,包含 40 个子语料库,旨在代表不同欧洲音乐创作风格,时间跨度从 16 世纪末到第二次世界大战。目前包含约 1330 份编码乐谱(约 170 万个音符),其中 1283 份经过注释,涉及和声、声部进行和曲式相关分析6。
- 数据文件构成
- 元数据文件:distant_listening_corpus.metadata.tsv 文件为每首作品提供多方面信息,包括文件路径、ID、描述性统计数据、MuseScore 软件默认元数据以及自定义元数据,有助于定位、分组语料库文件并与 “语义网” 集成7。
- 小节文件:distant_listening_corpus.measures.tsv 文件为每首作品的每个小节提供详细信息,如小节位置、长度、节拍信息以及重复结构相关信息,通过 “quarterbeats” 列记录绝对时间偏移,“next” 列用于解码重复结构,方便在音乐研究和机器编码中定位音乐事件8。
- 音符文件:distant_listening_corpus.notes.tsv 文件记录每首作品中每个音符的详细信息,包括时间戳、音高、MIDI 音高、持续时间、所在谱表和声部等,“chord_id” 用于关联同一和弦中的音符9。
- 其他乐谱元素文件:distant_listening_corpus.chords.tsv 文件包含除音符和注释标签外的所有乐谱元素,如和弦、力度标记、低音谱号等,通过 “event” 列进行分类筛选,方便研究人员根据具体需求获取相关信息10。
- 注释标签文件:distant_listening_corpus.expanded.tsv 文件记录每个注释标签的详细信息,DLC1中的注释标签遵循 DCML 和声注释标准,可解析为表格模型。该标准涵盖调、和弦、乐句和终止式四个层面,方便研究人员从不同角度对音乐进行分析11。
技术验证
研究人员对乐谱和注释标签进行了严格的技术验证。一方面,使用解析器自动验证乐谱和注释标签的格式正确性,确保符合相关标准。在注释工作流程中,每次 git 提交前都会触发 ms3 审查命令,检查乐谱和注释标签是否存在不一致问题。另一方面,音乐理论家团队对乐谱和注释标签进行交叉审核,确保音乐内容的连贯性。对于不符合标准的注释标签,会进行相应处理,如记录警告信息或忽略误报警告,以保证数据质量12。
研究结论与讨论
这项研究成功构建了 DLC1语料库及其模块化基础设施,为音乐研究带来了多方面的突破。从研究资源角度看,大规模的注释乐谱和规范的数据格式,为音乐学者提供了丰富且易于处理的研究素材,有助于深入探究欧洲音乐创作的演变规律。在研究方法上,创新的工作流程和技术验证机制,确保了数据的准确性和可追溯性,为后续音乐研究提供了可靠的范式。在应用领域,该成果不仅能推动计算机辅助音乐分析的发展,为音乐理论教学提供生动案例,还为 “精读” 方法在音乐研究中的应用开辟了新途径。然而,研究也存在一定的局限性,如在某些音乐元素的注释上可能存在主观性,不同音乐理论家的理解和判断可能存在差异。未来的研究可以进一步优化注释标准,提高注释的一致性和准确性,拓展语料库的覆盖范围,为音乐研究领域的持续发展注入新动力。