用于训练和评估 TunesFormer 的大规模ABC记谱数据集(MABCD)是从两个来源收集的: The Session 和 ABCnotation.com 。The Session是一个以爱尔兰传统音乐为重点的社区网站,而ABCnotation.com是一个以ASCII文本文件形式提供民间和传统音乐符号标准的网站。它们都提供了一个共享民间和传统音乐的平台。合并数据集由285,449个ABC曲调组成,其中99%(282,595个)用作训练集,剩余的1%(2854个)用作评估集。
控制码是添加到ABC记谱表示中的符号,用于指示生成的旋律的期望音乐形式。我们通过自动化过程将以下控制码添加到数据集中的每个ABC曲调中,以指示其音乐形式:
为了确保数据集中的ABC曲调一致和标准化,我们首先将它们全部转换为MusicXML格式,然后再将它们重新转换回ABC记谱。为了专注于音乐内容,我们删除了任何自然语言元素(如标题、作曲家和歌词)和不必要的信息(如参考编号和来源)。
ABC记谱可以通过 this website 或 this software 转换为乐谱或音频。
数据集仅供研究目的,并不用于商业用途。尽管数据集中的大多数曲调是自由共享的,但有些可能受到版权保护。用户有责任确定每个曲调的版权状态,并在使用数据前获得任何必要的权限。
如果您是MABCD中包含的任何曲调的版权所有者,并对其包含有疑虑,请通过 shangda@mail.ccom.edu.cn 与我们联系以进行删除。
我们要特别感谢abcnotation.com和thesession.org对ABC记谱的发展和推广以及对音乐信息检索领域的贡献。他们的平台为传统和民间音乐社区提供了宝贵的资源,并使我们这样的研究人员能够创建和研究像大规模ABC记谱数据集这样的数据集。