在 CLaMP: Contrastive Language-Music Pre-training for Cross-Modal Symbolic Music Information Retrieval 中,我们介绍了WikiMusicText(WikiMT),这是用于语义搜索和音乐分类评估的新数据集。它包括来自Wikifonia.org的1010个用ABC记谱法表示的主旋律乐谱,每个乐谱都附有标题、艺术家、流派和描述信息。标题和艺术家信息是从乐谱中提取的,而流派标签是通过匹配维基百科条目中的关键词并分配到8个类别(爵士乐、乡村音乐、民间音乐、节奏布鲁斯音乐、流行音乐、摇滚乐、舞曲和拉丁音乐)中的一个来获得,这些类别大致模仿了GTZAN的流派。描述信息是通过使用BART-large对相应的维基百科条目进行总结和清理而获得的。此外,还去除了ABC记谱法中的自然语言信息。
WikiMT是支持语义搜索和音乐分类评估的独特资源。然而,需要注意的是,该数据集是从公开可用的来源进行策划的,关于流派和描述信息的准确性和完整性可能存在限制。需要进一步研究来探索数据集的潜在偏见和限制,并制定相应的解决策略。因此,为了支持额外的研究,我们还提供了 source files 的WikiMT的音乐XML文件和来自维基百科的原始条目。
WikiMT从公开可用的来源进行了策划,被认为在公共领域中。然而,需要注意的是,版权问题无法完全排除。因此,使用该数据集的用户应谨慎使用。WikiMT的作者对数据集的使用不承担任何法律责任。如果对数据集的版权状况有任何疑问或担忧,请通过shangda@mail.ccom.edu.cn与作者联系。
@misc{wu2023clamp, title={CLaMP: Contrastive Language-Music Pre-training for Cross-Modal Symbolic Music Information Retrieval}, author={Shangda Wu and Dingyao Yu and Xu Tan and Maosong Sun}, year={2023}, eprint={2304.11029}, archivePrefix={arXiv}, primaryClass={cs.SD} }