数据集:
DISCOX/DISCO-10M
您可以使用HuggingFace下载数据集:
from datasets import load_dataset
ds = load_dataset("DISCOX/DISCO-10M")
数据集包含以下特征:
{
'video_url_youtube',
'video_title_youtube',
'track_name_spotify',
'video_duration_youtube_sec',
'preview_url_spotify',
'video_view_count_youtube',
'video_thumbnail_url_youtube',
'search_query_youtube',
'video_description_youtube',
'track_id_spotify',
'album_id_spotify',
'artist_id_spotify',
'track_duration_spotify_ms',
'primary_artist_name_spotify',
'track_release_date_spotify',
'explicit_content_spotify',
'similarity_duration',
'similarity_query_video_title',
'similarity_query_description',
'similarity_audio',
'audio_embedding_spotify',
'audio_embedding_youtube',
}
DISCO-10M 是一个用于音乐大规模机器学习模型研究的数据集,旨在推动音乐领域研究的分享与发展。
由于版权法的限制,该数据集不包含任何音乐内容。音频嵌入特征是使用 Laion-CLAP 计算得出的,可以在许多下游任务中替代原始音频。如果需要原始音频,则可以通过提供的Spotify预览URL或YouTube链接下载。DISCO-10M数据集通过从Spotify收集了40万个艺术家ID和260万个音轨ID,并收集与音轨长度、艺术家名称和音轨名称匹配的YouTube视频链接来创建。这些匹配是使用以下三个相似度度量计算得出的:
对于DISCO-10M,我们仅保留满足以下条件的样本:duration_similarity > 0.25 且 (description_similarity > 0.65 或 title_similarity > 0.65) 且 audio_similarity > 0.4
我们提供基于DISCO-10M的三个子集:
要引用我们的工作,请参考我们的论文 here 。