数据集:
DISCOX/DISCO-10M
您可以使用HuggingFace下载数据集:
from datasets import load_dataset ds = load_dataset("DISCOX/DISCO-10M")
数据集包含以下特征:
{ 'video_url_youtube', 'video_title_youtube', 'track_name_spotify', 'video_duration_youtube_sec', 'preview_url_spotify', 'video_view_count_youtube', 'video_thumbnail_url_youtube', 'search_query_youtube', 'video_description_youtube', 'track_id_spotify', 'album_id_spotify', 'artist_id_spotify', 'track_duration_spotify_ms', 'primary_artist_name_spotify', 'track_release_date_spotify', 'explicit_content_spotify', 'similarity_duration', 'similarity_query_video_title', 'similarity_query_description', 'similarity_audio', 'audio_embedding_spotify', 'audio_embedding_youtube', }
DISCO-10M 是一个用于音乐大规模机器学习模型研究的数据集,旨在推动音乐领域研究的分享与发展。
由于版权法的限制,该数据集不包含任何音乐内容。音频嵌入特征是使用 Laion-CLAP 计算得出的,可以在许多下游任务中替代原始音频。如果需要原始音频,则可以通过提供的Spotify预览URL或YouTube链接下载。DISCO-10M数据集通过从Spotify收集了40万个艺术家ID和260万个音轨ID,并收集与音轨长度、艺术家名称和音轨名称匹配的YouTube视频链接来创建。这些匹配是使用以下三个相似度度量计算得出的:
对于DISCO-10M,我们仅保留满足以下条件的样本:duration_similarity > 0.25 且 (description_similarity > 0.65 或 title_similarity > 0.65) 且 audio_similarity > 0.4
我们提供基于DISCO-10M的三个子集:
要引用我们的工作,请参考我们的论文 here 。