数据集:
DISCOX/DISCO-10K-random
许可:
cc-by-4.0您可以使用HuggingFace下载数据集:
from datasets import load_dataset ds = load_dataset("DISCOX/DISCO-10K-random")
这个数据集包含DISCO-10M数据集中的10,000个随机样本,可以在 here 找到。
数据集包含以下特征:
{ 'video_url_youtube', 'video_title_youtube', 'track_name_spotify', 'video_duration_youtube_sec', 'preview_url_spotify', 'video_view_count_youtube', 'video_thumbnail_url_youtube', 'search_query_youtube', 'video_description_youtube', 'track_id_spotify', 'album_id_spotify', 'artist_id_spotify', 'track_duration_spotify_ms', 'primary_artist_name_spotify', 'track_release_date_spotify', 'explicit_content_spotify', 'similarity_duration', 'similarity_query_video_title', 'similarity_query_description', 'similarity_audio', 'audio_embedding_spotify', 'audio_embedding_youtube', }
可以在 here 找到有关数据集的更多细节。