数据集中每个话语都有一个.npy文件,总共有7931个文件。说话人嵌入是512维的X向量。
数据集将话语分给以下说话人:
使用speechbrain/spkrec-xvect-voxceleb模型提取了X向量。
用法:
from datasets import load_dataset embeddings_dataset = load_dataset("Matthijs/cmu-arctic-xvectors", split="validation") speaker_embeddings = embeddings_dataset[7306]["xvector"] speaker_embeddings = torch.tensor(speaker_embeddings).unsqueeze(0)