数据集:

sanchit-gandhi/librispeech_asr_dummy

任务:

自动语音识别

音频分类

子任务:

speaker-identification

语言:

计算机处理:

monolingual

大小:

100K<n<1M

语言创建人:

crowdsourced expert-generated

批注创建人:

expert-generated

源数据集:

original

许可:

cc-by-4.0

数据集介绍文件清单

英文

librispeech_asr_dummy数据集卡片

数据集简介

这是LibriSpeech数据集的一个截断版本。每个分割中包含20个样本。要查看完整数据集，请访问： https://huggingface.co/datasets/librispeech_asr

LibriSpeech是由Vassil Panayotov和Daniel Povey的助手准备的大约1000小时的16kHz读英语语音的语料库。数据源自LibriVox项目的有声读物，并经过仔细分割和对齐。

支持的任务和排行榜

自动语音识别，音频说话人识别：可以使用数据集对自动语音识别（ASR）模型进行训练。该模型接收一个音频文件，并要求将音频文件转录为书面文本。最常用的评估指标是词错误率（WER）。该任务有一个活跃的Hugging Face排行榜，您可以在 https://huggingface.co/spaces/huggingface/hf-speech-bench 找到。排行榜根据上传到Hub的模型的WER对其进行排序。 https://paperswithcode.com/sota/speech-recognition-on-librispeech-test-clean 上的外部排行榜对来自研究和学术界的最新模型进行排序。

语言

音频为英语。有两个配置：清晰（clean）和其他（other）。根据在不同数据集上训练的模型的转录的WER，对语料库中的演讲者进行了排名，并且大致上被分为了两组，“清晰”的演讲者被指定为"clean"，而较高WER的演讲者则被指定为"other"。

数据集结构

数据实例

典型的数据点包括音频文件的路径，通常称为"file"，以及其转录，称为"text"。还提供有关演讲者和包含转录的段落的一些附加信息。

{'chapter_id': 141231,
 'file': '/home/patrick/.cache/huggingface/datasets/downloads/extracted/b7ded9969e09942ab65313e691e6fc2e12066192ee8527e21d634aca128afbe2/dev_clean/1272/141231/1272-141231-0000.flac',
  'audio': {'path': '/home/patrick/.cache/huggingface/datasets/downloads/extracted/b7ded9969e09942ab65313e691e6fc2e12066192ee8527e21d634aca128afbe2/dev_clean/1272/141231/1272-141231-0000.flac',
  'array': array([-0.00048828, -0.00018311, -0.00137329, ...,  0.00079346,
          0.00091553,  0.00085449], dtype=float32),
  'sampling_rate': 16000},
 'id': '1272-141231-0000',
 'speaker_id': 1272,
 'text': 'A MAN SAID TO THE UNIVERSE SIR I EXIST'}

数据字段

file：下载的.flac格式音频文件的路径。
audio：包含下载的音频文件路径、解码后的音频数组和采样率的字典。请注意，访问audio列时：dataset[0]["audio"]会自动解码和重采样为dataset.features["audio"].sampling_rate。解码和重采样大量音频文件可能需要相当长的时间。因此，在访问"audio"列之前，首先需要查询样本索引，即dataset[0]["audio"]应始终优先于dataset["audio"][0]。
text：音频文件的转录。
id：数据样本的唯一标识符。
speaker_id：演讲者的唯一标识符。同一演讲者ID可能出现在多个数据样本中。
chapter_id：包含转录的有声读物章节的ID。

数据拆分

由于语料库的规模使得分发单个大型存档变得不切实际，或者至少不方便一些用户，因此将语料库的训练部分分为三个子集，大致大小分别为100、360和500小时。使用简单的自动过程选择了前两个集合中的音频，这些音频的录制质量平均较高，并且与美式英语的口音更接近。在WSJ的si-84数据子集上训练了一个声学模型，并使用对应书籍文本的二元LM对语料库中的音频进行了识别。我们计算了相对于我们从书籍文本中获取的参考转录的此自动转录的词错误率（WER）。根据WSJ模型的转录的WER对语料库中的演讲者进行了排名，并将其大致分为了两组，WER较低的演讲者被指定为"clean"，WER较高的演讲者被指定为"other"。

"clean"的数据被划分为训练集、验证集和测试集。训练集进一步划分为train.100和train.360，分别占据训练数据的100小时和360小时。"other"的数据被划分为训练集、验证集和测试集。训练集包含约500小时的录制语音。

Train.500	Train.360	Train.100	Valid	Test
clean	-	104014	28539	2703	2620
other	148688	-	-	2864	2939

数据集创建

个人和敏感信息

该数据集包含在线捐赠声音的人。您同意不尝试确定数据集中发言者的身份。

附加信息

数据集维护者

该数据集最初是由Vassil Panayotov、Guoguo Chen、Daniel Povey和Sanjeev Khudanpur创建的。

许可信息

CC BY 4.0

引用信息

@inproceedings{panayotov2015librispeech,
  title={Librispeech: an ASR corpus based on public domain audio books},
  author={Panayotov, Vassil and Chen, Guoguo and Povey, Daniel and Khudanpur, Sanjeev},
  booktitle={Acoustics, Speech and Signal Processing (ICASSP), 2015 IEEE International Conference on},
  pages={5206--5210},
  year={2015},
  organization={IEEE}
}

作者:

sanchit-gandhi

数据集大小:

20.52 MB