数据集:

Splend1dchan/librispeech_asr_individual

许可:

cc-by-4.0

源数据集:

original

批注创建人:

expert-generated

语言创建人:

expert-generated crowdsourced

大小:

100K<n<1M

计算机处理:

monolingual

语言:

子任务:

speaker-identification

任务:

音频分类

自动语音识别

数据集介绍文件清单

英文

librispeech_asr 数据集卡片

数据集摘要

LibriSpeech 是由 Vassil Panayotov 和 Daniel Povey 准备的大约 1000 小时的 16kHz 读英语语音语料库。这些数据是从 LibriVox 项目的有声读物中提取得到的，并经过精心分段和对齐。

支持的任务和排行榜

自动语音识别, 音频扬声器识别: 该数据集可用于训练自动语音识别 (ASR) 模型。模型会接收一个音频文件，并要求将音频文件转录为书面文字。最常见的评估指标是词错误率 (WER)。该任务拥有一个活跃的 Hugging Face 排行榜，可以在 https://huggingface.co/spaces/huggingface/hf-speech-bench 找到。该排行榜根据各个模型的 WER 对上传到 Hub 的模型进行排名。外部的排行榜在 https://paperswithcode.com/sota/speech-recognition-on-librispeech-test-clean 上对来自研究机构的最新模型进行排名。

语言

音频是英文的。有两个配置：clean 和 other。语料库中的讲话者根据训练在不同数据集上的模型的转录的 WER 进行了排名，大致分为两部分，低 WER 的讲话者被标记为“clean”，高 WER 的讲话者被标记为“other”。

数据集结构

数据实例

典型的数据点包括音频文件的路径，通常称为 "file"，以及它的转录，称为 "text"。还提供了关于说话者和包含转录的段落的一些附加信息。

{'chapter_id': 141231,
 'file': '/home/patrick/.cache/huggingface/datasets/downloads/extracted/b7ded9969e09942ab65313e691e6fc2e12066192ee8527e21d634aca128afbe2/dev_clean/1272/141231/1272-141231-0000.flac',
  'audio': {'path': '/home/patrick/.cache/huggingface/datasets/downloads/extracted/b7ded9969e09942ab65313e691e6fc2e12066192ee8527e21d634aca128afbe2/dev_clean/1272/141231/1272-141231-0000.flac',
  'array': array([-0.00048828, -0.00018311, -0.00137329, ...,  0.00079346,
          0.00091553,  0.00085449], dtype=float32),
  'sampling_rate': 16000},
 'id': '1272-141231-0000',
 'speaker_id': 1272,
 'text': 'A MAN SAID TO THE UNIVERSE SIR I EXIST'}

数据字段

file：下载的音频文件的路径，格式为 .flac。
audio：包含下载的音频文件路径、解码后的音频数组和采样率的字典。请注意，访问 audio 列时，dataset[0]["audio"] 会自动解码和重新采样为 dataset.features["audio"].sampling_rate。解码和重新采样大量音频文件可能需要相当长的时间。因此，在访问 "audio" 列之前，最好先查询样本索引，即 dataset[0]["audio"] 应该始终优先于 dataset["audio"][0]。
text：音频文件的转录。
id：数据样本的唯一标识符。
speaker_id：说话者的唯一标识符。同一个说话者的标识符可能会出现在多个数据样本中。
chapter_id：包含转录的有声读物章节的标识符。

数据拆分

由于语料库的规模使得将其作为单个大档案分发变得不切实际，或者至少不方便，因此训练部分的语料库被分为三个子集，大约分别占据了100小时、360小时和500小时左右的训练数据。简单的自动过程被用来选择前两个集合中的音频，以达到平均录制质量较高且口音更接近美国英语的目的。在 WSJ 的 si-84 数据子集上训练了一个声学模型，并且使用在相应书籍的文本上估计的二元语言模型对语料库中的音频进行了识别。我们计算了这个自动转录相对于我们从图书文本中获得的参考转录的单词错误率 (WER)。语料库中的讲话者根据这个 WSJ 模型的转录的 WER 进行了排名，大致划分为两部分，低 WER 的讲话者标记为“clean”，高 WER 的讲话者标记为“other”。

对于 "clean"，数据被分为训练集、验证集和测试集。训练集进一步分为 train.100 和 train.360，分别占据了训练数据的100小时和360小时。对于 "other"，数据被分为训练集、验证集和测试集。训练集包含大约500小时的录音。

Train.500	Train.360	Train.100	Valid	Test
clean	-	104014	28539	2703	2620
other	148688	-	-	2864	2939

数据集创建

策划理由

[需要更多信息]

源数据

初始数据收集和归一化

[需要更多信息]

谁是源语言制作人？

[需要更多信息]

标注

注释过程

[需要更多信息]

谁是注释者？

[需要更多信息]

个人和敏感信息

该数据集包含在线捐献他们声音的人。您同意不尝试确定数据集中说话者的身份。

使用数据的注意事项

数据集的社会影响

[需要更多信息]

偏见讨论

[需要更多信息]

其他已知限制

[需要更多信息]

其他信息

数据集策划者

该数据集最初由 Vassil Panayotov、Guoguo Chen、Daniel Povey 和 Sanjeev Khudanpur 创建。

许可信息

CC BY 4.0

引用信息

@inproceedings{panayotov2015librispeech,
  title={Librispeech: an ASR corpus based on public domain audio books},
  author={Panayotov, Vassil and Chen, Guoguo and Povey, Daniel and Khudanpur, Sanjeev},
  booktitle={Acoustics, Speech and Signal Processing (ICASSP), 2015 IEEE International Conference on},
  pages={5206--5210},
  year={2015},
  organization={IEEE}
}

贡献者

感谢 @patrickvonplaten 添加了这个数据集。

作者:

Splend1dchan

数据集大小:

39.02 KB