数据集:

librispeech_asr

英文

librispeech_asr 数据集卡片

数据集概述

LibriSpeech是一个包含约1000小时16kHz读取的英语语音的语料库,由Vassil Panayotov和Daniel Povey在LibriVox项目中的读取有声读物生成,并经过精细分段和对齐处理。

支持的任务和排行榜

语言

语音为英语。有两个配置: clean 和 other。语料库中的说话人根据在不同数据集上训练的模型的转录WER进行了排名,并被大致分为两组,WER较低的被指定为“clean”,WER较高的被指定为“other”。

数据集结构

数据示例

一个典型的数据点包括音频文件的路径,通常称为 file,以及其转录,称为 text。还提供有关说话人和包含转录的段落的一些额外信息。

{'chapter_id': 141231,
 'file': '/home/patrick/.cache/huggingface/datasets/downloads/extracted/b7ded9969e09942ab65313e691e6fc2e12066192ee8527e21d634aca128afbe2/dev_clean/1272/141231/1272-141231-0000.flac',
  'audio': {'path': '/home/patrick/.cache/huggingface/datasets/downloads/extracted/b7ded9969e09942ab65313e691e6fc2e12066192ee8527e21d634aca128afbe2/dev_clean/1272/141231/1272-141231-0000.flac',
  'array': array([-0.00048828, -0.00018311, -0.00137329, ...,  0.00079346,
          0.00091553,  0.00085449], dtype=float32),
  'sampling_rate': 16000},
 'id': '1272-141231-0000',
 'speaker_id': 1272,
 'text': 'A MAN SAID TO THE UNIVERSE SIR I EXIST'}

数据字段

  • file: 下载的音频文件的路径,格式为.flac。

  • audio: 包含下载的音频文件的路径、解码后的音频数组和采样率的字典。请注意,在访问audio列时:dataset[0]["audio"],音频文件会自动解码并重新采样到dataset.features["audio"].sampling_rate。解码和重新采样大量音频文件可能需要很长时间。因此,首先查询样本索引再查询"audio"列非常重要,即dataset[0]["audio"]应始终优先于dataset["audio"][0]。

  • text: 音频文件的转录。

  • id: 数据样本的唯一标识符。

  • speaker_id: 说话人的唯一标识符。同一个说话人的标识符可能出现在多个数据样本中。

  • chapter_id: 包含转录的有声读物章节的标识符。

数据拆分

由于语料库的规模使得将其作为一个单独的大档案分发变得不切实际,或者至少不方便一些用户。因此,语料库的训练部分被分成三个子集,分别包含大约100小时、360小时和500小时的数据。使用一个简单的自动过程来选择前两个集合中的音频,使其平均录制质量较高,并且口音更接近美式英语。在WSJ的si-84数据子集上训练了一个声学模型,并用它来识别语料库中的音频,使用的是相应书籍文本的双字母语言模型进行估计。我们相对于参考转录(从书籍文本中获取)计算了该自动转录与WSJ模型转录之间的词错误率(WER)。语料库中的说话人根据WSJ模型转录的WER进行了排序,并大致分为两组,WER较低的被指定为“clean”,WER较高的被指定为“other”。

对于"clean",数据被分成训练集、验证集和测试集。训练集进一步被分成train.100和train.360,分别占据训练数据的100小时和360小时。对于"other",数据被分成训练集、验证集和测试集。训练集包含约500小时的录音。

Train.500 Train.360 Train.100 Valid Test
clean - 104014 28539 2703 2620
other 148688 - - 2864 2939

数据集创建

策划理由

[需要更多的信息]

源数据

初始数据收集和标准化

[需要更多的信息]

谁是源语言制作者?

[需要更多的信息]

注释

注释过程

[需要更多的信息]

谁是标注者?

[需要更多的信息]

个人和敏感信息

该数据集包含在线捐赠其语音的人们。同意不试图确定数据集中的说话人的身份。

使用数据的注意事项

数据的社会影响

[需要更多的信息]

偏见讨论

[需要更多的信息]

其他已知限制

[需要更多的信息]

其他信息

数据集负责人

该数据集最初由Vassil Panayotov、Guoguo Chen、Daniel Povey和Sanjeev Khudanpur创建。

许可信息

CC BY 4.0

引用信息

@inproceedings{panayotov2015librispeech,
  title={Librispeech: an ASR corpus based on public domain audio books},
  author={Panayotov, Vassil and Chen, Guoguo and Povey, Daniel and Khudanpur, Sanjeev},
  booktitle={Acoustics, Speech and Signal Processing (ICASSP), 2015 IEEE International Conference on},
  pages={5206--5210},
  year={2015},
  organization={IEEE}
}

贡献者

感谢 @patrickvonplaten 添加了这个数据集。