数据集:

sanchit-gandhi/librispeech_asr_dummy

英文

librispeech_asr_dummy数据集卡片

数据集简介

这是LibriSpeech数据集的一个截断版本。每个分割中包含20个样本。要查看完整数据集,请访问: https://huggingface.co/datasets/librispeech_asr

LibriSpeech是由Vassil Panayotov和Daniel Povey的助手准备的大约1000小时的16kHz读英语语音的语料库。数据源自LibriVox项目的有声读物,并经过仔细分割和对齐。

支持的任务和排行榜

语言

音频为英语。有两个配置:清晰(clean)和其他(other)。根据在不同数据集上训练的模型的转录的WER,对语料库中的演讲者进行了排名,并且大致上被分为了两组,“清晰”的演讲者被指定为"clean",而较高WER的演讲者则被指定为"other"。

数据集结构

数据实例

典型的数据点包括音频文件的路径,通常称为"file",以及其转录,称为"text"。还提供有关演讲者和包含转录的段落的一些附加信息。

{'chapter_id': 141231,
 'file': '/home/patrick/.cache/huggingface/datasets/downloads/extracted/b7ded9969e09942ab65313e691e6fc2e12066192ee8527e21d634aca128afbe2/dev_clean/1272/141231/1272-141231-0000.flac',
  'audio': {'path': '/home/patrick/.cache/huggingface/datasets/downloads/extracted/b7ded9969e09942ab65313e691e6fc2e12066192ee8527e21d634aca128afbe2/dev_clean/1272/141231/1272-141231-0000.flac',
  'array': array([-0.00048828, -0.00018311, -0.00137329, ...,  0.00079346,
          0.00091553,  0.00085449], dtype=float32),
  'sampling_rate': 16000},
 'id': '1272-141231-0000',
 'speaker_id': 1272,
 'text': 'A MAN SAID TO THE UNIVERSE SIR I EXIST'}

数据字段

  • file:下载的.flac格式音频文件的路径。

  • audio:包含下载的音频文件路径、解码后的音频数组和采样率的字典。请注意,访问audio列时:dataset[0]["audio"]会自动解码和重采样为dataset.features["audio"].sampling_rate。解码和重采样大量音频文件可能需要相当长的时间。因此,在访问"audio"列之前,首先需要查询样本索引,即dataset[0]["audio"]应始终优先于dataset["audio"][0]。

  • text:音频文件的转录。

  • id:数据样本的唯一标识符。

  • speaker_id:演讲者的唯一标识符。同一演讲者ID可能出现在多个数据样本中。

  • chapter_id:包含转录的有声读物章节的ID。

数据拆分

由于语料库的规模使得分发单个大型存档变得不切实际,或者至少不方便一些用户,因此将语料库的训练部分分为三个子集,大致大小分别为100、360和500小时。使用简单的自动过程选择了前两个集合中的音频,这些音频的录制质量平均较高,并且与美式英语的口音更接近。在WSJ的si-84数据子集上训练了一个声学模型,并使用对应书籍文本的二元LM对语料库中的音频进行了识别。我们计算了相对于我们从书籍文本中获取的参考转录的此自动转录的词错误率(WER)。根据WSJ模型的转录的WER对语料库中的演讲者进行了排名,并将其大致分为了两组,WER较低的演讲者被指定为"clean",WER较高的演讲者被指定为"other"。

"clean"的数据被划分为训练集、验证集和测试集。训练集进一步划分为train.100和train.360,分别占据训练数据的100小时和360小时。"other"的数据被划分为训练集、验证集和测试集。训练集包含约500小时的录制语音。

Train.500 Train.360 Train.100 Valid Test
clean - 104014 28539 2703 2620
other 148688 - - 2864 2939

数据集创建

个人和敏感信息

该数据集包含在线捐赠声音的人。您同意不尝试确定数据集中发言者的身份。

附加信息

数据集维护者

该数据集最初是由Vassil Panayotov、Guoguo Chen、Daniel Povey和Sanjeev Khudanpur创建的。

许可信息

CC BY 4.0

引用信息

@inproceedings{panayotov2015librispeech,
  title={Librispeech: an ASR corpus based on public domain audio books},
  author={Panayotov, Vassil and Chen, Guoguo and Povey, Daniel and Khudanpur, Sanjeev},
  booktitle={Acoustics, Speech and Signal Processing (ICASSP), 2015 IEEE International Conference on},
  pages={5206--5210},
  year={2015},
  organization={IEEE}
}