数据集:
librispeech_asr
LibriSpeech是一个包含约1000小时16kHz读取的英语语音的语料库,由Vassil Panayotov和Daniel Povey在LibriVox项目中的读取有声读物生成,并经过精细分段和对齐处理。
语音为英语。有两个配置: clean 和 other。语料库中的说话人根据在不同数据集上训练的模型的转录WER进行了排名,并被大致分为两组,WER较低的被指定为“clean”,WER较高的被指定为“other”。
一个典型的数据点包括音频文件的路径,通常称为 file,以及其转录,称为 text。还提供有关说话人和包含转录的段落的一些额外信息。
{'chapter_id': 141231, 'file': '/home/patrick/.cache/huggingface/datasets/downloads/extracted/b7ded9969e09942ab65313e691e6fc2e12066192ee8527e21d634aca128afbe2/dev_clean/1272/141231/1272-141231-0000.flac', 'audio': {'path': '/home/patrick/.cache/huggingface/datasets/downloads/extracted/b7ded9969e09942ab65313e691e6fc2e12066192ee8527e21d634aca128afbe2/dev_clean/1272/141231/1272-141231-0000.flac', 'array': array([-0.00048828, -0.00018311, -0.00137329, ..., 0.00079346, 0.00091553, 0.00085449], dtype=float32), 'sampling_rate': 16000}, 'id': '1272-141231-0000', 'speaker_id': 1272, 'text': 'A MAN SAID TO THE UNIVERSE SIR I EXIST'}
file: 下载的音频文件的路径,格式为.flac。
audio: 包含下载的音频文件的路径、解码后的音频数组和采样率的字典。请注意,在访问audio列时:dataset[0]["audio"],音频文件会自动解码并重新采样到dataset.features["audio"].sampling_rate。解码和重新采样大量音频文件可能需要很长时间。因此,首先查询样本索引再查询"audio"列非常重要,即dataset[0]["audio"]应始终优先于dataset["audio"][0]。
text: 音频文件的转录。
id: 数据样本的唯一标识符。
speaker_id: 说话人的唯一标识符。同一个说话人的标识符可能出现在多个数据样本中。
chapter_id: 包含转录的有声读物章节的标识符。
由于语料库的规模使得将其作为一个单独的大档案分发变得不切实际,或者至少不方便一些用户。因此,语料库的训练部分被分成三个子集,分别包含大约100小时、360小时和500小时的数据。使用一个简单的自动过程来选择前两个集合中的音频,使其平均录制质量较高,并且口音更接近美式英语。在WSJ的si-84数据子集上训练了一个声学模型,并用它来识别语料库中的音频,使用的是相应书籍文本的双字母语言模型进行估计。我们相对于参考转录(从书籍文本中获取)计算了该自动转录与WSJ模型转录之间的词错误率(WER)。语料库中的说话人根据WSJ模型转录的WER进行了排序,并大致分为两组,WER较低的被指定为“clean”,WER较高的被指定为“other”。
对于"clean",数据被分成训练集、验证集和测试集。训练集进一步被分成train.100和train.360,分别占据训练数据的100小时和360小时。对于"other",数据被分成训练集、验证集和测试集。训练集包含约500小时的录音。
Train.500 | Train.360 | Train.100 | Valid | Test | |
---|---|---|---|---|---|
clean | - | 104014 | 28539 | 2703 | 2620 |
other | 148688 | - | - | 2864 | 2939 |
[需要更多的信息]
[需要更多的信息]
谁是源语言制作者?[需要更多的信息]
[需要更多的信息]
谁是标注者?[需要更多的信息]
该数据集包含在线捐赠其语音的人们。同意不试图确定数据集中的说话人的身份。
[需要更多的信息]
[需要更多的信息]
[需要更多的信息]
该数据集最初由Vassil Panayotov、Guoguo Chen、Daniel Povey和Sanjeev Khudanpur创建。
@inproceedings{panayotov2015librispeech, title={Librispeech: an ASR corpus based on public domain audio books}, author={Panayotov, Vassil and Chen, Guoguo and Povey, Daniel and Khudanpur, Sanjeev}, booktitle={Acoustics, Speech and Signal Processing (ICASSP), 2015 IEEE International Conference on}, pages={5206--5210}, year={2015}, organization={IEEE} }
感谢 @patrickvonplaten 添加了这个数据集。