数据集:

LIUM/tedlium

源数据集:

original

批注创建人:

expert-generated

语言创建人:

expert-generated

大小:

10K<n<100K

计算机处理:

monolingual

语言:

任务:

自动语音识别

数据集介绍文件清单

英文

TEDLIUM数据集的数据卡

数据集概述

TED-LIUM语料库是英语TED演讲的采样数据，采样频率为16kHz。该语料库的三个版本的语音数据范围从118到452小时。

示例

from datasets import load_dataset

tedlium = load_dataset("LIUM/tedlium", "release1") # for Release 1

# see structure
print(tedlium)

# load audio sample on the fly
audio_input = tedlium["train"][0]["audio"]  # first decoded audio sample
transcription = tedlium["train"][0]["text"]  # first transcription

支持的任务和排行榜

自动语音识别：该数据集可用于训练自动语音识别（ASR）模型。模型需要提供音频文件，并将其转录为文字。最常用的评估指标是词错误率（WER）。任务有一个活跃的排行榜，可以在 https://paperswithcode.com/sota/speech-recognition-on-tedlium 上找到，该排行榜根据WER对模型进行排名。

语言

音频和转录均为英语，符合 http://www.ted.com 上的TED演讲。

数据集结构

数据实例

{'audio': {'path': '/home/sanchitgandhi/cache/downloads/extracted/6e3655f9e735ae3c467deed1df788e0dabd671c1f3e2e386e30aa3b571bd9761/TEDLIUM_release1/train/sph/PaulaScher_2008P.sph', 
  'array': array([-0.00048828, -0.00018311, -0.00137329, ...,  0.00079346,
          0.00091553,  0.00085449], dtype=float32),
  'sampling_rate': 16000},
'text': '{COUGH} but <sil> i was so {COUGH} utterly unqualified for(2) this project and {NOISE} so utterly ridiculous {SMACK} and ignored the brief {SMACK} <sil>', 
'speaker_id': 'PaulaScher_2008P', 
'gender': 'female', 
'file': '/home/sanchitgandhi/cache/downloads/extracted/6e3655f9e735ae3c467deed1df788e0dabd671c1f3e2e386e30aa3b571bd9761/TEDLIUM_release1/train/sph/PaulaScher_2008P.sph', 
'id': 'PaulaScher_2008P-1003.35-1011.16-<o,f0,female>'}

数据字段

音频：包含下载的音频文件路径、解码后的音频数组和采样率的字典。注意，访问音频列时，dataset[0]["audio"]会自动解码和重新采样为dataset.features["audio"].sampling_rate。解码和重新采样大量音频文件可能需要很长时间。因此，首先查询样本索引非常重要，即dataset[0]["audio"]应始终优先于dataset["audio"][0]。
文件：.sph格式的下载音频文件的路径。
文本：音频文件的转录。
性别：说话人的性别。男性、女性或不适用。
id：数据样本的唯一id。
说话人id：说话人的唯一id。同一说话人id可能对应多个数据样本。

数据拆分

TED-LIUM语料库有三个版本，逐步增加训练数据的转录语音时间从118小时（版本1）增加到207小时（版本2），再增加到452小时（版本3）。

版本1：

774个音频演讲和自动对齐的转录。
包含118小时的语音音频数据。
主页： https://www.openslr.org/7/

版本2：

1495个音频演讲和自动对齐的转录。
包含207小时的语音音频数据。
带有发音的字典（159848个条目）。
从公开可用的WMT12语料库中选择的用于语言建模的单语数据。
主页： https://www.openslr.org/19/

版本3：

2351个音频演讲和自动对齐的转录。
包含452小时的语音音频数据。
TED-LIUM 2验证和测试数据：19个TED演讲及其对应的手动转录。
带有发音的字典（159848个条目），与TED-LIUM 2中的文件相同。
从公开可用的WMT12语料库中选择的用于语言建模的单语数据：这些文件来自TED-LIUM 2版本，但已经根据英语语言的相关性进行了修改的标记。
主页： https://www.openslr.org/51/

版本3包含两种不同的语料库分发：

“传统”版本，其中开发和测试数据集与TED-LIUM 2（和TED-LIUM 1）相同。
“话者自适应”版本，专门用于话者自适应实验。

每个版本都分为训练集、验证集和测试集：

Split	Release 1	Release 2	Release 3
Train	56,803	92,973	268,263
Validation	591	591	591
Test	1,469	1,469	1,469

数据集创建

策划理由

TED-LIUM是在 The International Workshop on Spoken Language Trans- lation (IWSLT) 2011 Evaluation Campaign 年期间构建的，这是一个专注于公共演讲的自动翻译的年度研讨会，并包含有关语音识别、语音翻译、文本翻译和系统组合的赛道。

源数据

初始数据收集和规范化

数据来自于 http://www.ted.com 上公开可用的TED演讲。使用一种内部讲话者分割和聚类工具（LIUM_SpkDiarization）生成语音和转录文本之间的正确对齐。对于语音的含糊（例如重复、犹豫、开头失误），处理方式如下：重复部分被转录，犹豫部分映射为特定的填充词，开头失误不予考虑。有关数据收集和处理的详细信息，请参阅 TED-LIUM paper 。

源语言制作者是谁？

TED Talks是来自教育、商业、科学、技术和创意领域的专家演讲的有影响力的视频。

注释

注释过程

[需要更多信息]

注释者是谁？

[需要更多信息]

个人和敏感信息

[需要更多信息]

使用数据的考虑事项

数据的社会影响

[需要更多信息]

偏见讨论

[需要更多信息]

其他已知限制

[需要更多信息]

其他信息

数据集策划者

[需要更多信息]

许可信息

根据知识共享署名-非商业性-禁止演绎3.0许可（ http://creativecommons.org/licenses/by-nc-nd/3.0/deed.en ）。

引用信息

版本1：

@inproceedings{rousseau2012tedlium,
  title={TED-LIUM: an Automatic Speech Recognition dedicated corpus},
  author={Rousseau, Anthony and Del{\'e}glise, Paul and Est{\`e}ve, Yannick},
  booktitle={Conference on Language Resources and Evaluation (LREC)},
  pages={125--129},
  year={2012}
}

版本2：

@inproceedings{rousseau2014enhancing,
  title={Enhancing the TED-LIUM corpus with selected data for language modeling and more TED talks.},
  author={Rousseau, Anthony and Del{\'e}glise, Paul and Esteve, Yannick and others},
  booktitle={LREC},
  pages={3935--3939},
  year={2014}
}

版本3：

@inproceedings{hernandez2018ted,
  author="Hernandez, Fran{\c{c}}ois
  and Nguyen, Vincent
  and Ghannay, Sahar
  and Tomashenko, Natalia
  and Est{\`e}ve, Yannick",
  title="TED-LIUM 3: Twice as Much Data and Corpus Repartition for Experiments on Speaker Adaptation",
  booktitle="Speech and Computer",
  year="2018",
  publisher="Springer International Publishing",
  pages="198--208",
}

作者:

LIUM

数据集大小:

152.74 GB