数据集:

LIUM/tedlium

源数据集:

original

批注创建人:

expert-generated

语言创建人:

expert-generated

大小:

10K<n<100K

计算机处理:

monolingual

语言:

en
英文

TEDLIUM数据集的数据卡

数据集概述

TED-LIUM语料库是英语TED演讲的采样数据,采样频率为16kHz。该语料库的三个版本的语音数据范围从118到452小时。

示例

from datasets import load_dataset

tedlium = load_dataset("LIUM/tedlium", "release1") # for Release 1

# see structure
print(tedlium)

# load audio sample on the fly
audio_input = tedlium["train"][0]["audio"]  # first decoded audio sample
transcription = tedlium["train"][0]["text"]  # first transcription

支持的任务和排行榜

  • 自动语音识别:该数据集可用于训练自动语音识别(ASR)模型。模型需要提供音频文件,并将其转录为文字。最常用的评估指标是词错误率(WER)。任务有一个活跃的排行榜,可以在 https://paperswithcode.com/sota/speech-recognition-on-tedlium 上找到,该排行榜根据WER对模型进行排名。

语言

音频和转录均为英语,符合 http://www.ted.com 上的TED演讲。

数据集结构

数据实例

{'audio': {'path': '/home/sanchitgandhi/cache/downloads/extracted/6e3655f9e735ae3c467deed1df788e0dabd671c1f3e2e386e30aa3b571bd9761/TEDLIUM_release1/train/sph/PaulaScher_2008P.sph', 
  'array': array([-0.00048828, -0.00018311, -0.00137329, ...,  0.00079346,
          0.00091553,  0.00085449], dtype=float32),
  'sampling_rate': 16000},
'text': '{COUGH} but <sil> i was so {COUGH} utterly unqualified for(2) this project and {NOISE} so utterly ridiculous {SMACK} and ignored the brief {SMACK} <sil>', 
'speaker_id': 'PaulaScher_2008P', 
'gender': 'female', 
'file': '/home/sanchitgandhi/cache/downloads/extracted/6e3655f9e735ae3c467deed1df788e0dabd671c1f3e2e386e30aa3b571bd9761/TEDLIUM_release1/train/sph/PaulaScher_2008P.sph', 
'id': 'PaulaScher_2008P-1003.35-1011.16-<o,f0,female>'}

数据字段

  • 音频:包含下载的音频文件路径、解码后的音频数组和采样率的字典。注意,访问音频列时,dataset[0]["audio"]会自动解码和重新采样为dataset.features["audio"].sampling_rate。解码和重新采样大量音频文件可能需要很长时间。因此,首先查询样本索引非常重要,即dataset[0]["audio"]应始终优先于dataset["audio"][0]。
  • 文件:.sph格式的下载音频文件的路径。
  • 文本:音频文件的转录。
  • 性别:说话人的性别。男性、女性或不适用。
  • id:数据样本的唯一id。
  • 说话人id:说话人的唯一id。同一说话人id可能对应多个数据样本。

数据拆分

TED-LIUM语料库有三个版本,逐步增加训练数据的转录语音时间从118小时(版本1)增加到207小时(版本2),再增加到452小时(版本3)。

版本1:

版本2:

  • 1495个音频演讲和自动对齐的转录。
  • 包含207小时的语音音频数据。
  • 带有发音的字典(159848个条目)。
  • 从公开可用的WMT12语料库中选择的用于语言建模的单语数据。
  • 主页: https://www.openslr.org/19/

版本3:

  • 2351个音频演讲和自动对齐的转录。
  • 包含452小时的语音音频数据。
  • TED-LIUM 2验证和测试数据:19个TED演讲及其对应的手动转录。
  • 带有发音的字典(159848个条目),与TED-LIUM 2中的文件相同。
  • 从公开可用的WMT12语料库中选择的用于语言建模的单语数据:这些文件来自TED-LIUM 2版本,但已经根据英语语言的相关性进行了修改的标记。
  • 主页: https://www.openslr.org/51/

版本3包含两种不同的语料库分发:

  • “传统”版本,其中开发和测试数据集与TED-LIUM 2(和TED-LIUM 1)相同。
  • “话者自适应”版本,专门用于话者自适应实验。

每个版本都分为训练集、验证集和测试集:

Split Release 1 Release 2 Release 3
Train 56,803 92,973 268,263
Validation 591 591 591
Test 1,469 1,469 1,469

数据集创建

策划理由

TED-LIUM是在 The International Workshop on Spoken Language Trans- lation (IWSLT) 2011 Evaluation Campaign 年期间构建的,这是一个专注于公共演讲的自动翻译的年度研讨会,并包含有关语音识别、语音翻译、文本翻译和系统组合的赛道。

源数据

初始数据收集和规范化

数据来自于 http://www.ted.com 上公开可用的TED演讲。使用一种内部讲话者分割和聚类工具(LIUM_SpkDiarization)生成语音和转录文本之间的正确对齐。对于语音的含糊(例如重复、犹豫、开头失误),处理方式如下:重复部分被转录,犹豫部分映射为特定的填充词,开头失误不予考虑。有关数据收集和处理的详细信息,请参阅 TED-LIUM paper

源语言制作者是谁?

TED Talks是来自教育、商业、科学、技术和创意领域的专家演讲的有影响力的视频。

注释

注释过程

[需要更多信息]

注释者是谁?

[需要更多信息]

个人和敏感信息

[需要更多信息]

使用数据的考虑事项

数据的社会影响

[需要更多信息]

偏见讨论

[需要更多信息]

其他已知限制

[需要更多信息]

其他信息

数据集策划者

[需要更多信息]

许可信息

根据知识共享署名-非商业性-禁止演绎3.0许可( http://creativecommons.org/licenses/by-nc-nd/3.0/deed.en )。

引用信息

版本1:

@inproceedings{rousseau2012tedlium,
  title={TED-LIUM: an Automatic Speech Recognition dedicated corpus},
  author={Rousseau, Anthony and Del{\'e}glise, Paul and Est{\`e}ve, Yannick},
  booktitle={Conference on Language Resources and Evaluation (LREC)},
  pages={125--129},
  year={2012}
}

版本2:

@inproceedings{rousseau2014enhancing,
  title={Enhancing the TED-LIUM corpus with selected data for language modeling and more TED talks.},
  author={Rousseau, Anthony and Del{\'e}glise, Paul and Esteve, Yannick and others},
  booktitle={LREC},
  pages={3935--3939},
  year={2014}
}

版本3:

@inproceedings{hernandez2018ted,
  author="Hernandez, Fran{\c{c}}ois
  and Nguyen, Vincent
  and Ghannay, Sahar
  and Tomashenko, Natalia
  and Est{\`e}ve, Yannick",
  title="TED-LIUM 3: Twice as Much Data and Corpus Repartition for Experiments on Speaker Adaptation",
  booktitle="Speech and Computer",
  year="2018",
  publisher="Springer International Publishing",
  pages="198--208",
}