数据集:
LIUM/tedlium
源数据集:
original批注创建人:
expert-generated语言创建人:
expert-generated大小:
10K<n<100K计算机处理:
monolingual语言:
en任务:
自动语音识别TED-LIUM语料库是英语TED演讲的采样数据,采样频率为16kHz。该语料库的三个版本的语音数据范围从118到452小时。
from datasets import load_dataset tedlium = load_dataset("LIUM/tedlium", "release1") # for Release 1 # see structure print(tedlium) # load audio sample on the fly audio_input = tedlium["train"][0]["audio"] # first decoded audio sample transcription = tedlium["train"][0]["text"] # first transcription
音频和转录均为英语,符合 http://www.ted.com 上的TED演讲。
{'audio': {'path': '/home/sanchitgandhi/cache/downloads/extracted/6e3655f9e735ae3c467deed1df788e0dabd671c1f3e2e386e30aa3b571bd9761/TEDLIUM_release1/train/sph/PaulaScher_2008P.sph', 'array': array([-0.00048828, -0.00018311, -0.00137329, ..., 0.00079346, 0.00091553, 0.00085449], dtype=float32), 'sampling_rate': 16000}, 'text': '{COUGH} but <sil> i was so {COUGH} utterly unqualified for(2) this project and {NOISE} so utterly ridiculous {SMACK} and ignored the brief {SMACK} <sil>', 'speaker_id': 'PaulaScher_2008P', 'gender': 'female', 'file': '/home/sanchitgandhi/cache/downloads/extracted/6e3655f9e735ae3c467deed1df788e0dabd671c1f3e2e386e30aa3b571bd9761/TEDLIUM_release1/train/sph/PaulaScher_2008P.sph', 'id': 'PaulaScher_2008P-1003.35-1011.16-<o,f0,female>'}
TED-LIUM语料库有三个版本,逐步增加训练数据的转录语音时间从118小时(版本1)增加到207小时(版本2),再增加到452小时(版本3)。
版本1:
版本2:
版本3:
版本3包含两种不同的语料库分发:
每个版本都分为训练集、验证集和测试集:
Split | Release 1 | Release 2 | Release 3 |
---|---|---|---|
Train | 56,803 | 92,973 | 268,263 |
Validation | 591 | 591 | 591 |
Test | 1,469 | 1,469 | 1,469 |
TED-LIUM是在 The International Workshop on Spoken Language Trans- lation (IWSLT) 2011 Evaluation Campaign 年期间构建的,这是一个专注于公共演讲的自动翻译的年度研讨会,并包含有关语音识别、语音翻译、文本翻译和系统组合的赛道。
数据来自于 http://www.ted.com 上公开可用的TED演讲。使用一种内部讲话者分割和聚类工具(LIUM_SpkDiarization)生成语音和转录文本之间的正确对齐。对于语音的含糊(例如重复、犹豫、开头失误),处理方式如下:重复部分被转录,犹豫部分映射为特定的填充词,开头失误不予考虑。有关数据收集和处理的详细信息,请参阅 TED-LIUM paper 。
源语言制作者是谁?TED Talks是来自教育、商业、科学、技术和创意领域的专家演讲的有影响力的视频。
[需要更多信息]
注释者是谁?[需要更多信息]
[需要更多信息]
[需要更多信息]
[需要更多信息]
[需要更多信息]
[需要更多信息]
根据知识共享署名-非商业性-禁止演绎3.0许可( http://creativecommons.org/licenses/by-nc-nd/3.0/deed.en )。
版本1:
@inproceedings{rousseau2012tedlium, title={TED-LIUM: an Automatic Speech Recognition dedicated corpus}, author={Rousseau, Anthony and Del{\'e}glise, Paul and Est{\`e}ve, Yannick}, booktitle={Conference on Language Resources and Evaluation (LREC)}, pages={125--129}, year={2012} }
版本2:
@inproceedings{rousseau2014enhancing, title={Enhancing the TED-LIUM corpus with selected data for language modeling and more TED talks.}, author={Rousseau, Anthony and Del{\'e}glise, Paul and Esteve, Yannick and others}, booktitle={LREC}, pages={3935--3939}, year={2014} }
版本3:
@inproceedings{hernandez2018ted, author="Hernandez, Fran{\c{c}}ois and Nguyen, Vincent and Ghannay, Sahar and Tomashenko, Natalia and Est{\`e}ve, Yannick", title="TED-LIUM 3: Twice as Much Data and Corpus Repartition for Experiments on Speaker Adaptation", booktitle="Speech and Computer", year="2018", publisher="Springer International Publishing", pages="198--208", }