数据集:

timit_asr

语言:

en

计算机处理:

monolingual

大小:

1K<n<10K

语言创建人:

expert-generated

批注创建人:

expert-generated

源数据集:

original

许可:

other
英文

timit_asr 数据集卡片

数据集概述

TIMIT 读出的语音语料库旨在为声学-语音学研究、自动语音识别系统的开发和评估提供语音数据。TIMIT 包含了八个美国英语主要方言的 630 位发言者的宽带录音,每人朗读十个语音学丰富的句子。TIMIT 语料库包括经时间对齐的正字法、语音和词汇转录,以及每个语音的 16 位、16kHz 采样率的波形文件。该语料库的设计是麻省理工学院(MIT)、SRI International(SRI)和德州仪器公司(TI)的合作努力。语音录制在 TI 进行,转录在 MIT 进行,并由美国国家标准与技术研究所(NIST)进行验证和准备以制作 CD-ROM。

此数据集需要从 https://catalog.ldc.upenn.edu/LDC93S1 手动下载:

To use TIMIT you have to download it manually.
Please create an account and download the dataset from https://catalog.ldc.upenn.edu/LDC93S1
Then extract all files in one folder and load the dataset with:
`datasets.load_dataset('timit_asr', data_dir='path/to/folder/folder_name')`

支持的任务和排行榜

  • 自动语音识别,说话人识别:该数据集可用于训练自动语音识别(ASR)模型。模型接收一个音频文件,并被要求将音频文件转录为书面文本。最常用的评估指标是单词错误率(WER)。任务有一个活跃的排行榜,可以在 https://paperswithcode.com/sota/speech-recognition-on-timit 找到,并根据其 WER 排名模型。

语言

音频为英语。TIMIT 语料库的转录已经经过手工验证。测试和训练子集经过了平衡,以保证了语音和方言的覆盖范围,同时还包括了表格化的可计算机搜索的信息以及书面文档。

数据集结构

数据实例

典型的数据点包括音频文件的路径,通常称为文件和其转录,称为文本。还提供了关于说话人和包含转录的句子的一些额外信息。

{
    'file': '/data/TRAIN/DR4/MMDM0/SI681.WAV',
    'audio': {'path': '/data/TRAIN/DR4/MMDM0/SI681.WAV',
      		  'array': array([-0.00048828, -0.00018311, -0.00137329, ...,  0.00079346, 0.00091553,  0.00085449], dtype=float32),
      		  'sampling_rate': 16000},
    'text': 'Would such an act of refusal be useful?',
    'phonetic_detail': [{'start': '0', 'stop': '1960', 'utterance': 'h#'},
                        {'start': '1960', 'stop': '2466', 'utterance': 'w'},
                        {'start': '2466', 'stop': '3480', 'utterance': 'ix'},
                        {'start': '3480', 'stop': '4000', 'utterance': 'dcl'},
                        {'start': '4000', 'stop': '5960', 'utterance': 's'},
                        {'start': '5960', 'stop': '7480', 'utterance': 'ah'},
                        {'start': '7480', 'stop': '7880', 'utterance': 'tcl'},
                        {'start': '7880', 'stop': '9400', 'utterance': 'ch'},
                        {'start': '9400', 'stop': '9960', 'utterance': 'ix'},
                        {'start': '9960', 'stop': '10680', 'utterance': 'n'},
                        {'start': '10680', 'stop': '13480', 'utterance': 'ae'},
                        {'start': '13480', 'stop': '15680', 'utterance': 'kcl'},
                        {'start': '15680', 'stop': '15880', 'utterance': 't'},
                        {'start': '15880', 'stop': '16920', 'utterance': 'ix'},
                        {'start': '16920', 'stop': '18297', 'utterance': 'v'},
                        {'start': '18297', 'stop': '18882', 'utterance': 'r'},
                        {'start': '18882', 'stop': '19480', 'utterance': 'ix'},
                        {'start': '19480', 'stop': '21723', 'utterance': 'f'},
                        {'start': '21723', 'stop': '22516', 'utterance': 'y'},
                        {'start': '22516', 'stop': '24040', 'utterance': 'ux'},
                        {'start': '24040', 'stop': '25190', 'utterance': 'zh'},
                        {'start': '25190', 'stop': '27080', 'utterance': 'el'},
                        {'start': '27080', 'stop': '28160', 'utterance': 'bcl'},
                        {'start': '28160', 'stop': '28560', 'utterance': 'b'},
                        {'start': '28560', 'stop': '30120', 'utterance': 'iy'},
                        {'start': '30120', 'stop': '31832', 'utterance': 'y'},
                        {'start': '31832', 'stop': '33240', 'utterance': 'ux'},
                        {'start': '33240', 'stop': '34640', 'utterance': 's'},
                        {'start': '34640', 'stop': '35968', 'utterance': 'f'},
                        {'start': '35968', 'stop': '37720', 'utterance': 'el'},
                        {'start': '37720', 'stop': '39920', 'utterance': 'h#'}],
    'word_detail': [{'start': '1960', 'stop': '4000', 'utterance': 'would'},
                    {'start': '4000', 'stop': '9400', 'utterance': 'such'},
                    {'start': '9400', 'stop': '10680', 'utterance': 'an'},
                    {'start': '10680', 'stop': '15880', 'utterance': 'act'},
                    {'start': '15880', 'stop': '18297', 'utterance': 'of'},
                    {'start': '18297', 'stop': '27080', 'utterance': 'refusal'},
                    {'start': '27080', 'stop': '30120', 'utterance': 'be'},
                    {'start': '30120', 'stop': '37720', 'utterance': 'useful'}],

    'dialect_region': 'DR4',
    'sentence_type': 'SI',
    'speaker_id': 'MMDM0',
    'id': 'SI681'
}

数据字段

  • file:下载的音频文件的路径,格式为.wav。

  • audio:包含下载的音频文件的路径、解码后的音频数组和采样率的字典。请注意,当访问音频列时:dataset[0]["audio"],音频文件会自动解码并重新采样到dataset.features["audio"].sampling_rate。解码和重新采样大量音频文件可能需要很长时间。因此,最好在访问"audio"列之前先查询样本索引,即dataset[0]["audio"]应始终优先于dataset["audio"][0]。

  • text:音频文件的转录。

  • phonetic_detail:构成句子的音素。PHONCODE.DOC 包含了 TIMIT 词典中使用的所有音位和音标符号的表格。

  • word_detail:转录的词级拆分。

  • dialect_region:录音的方言代码。

  • sentence_type:句子的类型 - 'SA':方言、'SX':紧凑或'SI':多样。

  • speaker_id:发言人的唯一标识符。同一发言人的唯一标识符可能出现在多个数据样本中。

  • id:数据样本的ID。包含 .

数据拆分

语音材料已划分为训练和测试部分。默认的训练-测试拆分将在数据下载时提供。

仅测试数据集中包含一个核心部分,其中有 24 个发言人,每个方言区域有 2 名男性和 1 名女性。有关测试集的更多信息可以在 here 找到。

数据集创建

策划理由

[需要更多信息]

源数据

初始数据收集与规范化

[需要更多信息]

源语言制片人是谁?

[需要更多信息]

注释

注释过程

[需要更多信息]

注释者是谁?

[需要更多信息]

个人和敏感信息

该数据集包含通过线上捐赠声音的人。您同意不试图确定数据集中发言者的身份。

使用数据的注意事项

数据的社会影响

[需要更多信息]

偏见讨论

[需要更多信息]

其他已知限制

数据集仅供研究目的使用。请检查数据集许可证获取其他信息。

附加信息

数据集策划者

数据集由 John S. Garofolo, Lori F. Lamel, William M. Fisher, Jonathan G. Fiscus, David S. Pallett, Nancy L. Dahlgren, Victor Zue 创建。

许可信息

LDC User Agreement for Non-Members

引用信息

@inproceedings{
  title={TIMIT Acoustic-Phonetic Continuous Speech Corpus},
  author={Garofolo, John S., et al},
  ldc_catalog_no={LDC93S1},
  DOI={https://doi.org/10.35111/17gk-bn40},
  journal={Linguistic Data Consortium, Philadelphia},
  year={1983}
}

贡献者

感谢 @vrindaprabhu 提供此数据集。