数据集:
timit_asr
任务:
自动语音识别语言:
en计算机处理:
monolingual大小:
1K<n<10K语言创建人:
expert-generated批注创建人:
expert-generated源数据集:
original许可:
otherTIMIT 读出的语音语料库旨在为声学-语音学研究、自动语音识别系统的开发和评估提供语音数据。TIMIT 包含了八个美国英语主要方言的 630 位发言者的宽带录音,每人朗读十个语音学丰富的句子。TIMIT 语料库包括经时间对齐的正字法、语音和词汇转录,以及每个语音的 16 位、16kHz 采样率的波形文件。该语料库的设计是麻省理工学院(MIT)、SRI International(SRI)和德州仪器公司(TI)的合作努力。语音录制在 TI 进行,转录在 MIT 进行,并由美国国家标准与技术研究所(NIST)进行验证和准备以制作 CD-ROM。
此数据集需要从 https://catalog.ldc.upenn.edu/LDC93S1 手动下载:
To use TIMIT you have to download it manually. Please create an account and download the dataset from https://catalog.ldc.upenn.edu/LDC93S1 Then extract all files in one folder and load the dataset with: `datasets.load_dataset('timit_asr', data_dir='path/to/folder/folder_name')`
音频为英语。TIMIT 语料库的转录已经经过手工验证。测试和训练子集经过了平衡,以保证了语音和方言的覆盖范围,同时还包括了表格化的可计算机搜索的信息以及书面文档。
典型的数据点包括音频文件的路径,通常称为文件和其转录,称为文本。还提供了关于说话人和包含转录的句子的一些额外信息。
{ 'file': '/data/TRAIN/DR4/MMDM0/SI681.WAV', 'audio': {'path': '/data/TRAIN/DR4/MMDM0/SI681.WAV', 'array': array([-0.00048828, -0.00018311, -0.00137329, ..., 0.00079346, 0.00091553, 0.00085449], dtype=float32), 'sampling_rate': 16000}, 'text': 'Would such an act of refusal be useful?', 'phonetic_detail': [{'start': '0', 'stop': '1960', 'utterance': 'h#'}, {'start': '1960', 'stop': '2466', 'utterance': 'w'}, {'start': '2466', 'stop': '3480', 'utterance': 'ix'}, {'start': '3480', 'stop': '4000', 'utterance': 'dcl'}, {'start': '4000', 'stop': '5960', 'utterance': 's'}, {'start': '5960', 'stop': '7480', 'utterance': 'ah'}, {'start': '7480', 'stop': '7880', 'utterance': 'tcl'}, {'start': '7880', 'stop': '9400', 'utterance': 'ch'}, {'start': '9400', 'stop': '9960', 'utterance': 'ix'}, {'start': '9960', 'stop': '10680', 'utterance': 'n'}, {'start': '10680', 'stop': '13480', 'utterance': 'ae'}, {'start': '13480', 'stop': '15680', 'utterance': 'kcl'}, {'start': '15680', 'stop': '15880', 'utterance': 't'}, {'start': '15880', 'stop': '16920', 'utterance': 'ix'}, {'start': '16920', 'stop': '18297', 'utterance': 'v'}, {'start': '18297', 'stop': '18882', 'utterance': 'r'}, {'start': '18882', 'stop': '19480', 'utterance': 'ix'}, {'start': '19480', 'stop': '21723', 'utterance': 'f'}, {'start': '21723', 'stop': '22516', 'utterance': 'y'}, {'start': '22516', 'stop': '24040', 'utterance': 'ux'}, {'start': '24040', 'stop': '25190', 'utterance': 'zh'}, {'start': '25190', 'stop': '27080', 'utterance': 'el'}, {'start': '27080', 'stop': '28160', 'utterance': 'bcl'}, {'start': '28160', 'stop': '28560', 'utterance': 'b'}, {'start': '28560', 'stop': '30120', 'utterance': 'iy'}, {'start': '30120', 'stop': '31832', 'utterance': 'y'}, {'start': '31832', 'stop': '33240', 'utterance': 'ux'}, {'start': '33240', 'stop': '34640', 'utterance': 's'}, {'start': '34640', 'stop': '35968', 'utterance': 'f'}, {'start': '35968', 'stop': '37720', 'utterance': 'el'}, {'start': '37720', 'stop': '39920', 'utterance': 'h#'}], 'word_detail': [{'start': '1960', 'stop': '4000', 'utterance': 'would'}, {'start': '4000', 'stop': '9400', 'utterance': 'such'}, {'start': '9400', 'stop': '10680', 'utterance': 'an'}, {'start': '10680', 'stop': '15880', 'utterance': 'act'}, {'start': '15880', 'stop': '18297', 'utterance': 'of'}, {'start': '18297', 'stop': '27080', 'utterance': 'refusal'}, {'start': '27080', 'stop': '30120', 'utterance': 'be'}, {'start': '30120', 'stop': '37720', 'utterance': 'useful'}], 'dialect_region': 'DR4', 'sentence_type': 'SI', 'speaker_id': 'MMDM0', 'id': 'SI681' }
file:下载的音频文件的路径,格式为.wav。
audio:包含下载的音频文件的路径、解码后的音频数组和采样率的字典。请注意,当访问音频列时:dataset[0]["audio"],音频文件会自动解码并重新采样到dataset.features["audio"].sampling_rate。解码和重新采样大量音频文件可能需要很长时间。因此,最好在访问"audio"列之前先查询样本索引,即dataset[0]["audio"]应始终优先于dataset["audio"][0]。
text:音频文件的转录。
phonetic_detail:构成句子的音素。PHONCODE.DOC 包含了 TIMIT 词典中使用的所有音位和音标符号的表格。
word_detail:转录的词级拆分。
dialect_region:录音的方言代码。
sentence_type:句子的类型 - 'SA':方言、'SX':紧凑或'SI':多样。
speaker_id:发言人的唯一标识符。同一发言人的唯一标识符可能出现在多个数据样本中。
id:数据样本的ID。包含 .
语音材料已划分为训练和测试部分。默认的训练-测试拆分将在数据下载时提供。
仅测试数据集中包含一个核心部分,其中有 24 个发言人,每个方言区域有 2 名男性和 1 名女性。有关测试集的更多信息可以在 here 找到。
[需要更多信息]
[需要更多信息]
源语言制片人是谁?[需要更多信息]
[需要更多信息]
注释者是谁?[需要更多信息]
该数据集包含通过线上捐赠声音的人。您同意不试图确定数据集中发言者的身份。
[需要更多信息]
[需要更多信息]
数据集仅供研究目的使用。请检查数据集许可证获取其他信息。
数据集由 John S. Garofolo, Lori F. Lamel, William M. Fisher, Jonathan G. Fiscus, David S. Pallett, Nancy L. Dahlgren, Victor Zue 创建。
LDC User Agreement for Non-Members
@inproceedings{ title={TIMIT Acoustic-Phonetic Continuous Speech Corpus}, author={Garofolo, John S., et al}, ldc_catalog_no={LDC93S1}, DOI={https://doi.org/10.35111/17gk-bn40}, journal={Linguistic Data Consortium, Philadelphia}, year={1983} }
感谢 @vrindaprabhu 提供此数据集。