数据集:
edinburghcstr/ami
AMI 会议语料库包含100小时的会议录音。这些录音使用一系列与公共时间轴同步的信号。包括近距离和远距离麦克风、个人和室内全景摄像头以及幻灯片投影仪和电子白板的输出。在会议期间,与会者还可以使用未同步的笔记录所写内容。这些会议是用英语录制的,使用了三个具有不同声学特性的房间,并且包括大多数非母语使用者。
注意:此数据集对应于 KALDI's AMI S5 recipe 的数据处理。这意味着文本已经标准化,并且音频数据已根据上述脚本进行了划分!为了尽可能简化用户体验,我们在此处提供了已经划分的数据,以便完成以下操作:
from datasets import load_dataset ds = load_dataset("edinburghcstr/ami", "ihm") print(ds)
结果为:
DatasetDict({ train: Dataset({ features: ['meeting_id', 'audio_id', 'text', 'audio', 'begin_time', 'end_time', 'microphone_id', 'speaker_id'], num_rows: 108502 }) validation: Dataset({ features: ['meeting_id', 'audio_id', 'text', 'audio', 'begin_time', 'end_time', 'microphone_id', 'speaker_id'], num_rows: 13098 }) test: Dataset({ features: ['meeting_id', 'audio_id', 'text', 'audio', 'begin_time', 'end_time', 'microphone_id', 'speaker_id'], num_rows: 12643 }) })
ds["train"][0]
自动将音频加载到内存中:
{'meeting_id': 'EN2001a', 'audio_id': 'AMI_EN2001a_H00_MEE068_0000557_0000594', 'text': 'OKAY', 'audio': {'path': '/cache/dir/path/downloads/extracted/2d75d5b3e8a91f44692e2973f08b4cac53698f92c2567bd43b41d19c313a5280/EN2001a/train_ami_en2001a_h00_mee068_0000557_0000594.wav', 'array': array([0. , 0. , 0. , ..., 0.00033569, 0.00030518, 0.00030518], dtype=float32), 'sampling_rate': 16000}, 'begin_time': 5.570000171661377, 'end_time': 5.940000057220459, 'microphone_id': 'H00', 'speaker_id': 'MEE068'}
此数据集经过微调 Wav2Vec2-Large 模型进行正确性测试,具体是 the wav2vec2-large-lv60 checkpoint 。
正如在这些实验中可以看到的,将模型训练少于2个周期会得到
结果(WER):
"dev" | "eval" |
---|---|
25.27 | 25.21 |
如 here 所示。
结果与已发表的论文结果一致:
您可以运行 run.sh 来重现这个结果。
[需要更多信息]
感谢 @sanchit-gandhi 、 @patrickvonplaten 和 @polinaeterna 添加此数据集。