数据集:

edinburghcstr/ami

语言:

en

计算机处理:

monolingual

预印本库:

arxiv:1906.11047

许可:

cc-by-4.0
英文

AMI 数据集卡片

数据集描述

AMI 会议语料库包含100小时的会议录音。这些录音使用一系列与公共时间轴同步的信号。包括近距离和远距离麦克风、个人和室内全景摄像头以及幻灯片投影仪和电子白板的输出。在会议期间,与会者还可以使用未同步的笔记录所写内容。这些会议是用英语录制的,使用了三个具有不同声学特性的房间,并且包括大多数非母语使用者。

注意:此数据集对应于 KALDI's AMI S5 recipe 的数据处理。这意味着文本已经标准化,并且音频数据已根据上述脚本进行了划分!为了尽可能简化用户体验,我们在此处提供了已经划分的数据,以便完成以下操作:

使用示例

from datasets import load_dataset
ds = load_dataset("edinburghcstr/ami", "ihm")

print(ds)

结果为:

DatasetDict({
    train: Dataset({
        features: ['meeting_id', 'audio_id', 'text', 'audio', 'begin_time', 'end_time', 'microphone_id', 'speaker_id'],
        num_rows: 108502
    })
    validation: Dataset({
        features: ['meeting_id', 'audio_id', 'text', 'audio', 'begin_time', 'end_time', 'microphone_id', 'speaker_id'],
        num_rows: 13098
    })
    test: Dataset({
        features: ['meeting_id', 'audio_id', 'text', 'audio', 'begin_time', 'end_time', 'microphone_id', 'speaker_id'],
        num_rows: 12643
    })
})
ds["train"][0]

自动将音频加载到内存中:

{'meeting_id': 'EN2001a',
 'audio_id': 'AMI_EN2001a_H00_MEE068_0000557_0000594',
 'text': 'OKAY',
 'audio': {'path': '/cache/dir/path/downloads/extracted/2d75d5b3e8a91f44692e2973f08b4cac53698f92c2567bd43b41d19c313a5280/EN2001a/train_ami_en2001a_h00_mee068_0000557_0000594.wav',
  'array': array([0.        , 0.        , 0.        , ..., 0.00033569, 0.00030518,
         0.00030518], dtype=float32),
  'sampling_rate': 16000},
 'begin_time': 5.570000171661377,
 'end_time': 5.940000057220459,
 'microphone_id': 'H00',
 'speaker_id': 'MEE068'}

此数据集经过微调 Wav2Vec2-Large 模型进行正确性测试,具体是 the wav2vec2-large-lv60 checkpoint

正如在这些实验中可以看到的,将模型训练少于2个周期会得到

结果(WER):

"dev" "eval"
25.27 25.21

here 所示。

结果与已发表的论文结果一致:

您可以运行 run.sh 来重现这个结果。

支持的任务和排行榜

语言

数据集结构

数据实例

数据字段

数据拆分

转录子集大小

数据集创建

策划原理

源数据

初始数据收集和标准化的语言制作人是谁?

注释

注释过程是什么?注释者是谁?

个人和敏感信息

使用数据的注意事项

数据的社会影响

[需要更多信息]

偏差讨论

其他已知限制

其他信息

数据集策划者

许可信息

引用信息

贡献

感谢 @sanchit-gandhi @patrickvonplaten @polinaeterna 添加此数据集。

使用条款