数据集:

asapp/slue

英文

SLUE数据集卡片

数据集摘要

我们介绍了口语理解评估(SLUE)基准测试。我们的目标是:

  • 跟踪多个SLU任务的研究进展
  • 通过提供各种SLU任务的微调和评估集,促进预训练表示的开发
  • 通过聚焦于所有学术和工业团体都可以轻松使用的免费数据集,促进研究的开放交流。

对于这个基准测试,我们提供了新的公开可用的自然语音数据的注释,用于训练和评估。我们还提供了一个基准套件,包括下载和预处理SLUE数据集的代码,训练基线模型,并评估SLUE任务的性能。有关更多详细信息,请参见 Toolkit Paper

支持的任务和排行榜

自动语音识别(ASR)

尽管这不是一个SLU任务,但ASR可以帮助分析同一领域下游SLU任务的性能。此外,流水线方法依赖于ASR输出,使ASR与SLU相关。使用词错误率(WER)来评估ASR。

命名实体识别(NER)

命名实体识别涉及在给定的句子中检测命名实体及其标签(类型)。我们使用微平均的F1和标签F1分数来评估性能。F1分数评估每个句子预测的命名实体短语和标签对的无序列表。只有标签预测用于标签F1。

情感分析(SA)

情感分析是将给定的语音片段分类为具有负面、中性或积极情感。我们使用宏平均(非加权)召回率和F1分数评估SA。【需要更多信息】

如何提交测试集的评估

请参见这里 https://asappresearch.github.io/slue-toolkit/how-to-submit.html

语言

SLUE中的语言数据为英语。

数据集结构

数据实例

voxpopuli
  • 下载的数据集文件大小:398.45 MB
  • 生成的数据集大小:5.81 MB
  • 总计使用的磁盘空间:404.26 MB "train"的示例如下所示。
{'id': '20131007-0900-PLENARY-19-en_20131007-21:26:04_3',
 'audio': {'path': '/Users/username/.cache/huggingface/datasets/downloads/extracted/e35757b0971ac7ff5e2fcdc301bba0364857044be55481656e2ade6f7e1fd372/slue-voxpopuli/fine-tune/20131007-0900-PLENARY-19-en_20131007-21:26:04_3.ogg',
  'array': array([ 0.00132601,  0.00058881, -0.00052187, ...,  0.06857217,
          0.07835515,  0.07845446], dtype=float32),
  'sampling_rate': 16000},
 'speaker_id': 'None',
 'normalized_text': 'two thousand and twelve for instance the new brussels i regulation provides for the right for employees to sue several employers together and the right for employees to have access to courts in europe even if the employer is domiciled outside europe. the commission will',
 'raw_text': '2012. For instance, the new Brussels I Regulation provides for the right for employees to sue several employers together and the right for employees to have access to courts in Europe, even if the employer is domiciled outside Europe. The Commission will',
 'raw_ner': {'type': ['LOC', 'LOC', 'LAW', 'DATE'],
  'start': [227, 177, 28, 0],
  'length': [6, 6, 21, 4]},
 'normalized_ner': {'type': ['LOC', 'LOC', 'LAW', 'DATE'],
  'start': [243, 194, 45, 0],
  'length': [6, 6, 21, 23]},
 'raw_combined_ner': {'type': ['PLACE', 'PLACE', 'LAW', 'WHEN'],
  'start': [227, 177, 28, 0],
  'length': [6, 6, 21, 4]},
 'normalized_combined_ner': {'type': ['PLACE', 'PLACE', 'LAW', 'WHEN'],
  'start': [243, 194, 45, 0],
  'length': [6, 6, 21, 23]}}
voxceleb
  • 下载的数据集文件大小:1.55 GB
  • 生成的数据集大小:3.78 MB
  • 总计使用的磁盘空间:1.55 GB "train"的示例如下所示。
{'id': 'id10059_229vKIGbxrI_00004',
 'audio': {'path': '/Users/felixwu/.cache/huggingface/datasets/downloads/extracted/400facb6d2f2496ebcd58a5ffe5fbf2798f363d1b719b888d28a29b872751626/slue-voxceleb/fine-tune_raw/id10059_229vKIGbxrI_00004.flac',
  'array': array([-0.00442505, -0.00204468,  0.00628662, ...,  0.00158691,
          0.00100708,  0.00033569], dtype=float32),
  'sampling_rate': 16000},
 'speaker_id': 'id10059',
 'normalized_text': 'of god what is a creator the almighty that uh',
 'sentiment': 'Neutral',
 'start_second': 0.45,
 'end_second': 4.52}

数据字段

voxpopuli
  • id:实例的字符串ID。
  • 音频:原始音频的音频特征。它是一个包含下载的音频文件路径、解码的音频数组和采样率的字典。请注意,当访问音频列时:dataset[0]["audio"]会自动解码和重新采样为dataset.features["audio"].sampling_rate。解码和重新采样大量音频文件可能需要很长时间。因此,首先查询样本索引而不是"audio"列,即dataset[0]["audio"]始终优先于dataset["audio"][0]。
  • speaker_id:说话者ID的字符串。
  • raw_text:包含音频的原始转录的字符串特征。
  • normalized_text:包含音频的规范化转录的字符串特征,用于标准化评估。
  • raw_ner:使用与OntoNotes相同的18个NER类别对raw_text进行的NER注释。
  • normalized_ner:使用与OntoNotes相同的18个NER类别对normalized_text进行的NER注释。
  • raw_combined_ner:使用我们的7个NER类别(WHEN、QUANT、PLACE、NORP、ORG、LAW、PERSON)对raw_text进行的NER注释。
  • normalized_combined_ner:使用我们的7个NER类别(WHEN、QUANT、PLACE、NORP、ORG、LAW、PERSON)对normalized_text进行的NER注释,用于标准化评估。每个NER注释都是一个包含三个列表的字典:type是NER标记类型的列表。start是对应文本中每个命名实体的起始字符位置的列表。length是每个命名实体的字符数的列表。
voxceleb
  • id:实例的字符串ID。
  • 音频:原始音频的音频特征。请使用start_second和end_second来裁剪转录片段。例如:dataset[0]["audio"]["array"][int(dataset[0]["start_second"]*dataset[0]["audio"]["sample_rate"]):int(dataset[0]["end_second"]*dataset[0]["audio"]["sample_rate"])]。它是一个包含下载的音频文件路径、解码的音频数组和采样率的字典。请注意,当访问音频列时:dataset[0]["audio"]会自动解码和重新采样为dataset.features["audio"].sampling_rate。解码和重新采样大量音频文件可能需要很长时间。因此,首先查询样本索引而不是"audio"列,即dataset[0]["audio"]始终优先于dataset["audio"][0]。
  • speaker_id:说话者ID的字符串。
  • normalized_text:包含音频片段的转录的字符串特征。
  • sentiment:字符串特征,可为Negative、Neutral或Positive。
  • start_second:指定音频片段的起始秒数的浮点特征。
  • end_second:指定音频片段的结束秒数的浮点特征。

数据拆分

train validation test
voxpopuli 5000 1753 1842
voxceleb 5777 1454 3553
Here we use the standard split names in Huggingface's datasets, so the train and validation splits are the original fine-tune and dev splits of SLUE datasets, respectively.

数据集创建

策划理由

【需要更多信息】

源数据

初始数据收集和标准化

【需要更多信息】

谁是源语言的生产者?

【需要更多信息】

注释

注释过程

【需要更多信息】

谁是注释者?

【需要更多信息】

个人和敏感信息

【需要更多信息】

数据使用注意事项

数据集的社会影响

【需要更多信息】

偏见讨论

【需要更多信息】

其他已知限制

【需要更多信息】

额外信息

数据集策划

【需要更多信息】

许可信息

SLUE-VoxPopuli数据集

SLUE-VoxPopuli数据集包含VoxPopuli数据集的一个子集,该子集的版权与原始许可证CC0相同。请参阅欧洲议会的法律声明( https://www.europarl.europa.eu/legal-notice/en/ )。

此外,我们提供了命名实体注释(.tsv文件中的normalized_ner和raw_ner列),它受到与CC0相同的许可证的保护。

SLUE-VoxCeleb数据集

SLUE-VoxCeleb数据集包含OXFORD VoxCeleb数据集的一个子集,该子集的版权与以下的创作共用许可证相同。此外,我们还提供了遵循与OXFORD VoxCeleb数据集相同许可证的转录、情感注释和时间戳(开始、结束)。

OXFORD VGG VoxCeleb数据集的原始许可证

VoxCeleb1包含来自上传到YouTube的视频的1,251位名人的超过100,000个语音。VoxCeleb2包含来自上传到YouTube的视频的6,112位名人的超过一百万个语音。

这些说话者涵盖了不同种族、口音、职业和年龄段。

我们提供与数据集相关的YouTube URL、关联的人脸检测结果和时间戳,以及从数据集中裁剪的音频片段和人脸视频。原始视频和裁剪版本的版权归原始所有者所有。

这些数据受到知识共享署名4.0国际许可证的保护(请阅读 https://creativecommons.org/licenses/by/4.0/ 中的许可证条款)。

下载此数据集意味着同意遵循相同条件对数据集进行任何形式的修改和/或重新分发。

此外,任何使用该数据集的实体都同意以下条件:

此数据集是由版权所有者和贡献者"按原样"提供的,不提供任何明示或暗示的担保,包括但不限于对适销性和特定用途的适用性的任何担保。在任何情况下,版权所有者对于任何直接、间接、偶然、特殊、惩罚性或后果性的损害(包括但不限于采购替代品或服务;使用、数据或利润损失;或业务中断)概不负责,无论是以合同责任、严格责任还是侵权行为(包括疏忽或其他)的任何理论,即使事先被告知此类损害的可能性。

如果使用该数据集,请引用下面的文献[1,2]。

[1] J. S. Chung, A. Nagrani, A. Zisserman VoxCeleb2: Deep Speaker Recognition INTERSPEECH, 2018.

[2] A. Nagrani, J. S. Chung, A. ZissermanVoxCeleb: a large-scale speaker identification dataset INTERSPEECH, 2017

引用信息

@inproceedings{shon2022slue,
  title={Slue: New benchmark tasks for spoken language understanding evaluation on natural speech},
  author={Shon, Suwon and Pasad, Ankita and Wu, Felix and Brusco, Pablo and Artzi, Yoav and Livescu, Karen and Han, Kyu J},
  booktitle={ICASSP 2022-2022 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP)},
  pages={7927--7931},
  year={2022},
  organization={IEEE}
}

贡献

感谢 @fwu-asapp 添加了该数据集。