数据集:
asapp/slue
语言:
en计算机处理:
monolingual大小:
10K<n<100K语言创建人:
found批注创建人:
expert-generated源数据集:
original预印本库:
arxiv:2111.10367我们介绍了口语理解评估(SLUE)基准测试。我们的目标是:
对于这个基准测试,我们提供了新的公开可用的自然语音数据的注释,用于训练和评估。我们还提供了一个基准套件,包括下载和预处理SLUE数据集的代码,训练基线模型,并评估SLUE任务的性能。有关更多详细信息,请参见 Toolkit 和 Paper 。
尽管这不是一个SLU任务,但ASR可以帮助分析同一领域下游SLU任务的性能。此外,流水线方法依赖于ASR输出,使ASR与SLU相关。使用词错误率(WER)来评估ASR。
命名实体识别(NER)命名实体识别涉及在给定的句子中检测命名实体及其标签(类型)。我们使用微平均的F1和标签F1分数来评估性能。F1分数评估每个句子预测的命名实体短语和标签对的无序列表。只有标签预测用于标签F1。
情感分析(SA)情感分析是将给定的语音片段分类为具有负面、中性或积极情感。我们使用宏平均(非加权)召回率和F1分数评估SA。【需要更多信息】
如何提交测试集的评估请参见这里 https://asappresearch.github.io/slue-toolkit/how-to-submit.html
SLUE中的语言数据为英语。
{'id': '20131007-0900-PLENARY-19-en_20131007-21:26:04_3', 'audio': {'path': '/Users/username/.cache/huggingface/datasets/downloads/extracted/e35757b0971ac7ff5e2fcdc301bba0364857044be55481656e2ade6f7e1fd372/slue-voxpopuli/fine-tune/20131007-0900-PLENARY-19-en_20131007-21:26:04_3.ogg', 'array': array([ 0.00132601, 0.00058881, -0.00052187, ..., 0.06857217, 0.07835515, 0.07845446], dtype=float32), 'sampling_rate': 16000}, 'speaker_id': 'None', 'normalized_text': 'two thousand and twelve for instance the new brussels i regulation provides for the right for employees to sue several employers together and the right for employees to have access to courts in europe even if the employer is domiciled outside europe. the commission will', 'raw_text': '2012. For instance, the new Brussels I Regulation provides for the right for employees to sue several employers together and the right for employees to have access to courts in Europe, even if the employer is domiciled outside Europe. The Commission will', 'raw_ner': {'type': ['LOC', 'LOC', 'LAW', 'DATE'], 'start': [227, 177, 28, 0], 'length': [6, 6, 21, 4]}, 'normalized_ner': {'type': ['LOC', 'LOC', 'LAW', 'DATE'], 'start': [243, 194, 45, 0], 'length': [6, 6, 21, 23]}, 'raw_combined_ner': {'type': ['PLACE', 'PLACE', 'LAW', 'WHEN'], 'start': [227, 177, 28, 0], 'length': [6, 6, 21, 4]}, 'normalized_combined_ner': {'type': ['PLACE', 'PLACE', 'LAW', 'WHEN'], 'start': [243, 194, 45, 0], 'length': [6, 6, 21, 23]}}voxceleb
{'id': 'id10059_229vKIGbxrI_00004', 'audio': {'path': '/Users/felixwu/.cache/huggingface/datasets/downloads/extracted/400facb6d2f2496ebcd58a5ffe5fbf2798f363d1b719b888d28a29b872751626/slue-voxceleb/fine-tune_raw/id10059_229vKIGbxrI_00004.flac', 'array': array([-0.00442505, -0.00204468, 0.00628662, ..., 0.00158691, 0.00100708, 0.00033569], dtype=float32), 'sampling_rate': 16000}, 'speaker_id': 'id10059', 'normalized_text': 'of god what is a creator the almighty that uh', 'sentiment': 'Neutral', 'start_second': 0.45, 'end_second': 4.52}
train | validation | test | |
---|---|---|---|
voxpopuli | 5000 | 1753 | 1842 |
voxceleb | 5777 | 1454 | 3553 |
Here we use the standard split names in Huggingface's datasets, so the train and validation splits are the original fine-tune and dev splits of SLUE datasets, respectively. |
【需要更多信息】
【需要更多信息】
谁是源语言的生产者?【需要更多信息】
【需要更多信息】
谁是注释者?【需要更多信息】
【需要更多信息】
【需要更多信息】
【需要更多信息】
【需要更多信息】
【需要更多信息】
SLUE-VoxPopuli数据集包含VoxPopuli数据集的一个子集,该子集的版权与原始许可证CC0相同。请参阅欧洲议会的法律声明( https://www.europarl.europa.eu/legal-notice/en/ )。
此外,我们提供了命名实体注释(.tsv文件中的normalized_ner和raw_ner列),它受到与CC0相同的许可证的保护。
SLUE-VoxCeleb数据集SLUE-VoxCeleb数据集包含OXFORD VoxCeleb数据集的一个子集,该子集的版权与以下的创作共用许可证相同。此外,我们还提供了遵循与OXFORD VoxCeleb数据集相同许可证的转录、情感注释和时间戳(开始、结束)。
OXFORD VGG VoxCeleb数据集的原始许可证VoxCeleb1包含来自上传到YouTube的视频的1,251位名人的超过100,000个语音。VoxCeleb2包含来自上传到YouTube的视频的6,112位名人的超过一百万个语音。
这些说话者涵盖了不同种族、口音、职业和年龄段。
我们提供与数据集相关的YouTube URL、关联的人脸检测结果和时间戳,以及从数据集中裁剪的音频片段和人脸视频。原始视频和裁剪版本的版权归原始所有者所有。
这些数据受到知识共享署名4.0国际许可证的保护(请阅读 https://creativecommons.org/licenses/by/4.0/ 中的许可证条款)。
下载此数据集意味着同意遵循相同条件对数据集进行任何形式的修改和/或重新分发。
此外,任何使用该数据集的实体都同意以下条件:
此数据集是由版权所有者和贡献者"按原样"提供的,不提供任何明示或暗示的担保,包括但不限于对适销性和特定用途的适用性的任何担保。在任何情况下,版权所有者对于任何直接、间接、偶然、特殊、惩罚性或后果性的损害(包括但不限于采购替代品或服务;使用、数据或利润损失;或业务中断)概不负责,无论是以合同责任、严格责任还是侵权行为(包括疏忽或其他)的任何理论,即使事先被告知此类损害的可能性。
如果使用该数据集,请引用下面的文献[1,2]。
[1] J. S. Chung, A. Nagrani, A. Zisserman VoxCeleb2: Deep Speaker Recognition INTERSPEECH, 2018.
[2] A. Nagrani, J. S. Chung, A. ZissermanVoxCeleb: a large-scale speaker identification dataset INTERSPEECH, 2017
@inproceedings{shon2022slue, title={Slue: New benchmark tasks for spoken language understanding evaluation on natural speech}, author={Shon, Suwon and Pasad, Ankita and Wu, Felix and Brusco, Pablo and Artzi, Yoav and Livescu, Karen and Han, Kyu J}, booktitle={ICASSP 2022-2022 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP)}, pages={7927--7931}, year={2022}, organization={IEEE} }
感谢 @fwu-asapp 添加了该数据集。