英文

NMSQA(自然多说话者口语问答)数据集卡

下载音频数据: https://huggingface.co/datasets/voidful/NMSQA/resolve/main/nmsqa_audio.tar.gz 解压音频数据: tar -xf nmsqa_audio.tar.gz

数据集摘要

自然多说话者口语问答(NMSQA)数据集是专为无文本口语问答任务而设计的。它基于SQuAD数据集,包含口语问题和段落。数据集包括原始文本,转录和口语内容的音频文件。该数据集用于评估模型在无文本口语问答任务上的性能。

支持的任务和排行榜

该数据集支持的主要任务是无文本口语问答,目标是在没有依赖文本信息的情况下回答基于口语段落的问题。该数据集还可以用于自动语音识别任务。

语言

数据集为英文。

数据集结构

数据实例

数据集中的每个实例包含以下字段:

  • id:实例的唯一标识符
  • title:段落的标题
  • context:段落文本
  • question:问题文本
    • answer_start:答案在文本中的起始索引
  • audio_full_answer_end:正确答案在音频中的结束位置(以秒为单位)
  • audio_full_answer_start:正确答案在音频中的起始位置(以秒为单位)
  • audio_full_neg_answer_end:使用相同单词的错误答案在音频中的结束位置(以秒为单位)
  • audio_full_neg_answer_start:使用相同单词的错误答案在音频中的起始位置(以秒为单位)
  • audio_segment_answer_end:分段的音频答案在音频中的结束位置(以秒为单位)
  • audio_segment_answer_start:分段的音频答案在音频中的起始位置(以秒为单位)
  • text:答案文本
  • content_segment_audio_path:内容段的音频路径
  • content_full_audio_path:完整内容的音频路径
  • content_audio_sampling_rate:音频采样率
  • content_audio_speaker:音频说话者
  • content_segment_text:内容的段落文本
  • content_segment_normalized_text:生成音频的规范化文本
  • question_audio_path:问题的音频路径
  • question_audio_sampling_rate:音频采样率
  • question_audio_speaker:音频说话者
  • question_normalized_text:生成音频的规范化文本

数据字段

数据集包括以下数据字段:

  • id
  • title
  • context
  • question
  • answers
  • content_segment_audio_path
  • content_full_audio_path
  • content_audio_sampling_rate
  • content_audio_speaker
  • content_segment_text
  • content_segment_normalized_text
  • question_audio_path
  • question_audio_sampling_rate
  • question_audio_speaker
  • question_normalized_text

数据拆分

数据集被分为训练集、开发集和测试集。

数据集创建

策展理由

NMSQA数据集的创建是为了解决无文本口语问答的挑战,即模型必须基于口语段落回答问题,而不依赖文本信息。

源数据

NMSQA数据集基于SQuAD数据集,从原始文本数据中创建了口语问题和段落。

初始数据收集和规范化

初始的数据收集过程涉及将原始SQuAD数据集的基于文本的问题和段落转换为口语音频文件。首先对文本进行规范化,然后使用文本到语音方法生成音频文件。

资源语言制作人是谁?

资源语言制作者是SQuAD数据集的创建者和为NMSQA数据集生成口语音频文件的研究人员。

标注

标注过程

NMSQA数据集的注释来自原始SQuAD数据集。数据集创建者添加了其他注释,例如正确和错误答案的音频起始和结束位置,以及音频文件路径和说话者信息。

标注者是谁?

NMSQA数据集的标注者是SQuAD数据集的创建者以及为NMSQA数据集生成口语音频文件和其他注释的研究人员。

个人和敏感信息

该数据集不包含任何个人或敏感信息。

使用数据的注意事项

数据的社会影响

NMSQA数据集为开发和评估无文本口语问答任务的模型做出了贡献,这可以推动自然语言处理和自动语音识别的进步。这些技术的应用可以在虚拟助手、客户服务和语音控制设备等各个领域提高可访问性和便利性。

偏见讨论

该数据集继承了原始SQuAD数据集可能存在的偏见,包括在选择段落、问题和答案时可能存在的偏见。此外,在文本到语音过程中和选择用于生成口语音频文件的讲话者时可能引入偏见。

其他已知限制

由于该数据集基于SQuAD数据集,因此它具有相同的限制,包括仅限于英语和主要关注事实性问题。此外,该数据集可能不涵盖广泛的口音、方言或语音风格。

其他信息

数据集策划者

NMSQA数据集由Guan-Ting Lin, Yung-Sung Chuang, Ho-Lam Chung, Shu-Wen Yang, Hsuan-Jui Chen, Shang-Wen Li, Abdelrahman Mohamed, Hung-Yi Lee和Lin-Shan Lee策划。

许可信息

数据集的许可信息没有明确提到。

引用信息

@article{lin2022dual,
    title={DUAL: Textless Spoken Question Answering with Speech Discrete Unit Adaptive Learning},
    author={Lin, Guan-Ting and Chuang, Yung-Sung and Chung, Ho-Lam and Yang, Shu-wen and Chen, Hsuan-Jui and Li, Shang-Wen and Mohamed, Abdelrahman and Lee, Hung-yi and Lee, Lin-shan},
    journal={arXiv preprint arXiv:2203.04911},
    year={2022}
}

贡献

感谢 @voidful 添加此数据集。