数据集:

language-and-voice-lab/samromur_asr

英文

samromur_asr 数据集卡片

数据集简介

这是 Samrómur 冰岛语言音频数据集的首次发布,其中包含了 100,000 个经过验证的句子。

该数据集是 Reykjavik 大学的语言和语音实验室与 Almannarómur 语言技术中心合作的众包项目的结果。

示例用法

Samrómur Corpus 被分为训练集、验证集和测试集。要加载特定的数据集,请将其名称作为 config 名称传递:

from datasets import load_dataset
samromur_asr = load_dataset("language-and-voice-lab/samromur_asr")

要加载特定的数据集(例如,验证集),请执行以下操作:

from datasets import load_dataset
samromur_asr = load_dataset("language-and-voice-lab/samromur_asr",split="validation")

支持的任务

自动语音识别:可以使用该数据集训练自动语音识别(ASR)模型。模型接收音频文件并将其转录为文字。最常用的评估指标是词错误率(WER)。

语言

音频为冰岛语。朗读提示来自各种来源,主要来自 Icelandic Gigaword Corpus 。该数据集包括小说、新闻、剧本以及冰岛地名列表中的文本。提示还来自 Icelandic Web of Science

数据集结构

数据实例

{
  'audio_id': '009123-0150695', 
  'audio': {
    'path': '/home/david/.cache/HuggingFace/datasets/downloads/extracted/cb428a7f1e46b058d76641ef32f36b49d28b73aea38509983170495408035a10/dev/009123/009123-0150695.flac', 
    'array': array([0., 0., 0., ..., 0., 0., 0.], dtype=float32), 
    'sampling_rate': 16000
  }, 
  'speaker_id': '009123', 
  'gender': 'female', 
  'age': '18-19', 
  'duration': 3.299999952316284, 
  'normalized_text': 'það skipti heldur engu'
}

数据字段

  • audio_id(字符串)-音频片段的 ID
  • audio(datasets.Audio)-包含音频路径、解码后的音频数组和采样率的字典。在非流式模式下(默认情况下),路径指向本地提取的音频。在流媒体模式下,路径是存档中音频的相对路径(文件未下载和本地解压缩)。
  • speaker_id(字符串)-说话人的 ID
  • gender(字符串)-说话人的性别(男性或女性)
  • age(字符串)-说话人的年龄范围
  • duration(float32)-音频文件的持续时间(以秒为单位)
  • normalized_text(字符串)-标准化的音频片段转录

数据拆分

数据集被分为训练集、验证集和测试集,没有说话人重叠。每个数据集包含对应说话人 ID 的文件夹,文件夹中的音频文件遵循以下命名约定:{speaker_ID}-{utterance_ID}.flac。各部分的长度如下:训练集=114小时34分钟,测试集=15小时51分钟,验证集=15小时16分钟。

要加载特定部分,请参见上述 "示例用法" 部分。

数据集创建

配置原理

  • 录制始于2019年10月,至今持续进行(2021年5月)。

  • 此版本获得了2021年5月的授权发布。

  • 旨在创建一个开源的语音数据集,为冰岛语言技术的研究和开发提供支持。

  • 该数据集包含音频录制和包含参与者朗读的元数据文件。

  • 使用这些数据的基于 Kaldi 的脚本可以在语言和语音实验室的 GitHUb 页面 https://github.com/cadia-lvl/samromur-asr 找到

来源数据

初始数据收集和标准化
  • 句子是通过智能手机或 Web 应用程序录制的。

  • 数据是使用网站 https://samromur.is 收集的,该网站的代码可在 https://github.com/cadia-lvl/samromur 找到。

  • 每个录音包含来自脚本的一个朗读句子。

  • 该脚本包含 85,080 个唯一句子和 90,838 个唯一标记。

注释

注释过程

从这些语料库中选择满足以下标准的提示:仅包含冰岛字母,且列在 DIM: Database Icelandic Morphology 中。

还有一些合成的提示,由名字和问题或需求构成,以模拟与智能设备的对话。

标注者是谁?

音频文件的内容由一个或多个听众(主要是实习生)与提示进行了手动核实。

个人和敏感信息

该数据集包含捐赠了他们的声音的人。您同意不尝试确定该数据集中的说话者的身份。

使用数据的注意事项

数据集的社会影响

此贡献描述了一个正在进行的语音数据收集项目,使用的是 Samrómur 网页应用程序,该应用程序是基于 Mozilla 基金会的开源语音收集网站 Common Voice 构建的。该项目的目标是构建一个从公共领域收集的大规模冰岛语自动语音识别(ASR)语料库。完成后, Samrómur 将成为冰岛最大的开放语音语料库。

偏见讨论

  • 参与者年龄在 18 至 90 岁之间,其中 59,782 个录音来自女性,40,218 个录音来自男性,录音方式为智能手机或 Web 应用程序。

  • 参与者自报年龄组别、性别和母语。

  • 该语料库包含 8,392 个说话者的 100,000 个话语,总计 145 小时。

其他已知限制

Samromur 21.05 "由 Reykjavik 大学的语言和语音实验室(LVL)根据知识共享 4.0 国际许可(CC BY 4.0)许可发布,希望它能有所帮助,但毫无保证,甚至没有适销性或特定用途的默示保证。

附加信息

数据集维护者

该数据集是 Reykjavik 大学的语言和语音实验室与 Almannarómur 语言技术中心合作的众包项目的结果。

许可信息

CC-BY-4.0

引用信息

@inproceedings{mollberg-etal-2020-samromur,
    title = "{S}amr{\'o}mur: Crowd-sourcing Data Collection for {I}celandic Speech Recognition",
    author = "Mollberg, David Erik  and
      J{\'o}nsson, {\'O}lafur Helgi  and
      {\TH}orsteinsd{\'o}ttir, Sunneva  and
      Steingr{\'\i}msson, Stein{\th}{\'o}r  and
      Magn{\'u}sd{\'o}ttir, Eyd{\'\i}s Huld  and
      Gudnason, Jon",
    booktitle = "Proceedings of the 12th Language Resources and Evaluation Conference",
    month = may,
    year = "2020",
    address = "Marseille, France",
    publisher = "European Language Resources Association",
    url = "https://aclanthology.org/2020.lrec-1.425",
    pages = "3463--3467",
    language = "English",
    ISBN = "979-10-95546-34-4",
}

贡献

该项目由冰岛教育、科学和文化部资助的冰岛语言技术 2019-2023 年计划资助。该计划由 Almannarómur 管理和协调,旨在建立一个冰岛的大规模语音语料库,用于自动语音识别(ASR)。该数据集的验证工作由冰岛劳动管理局的学生暑期工作计划资助。

特别感谢暑期学生们的辛勤工作。