数据集:

language-and-voice-lab/samromur_children

语言:

is

计算机处理:

monolingual

大小:

100K<n<1M

语言创建人:

crowdsourced

批注创建人:

crowdsourced

源数据集:

original

其他:

samromur
英文

samromur_children 数据集卡片

数据集摘要

Samrómur儿童语料库包含音频录音和包含参与者已读提示的元数据文件。它包含超过137,000个冰岛儿童说话的验证语音记录。

该语料库是由雷克雅未克大学语言和语音实验室(LVL)与冰岛语言技术中心Almannarómur合作进行的众包工作的成果。录音过程始于2019年10月,至今仍在进行中(2021年9月)。

示例用法

Samrómur儿童语料库分为3个部分:训练集、验证集和测试集。要加载特定的部分,请将其名称作为配置名称传递:

from datasets import load_dataset
samromur_children = load_dataset("language-and-voice-lab/samromur_children")

要加载特定的部分(例如,验证集)请执行:

from datasets import load_dataset
samromur_children = load_dataset("language-and-voice-lab/samromur_children",split="validation")

支持的任务

自动语音识别(Automatic Speech Recognition, ASR):该数据集可用于训练自动语音识别(ASR)模型。模型接收音频文件并被要求将音频文件转录为书面文本。最常用的评估指标是词错误率(Word Error Rate, WER)。

语言

音频为冰岛语。阅读提示来自各种来源,主要包括 Icelandic Gigaword Corpus 。该语料库包括小说、新闻、戏剧中的文本,以及冰岛地名列表。提示还来自 Icelandic Web of Science

数据集结构

数据实例

{
  'audio_id': '015652-0717240', 
  'audio': {
    'path': '/home/carlos/.cache/HuggingFace/datasets/downloads/extracted/2c6b0d82de2ef0dc0879732f726809cccbe6060664966099f43276e8c94b03f2/test/015652/015652-0717240.flac', 
    'array': array([ 0.        ,  0.        ,  0.        , ..., -0.00311279,
       -0.0007019 ,  0.00128174], dtype=float32), 
    'sampling_rate': 16000
  }, 
  'speaker_id': '015652', 
  'gender': 'female', 
  'age': '11', 
  'duration': 4.179999828338623, 
  'normalized_text': 'eiginlega var hann hin unga rússneska bylting lifandi komin'
}

数据字段

  • audio_id (string) - 音频片段的id
  • audio (datasets.Audio) - 包含音频路径、解码后的音频数组和采样率的字典。在非流式模式(默认情况下),路径指向本地提取的音频。在流式模式下,路径是音频在存档中的相对路径(因为文件没有被下载和本地提取)。
  • speaker_id (string) - 发言人的id
  • gender (string) - 发言人的性别(男性或女性)
  • age (string) - 发言人的年龄范围:年轻人(15-35岁)、中年人(36-60岁)或老年人(61岁及以上)
  • duration (float32) - 音频文件的持续时间,以秒为单位
  • normalized_text (string) - 规范化后的音频片段转录

数据拆分

该语料库分为训练集、开发集和测试集。每个部分的长度如下:train = 127小时25分钟,test = 1小时50分钟,dev = 1小时50分钟。

要加载特定的部分,请参见上面的"示例用法"部分。

数据集创建

数据收集原因

在自动语音识别(ASR)领域,众所周知,儿童的语音特别难以识别,因为由儿童解剖学和语音产生技能发展引起的高变异性。

因此,训练集/开发集/测试集的选择标准必须考虑到儿童的年龄。然而,Samrómur儿童数据集在发言者的性别和年龄方面是不平衡的。这意味着该数据集中,例如,女性发言者的总数为1667人(73小时38分钟),而男性发言者的总数为1412人(52小时26分钟)。

这些不平衡条件对可以使用该数据集进行的实验类型有影响。例如,无法在一定年龄范围内均衡地使用相同数量的女性和男性发言者。因此,如果不能在训练集中获得完全平衡的数据集,至少可以在测试集中获得平衡数据集。

Samrómur儿童数据集的测试集精心选择,以涵盖6至16岁的女性和男性发言者。每个性别的不同年龄范围都有5分钟的总持续时间。

该语料库的开发集只包含性别信息未知的发言者。测试集和开发集的总持续时间均为1小时50分钟。

为了进行更公平的实验,训练集和测试集中的发言者不共享。然而,训练集和开发集之间只共享一个发言者。可以通过发言者ID=010363进行识别。然而,在这两个集合之间没有共享音频文件。

数据来源

初始数据收集和规范化

使用网站 https://samromur.is 收集了数据,该网站的代码可在 https://github.com/cadia-lvl/samromur 获取。此语料库的年龄范围选择为4至17岁。

原始音频以*.wav文件形式以44.1 kHz或48 kHz采样率进行收集,然后降采样为16 kHz,并转换为*.flac。每个录音中包含一个来自脚本的朗读句子。该脚本包含85,080个唯一句子和90,838个唯一标记。

没有其他标识符,只有会话ID,该ID用作发言者ID。该语料库附带包含有关每个话语和发言者的详细信息的元数据文件。元数据文件以UTF-8 Unicode编码。

提示从各种来源收集,主要从冰岛Gigaword语料库中获取,该语料库可在 http://clarin.is/en/resources/gigaword 获取。该语料库包括小说、新闻、戏剧文本以及冰岛的地名列表。提示还来自 Icelandic Web of Science

注释

注释过程

如果满足以下条件之一,则从这些语料库中提取提示:仅包含冰岛字母且在 DIM: Database Icelandic Morphology 中列出。

还有合成提示,由名称后跟问题或要求组成,以模拟与智能设备的对话。

注释员是谁?

音频文件的内容由一个或多个监听者(主要是暑期学生)根据提示手动验证。

个人和敏感信息

该数据集由捐赠自己声音的人组成。您同意不试图确定该数据集中的说话者的身份。

使用数据的注意事项

数据的社会影响

这是冰岛儿童的第一个自动语音识别语料库。

偏见讨论

  • 这些话语是由智能手机或Web应用程序录制的。

  • 参与者自报年龄组、性别和母语。

  • 参与者的年龄在4至17岁之间。

  • 该语料库包含来自3175个发言者的137,597个话语,总计131小时。

  • 女性发言者的数据量为73小时38分钟,男性发言者的数据量为52小时26分钟,性别信息未知的发言者的数据量为5小时2分钟。

  • 女性发言者的数量为1667人,男性发言者的数量为1412人,性别信息未知的发言者的数量为96人。

  • 由于女性发言者的音频为78993个,男性发言者的音频为53927个,性别信息未知的发言者的音频为4677个。

其他已知限制

"Samrómur Children: Icelandic Speech 21.09"由雷克雅未克大学语言和语音实验室(LVL)根据Creative Commons Attribution 4.0 International (CC BY 4.0)许可证进行授权,希望它对您有所帮助,但没有任何担保;甚至没有暗示的适销性或合适性。

附加信息

数据集策划者

该语料库是由雷克雅未克大学语言和语音实验室(LVL)与冰岛语言技术中心Almannarómur合作进行的众包工作的成果。录音过程始于2019年10月,至今仍在进行中(2021年9月)。该语料库由Carlos Daniel Hernández Mena于2021年策划。

许可信息

CC-BY-4.0

引用信息

@misc{menasamromurchildren2021,
      title={Samrómur Children Icelandic Speech 1.0}, 
      ldc_catalog_no={LDC2022S11},
      DOI={https://doi.org/10.35111/frrj-qd60},
      author={Hernández Mena, Carlos Daniel and Borsky, Michal and Mollberg, David Erik  and Guðmundsson, Smári Freyr and Hedström, Staffan and Pálsson, Ragnar and Jónsson, Ólafur Helgi and Þorsteinsdóttir, Sunneva and Guðmundsdóttir, Jóhanna Vigdís and Magnúsdóttir, Eydís Huld and Þórhallsdóttir, Ragnheiður and Guðnason, Jón},
      publisher={Reykjavík University}
      journal={Linguistic Data Consortium, Philadelphia},
      year={2019},
      url={https://catalog.ldc.upenn.edu/LDC2022S11},
}

贡献

该项目由冰岛教育、科学和文化部资助的冰岛语言技术计划2019-2023资助。该计划由Almannarómur管理和协调,并得到冰岛教育、科学和文化部的资助。

该数据集的验证工作由2020年和2021年冰岛劳动司局的学生暑期工作计划资助。

特别感谢暑期学生的辛勤工作。