数据集:

language-and-voice-lab/malromur_asr

任务:

自动语音识别

语言:

计算机处理:

monolingual

大小:

100K<n<1M

语言创建人:

crowdsourced

批注创建人:

crowdsourced

源数据集:

original

其他:

crowd-sourced icelandic málrómur icelandic speech crowd-sourced+icelandic icelandic+speech

许可:

cc-by-4.0

数据集介绍文件清单

英文

malromur_asr 数据集卡片

数据集摘要

Málrómur语料库是一个开放的、经过手工验证的冰岛语语音语料库。这些录音是由雷克雅未克大学和冰岛语言技术中心与Google合作在2011年至2012年期间收集的。

示例用法

Málrómur语料库分为三个部分：训练集、验证集和测试集。要加载特定的分割，请将其作为配置名称传递：

from datasets import load_dataset
malromur_asr = load_dataset("language-and-voice-lab/malromur_asr")

要加载特定的部分（例如，验证集），请执行以下操作：

from datasets import load_dataset
malromur_asr = load_dataset("language-and-voice-lab/malromur_asr",split="validation")

支持的任务

自动语音识别：可以使用该数据集训练自动语音识别（ASR）模型。模型将接收一个音频文件，并要求将音频文件转录为书面文本。最常见的评估指标是词错误率（WER）。

语言

音频为冰岛语。

数据集结构

数据实例

{
  'audio_id': 'is_is-mrn_07_06-2012-02-01T16:23:40.207297', 
  'audio': {
    'path': '/home/jon/.cache/HuggingFace/datasets/downloads/extracted/11c85f8d1098257da3161566b6b80bdf30b8512c8eeea357947c02620ba70b8a/dev/is_is-mrn_07_06-2012-02-01T16:23:40.207297.flac', 
    'array': array([0.00042725, 0.00030518, 0.00033569, ..., 0.00030518, 0.00015259,
       0.00054932], dtype=float32), 
    'sampling_rate': 16000
  }, 
  'speaker_id': 'is_is-mrn_07_06', 
  'gender': 'male', 
  'age': '50_59', 
  'duration': 3.9000000953674316, 
  'normalized_text': 'hrólfsskálavör'
}

数据字段

audio_id（字符串）-音频片段的ID
audio（datasets.Audio）-包含音频路径、解码音频数组和采样率的字典。在非流式模式（默认情况下），路径指向本地提取的音频。在流式模式中，路径是存档内音频的相对路径（因为文件不会被下载和本地提取）。
speaker_id（字符串）-说话者的ID
gender（字符串）-说话者的性别（男性或女性）
age（字符串）-说话者的年龄范围。
duration（float32）-音频文件的持续时间（以秒为单位）。
normalized_text（字符串）-归一化的音频片段转录。

数据分割

该语料库分为训练集、验证集和测试集。所有部分的长度为：train=119h03m，test=13h41m，validation=3h22m。

要加载特定部分，请参阅上面的"示例用法"部分。

关于该项目

关于Malromur语料库

Reykjavík University 与 The Icelandic Centre for Language Technology 合作，与Google共同收集了冰岛语的语音语料库。该数据可供所有人在本网页上使用，为冰岛语等语言开发语言技术工具（例如语音识别器）提供了机会。使用Android G1智能手机从563个个体中录制了音频样本，总共录制了152小时的语音。总共录制了127,286个音频样本。其中108,568个被认为是有用的，18,718个被丢弃。这108,568个良好的音频样本可以从本网页上下载。

Almannaromur项目

Almannarómur项目于2011年和2012年期间进行。在Google的支持下，当时进行了多种语言的语音样本收集工作，以开发语音识别工具，并将数据提供给语言技术工具的研究和开发。Almannarómur项目的目标是为冰岛语开发一个口语句子数据库，以帮助开发适用于冰岛语的自动语音识别。该数据库还可在开发许多其他类型的口语语言技术方面使用。

Google与 Reykjavík University 和 The Icelandic Centre for Language Technology 合作，收集了冰岛语的语音样本。在项目的第一阶段，生成了一个包含句子的文本语料库。该语料库中约50％的文本来自 mbl.is（Morgunblaðið报纸的网站）的新闻报道，10％是罕见的三音素、10％是街道名称、10％是人名、10％是各种杂项、5％是国家和首都的名称、5％是URL。该语料库包含55,000个句子。该语料库还包含了一份包含数字、日期、一天中的时间、星期和月份的名称、简单问题和常见问候语的列表。

从 mbl.is 的文本中提取新闻标题，然后通过 IceNLP 句子分段器来处理，以获得完整的句子列表。为了阅读更容易，并确保句子适合Android G1设备的屏幕上，限制每个句子的长度为六个单词。使用 Database of Modern Icelandic Inflection (BÍN)检查每个句子的拼写，将字典中找不到的单词的句子从最终列表中删除。然后，随机对句子进行排序，以确保每位参与者所读取的句子样本代表了语料库中的文本。

使用Android G1智能手机录制了数据。要求每个参与者阅读30分钟或最多250个话语的句子样本。参与捐赠自己声音的人员是该项目的非工资参与者，并签署了与Google和其他口语处理工具运营的口语语言技术中使用声音样本的协议。

声音样本在三个阶段收集。第一阶段始于2011年7月15日。十名志愿者每人分别获得了智能手机，并负责通过阅读30分钟的句子来获得参与者的声音样本。这个阶段在8月份结束，但效果不如预期。获取人们自愿参加被证明是困难的。确实有些志愿者帮了忙，但他们也很难获得参与者。在该阶段参与的人员总数为59人。第二阶段于2011年9月和10月进行，基于围绕数据收集工作的组织活动进行。在首都的大学（雷克雅未克大学和冰岛大学）宣传了一系列活动，在活动中，两至三名志愿者使用所有十部手机从参与者那里收集声音。这种方法持续了四周，比第一种方法有效得多，因为有104人参与了该项目。最后一个阶段从2011年11月到2012年1月进行，基于对公司和机构的组织访问。为了进行数据收集，首先确定并联系了工作场所的关键人员，并要求他们组织数据收集。每个工作场所都会收到一定数量的智能手机，持续一定数量的天数。然后将手机发送到下一个工作场所。招募了两到五名志愿者，并故意将收集持续时间保持在较短时间内，通常只持续三到四天。共计造访了19个工作场所，该阶段的参与者总数为430人。因此，这个阶段的参与者总数为593人，读出的句子总数为123,227句。

在智能手机上设置了客户端软件，使其能够下载冰岛语话语，并上传语音录音。Google的技术人员使用这些声音样本以及其他冰岛语资源（大型文本语料库以生成语言模型）开发了用于Android智能手机和Google搜索引擎的冰岛语语音识别器。这些工具在2012年秋季宣布推出。

数据开放

决定将带有声音样本的数据库开源，以用于开发语音识别器和其他语音技术工具。为了使声音样本尽可能有用，有必要对其进行验证。在2014年夏季，校 University of Iceland 的一名学生收听了69,000个声音样本，以确定所讲的文本是否与要读的文本一致。夏季结束时，已经验证了57,000个声音样本，并在此网页上提供了这些样本。在2015年夏季，另一名学生听取了更多的声音样本，在2016年，校 Árni Magnússon Institute for Icelandic Studies 的员工完成了对声音样本的听取。

共录制了127,286个声音样本，有5,401个录音失败，共评估了121,885个声音样本。在验证过程开始之前，通过修剪录音开始和结束的长时间的静默期来创建了新的声音文件。未修剪的文件的总持续时间约为152小时，但缩短到约90小时。在此过程中，发现有2,795个文件仅包含静音。因此，在验证过程的第一阶段，评估了119,090个声音样本。其中100,020个录音被接受为正确的，19,070个被拒绝。在第二阶段（2016年至2017年冬季），两位评估人员听取了第一阶段被拒绝的19,070个录音的未修剪版本，并对其进行了进一步分类。在这些样本中，8,548个被评为正确。总体而言，认为有108,568个声音样本是良好的，可通过此网页获得。

四名评估人员随机听取了从第一阶段的所有评估样本中随机选择的3000个声音样本。所有评估人员都听取了所有这3000个样本。结果与验证过程的第二阶段所获得的结果一致。

于2013年4月1日成立了冰岛非政府组织Almannrómur。该组织的目标是为冰岛语开发语言技术工具。因此，该数据库在此网页上被命名为 Málrómur（“声音”）。

有关详细信息，请参见文章 “Almannarómur: An Open Icelandic Speech Corpus” 和 “Málrómur: A Manually Verified Corpus of Recorded Icelandic Speech” （请参见上文）。

其他信息

其他已知限制

雷克雅未克大学语言和语音实验室（LVL）的"Málrómur语料库"采用知识共享署名4.0国际（CC BY 4.0）许可证发布，希望它能够有所帮助。但是，没有任何形式的保证；甚至没有默示的保证，包括适销性或适用于特定目的的保证。

许可信息

CC-BY-4.0

引文信息

@inproceedings{steingrimsson2017malromur,
  title={Málrómur: A manually verified corpus of recorded Icelandic speech},
  author={Steingrímsson, Steinþór and Guðnason, Jón and Helgadóttir, Sigrún and Rögnvaldsson, Eiríkur},
  booktitle={Proceedings of the 21st Nordic Conference on Computational Linguistics},
  pages={237--240},
  year={2017}
}

贡献

由于Google及其员工的慷慨帮助，部分实现了Almannarómur项目。Google提供了用于数据录制的智能手机和托管数据库的服务器技术。

作者:

language-and-voice-lab

数据集大小:

6.14 GB