数据集:

language-and-voice-lab/malromur_asr

英文

malromur_asr 数据集卡片

数据集摘要

Málrómur语料库是一个开放的、经过手工验证的冰岛语语音语料库。这些录音是由雷克雅未克大学和冰岛语言技术中心与Google合作在2011年至2012年期间收集的。

示例用法

Málrómur语料库分为三个部分:训练集、验证集和测试集。要加载特定的分割,请将其作为配置名称传递:

from datasets import load_dataset
malromur_asr = load_dataset("language-and-voice-lab/malromur_asr")

要加载特定的部分(例如,验证集),请执行以下操作:

from datasets import load_dataset
malromur_asr = load_dataset("language-and-voice-lab/malromur_asr",split="validation")

支持的任务

自动语音识别:可以使用该数据集训练自动语音识别(ASR)模型。模型将接收一个音频文件,并要求将音频文件转录为书面文本。最常见的评估指标是词错误率(WER)。

语言

音频为冰岛语。

数据集结构

数据实例

{
  'audio_id': 'is_is-mrn_07_06-2012-02-01T16:23:40.207297', 
  'audio': {
    'path': '/home/jon/.cache/HuggingFace/datasets/downloads/extracted/11c85f8d1098257da3161566b6b80bdf30b8512c8eeea357947c02620ba70b8a/dev/is_is-mrn_07_06-2012-02-01T16:23:40.207297.flac', 
    'array': array([0.00042725, 0.00030518, 0.00033569, ..., 0.00030518, 0.00015259,
       0.00054932], dtype=float32), 
    'sampling_rate': 16000
  }, 
  'speaker_id': 'is_is-mrn_07_06', 
  'gender': 'male', 
  'age': '50_59', 
  'duration': 3.9000000953674316, 
  'normalized_text': 'hrólfsskálavör'
}

数据字段

  • audio_id(字符串)-音频片段的ID
  • audio(datasets.Audio)-包含音频路径、解码音频数组和采样率的字典。在非流式模式(默认情况下),路径指向本地提取的音频。在流式模式中,路径是存档内音频的相对路径(因为文件不会被下载和本地提取)。
  • speaker_id(字符串)-说话者的ID
  • gender(字符串)-说话者的性别(男性或女性)
  • age(字符串)-说话者的年龄范围。
  • duration(float32)-音频文件的持续时间(以秒为单位)。
  • normalized_text(字符串)-归一化的音频片段转录。

数据分割

该语料库分为训练集、验证集和测试集。所有部分的长度为:train=119h03m,test=13h41m,validation=3h22m。

要加载特定部分,请参阅上面的"示例用法"部分。

关于该项目

关于Malromur语料库

Reykjavík University The Icelandic Centre for Language Technology 合作,与Google共同收集了冰岛语的语音语料库。该数据可供所有人在本网页上使用,为冰岛语等语言开发语言技术工具(例如语音识别器)提供了机会。使用Android G1智能手机从563个个体中录制了音频样本,总共录制了152小时的语音。总共录制了127,286个音频样本。其中108,568个被认为是有用的,18,718个被丢弃。这108,568个良好的音频样本可以从本网页上下载。

Almannaromur项目

Almannarómur项目于2011年和2012年期间进行。在Google的支持下,当时进行了多种语言的语音样本收集工作,以开发语音识别工具,并将数据提供给语言技术工具的研究和开发。Almannarómur项目的目标是为冰岛语开发一个口语句子数据库,以帮助开发适用于冰岛语的自动语音识别。该数据库还可在开发许多其他类型的口语语言技术方面使用。

Google与 Reykjavík University The Icelandic Centre for Language Technology 合作,收集了冰岛语的语音样本。在项目的第一阶段,生成了一个包含句子的文本语料库。该语料库中约50%的文本来自 mbl.is(Morgunblaðið报纸的网站)的新闻报道,10%是罕见的三音素、10%是街道名称、10%是人名、10%是各种杂项、5%是国家和首都的名称、5%是URL。该语料库包含55,000个句子。该语料库还包含了一份包含数字、日期、一天中的时间、星期和月份的名称、简单问题和常见问候语的列表。

mbl.is 的文本中提取新闻标题,然后通过 IceNLP 句子分段器来处理,以获得完整的句子列表。为了阅读更容易,并确保句子适合Android G1设备的屏幕上,限制每个句子的长度为六个单词。使用 Database of Modern Icelandic Inflection (BÍN)检查每个句子的拼写,将字典中找不到的单词的句子从最终列表中删除。然后,随机对句子进行排序,以确保每位参与者所读取的句子样本代表了语料库中的文本。

使用Android G1智能手机录制了数据。要求每个参与者阅读30分钟或最多250个话语的句子样本。参与捐赠自己声音的人员是该项目的非工资参与者,并签署了与Google和其他口语处理工具运营的口语语言技术中使用声音样本的协议。

声音样本在三个阶段收集。第一阶段始于2011年7月15日。十名志愿者每人分别获得了智能手机,并负责通过阅读30分钟的句子来获得参与者的声音样本。这个阶段在8月份结束,但效果不如预期。获取人们自愿参加被证明是困难的。确实有些志愿者帮了忙,但他们也很难获得参与者。在该阶段参与的人员总数为59人。第二阶段于2011年9月和10月进行,基于围绕数据收集工作的组织活动进行。在首都的大学(雷克雅未克大学和冰岛大学)宣传了一系列活动,在活动中,两至三名志愿者使用所有十部手机从参与者那里收集声音。这种方法持续了四周,比第一种方法有效得多,因为有104人参与了该项目。最后一个阶段从2011年11月到2012年1月进行,基于对公司和机构的组织访问。为了进行数据收集,首先确定并联系了工作场所的关键人员,并要求他们组织数据收集。每个工作场所都会收到一定数量的智能手机,持续一定数量的天数。然后将手机发送到下一个工作场所。招募了两到五名志愿者,并故意将收集持续时间保持在较短时间内,通常只持续三到四天。共计造访了19个工作场所,该阶段的参与者总数为430人。因此,这个阶段的参与者总数为593人,读出的句子总数为123,227句。

在智能手机上设置了客户端软件,使其能够下载冰岛语话语,并上传语音录音。Google的技术人员使用这些声音样本以及其他冰岛语资源(大型文本语料库以生成语言模型)开发了用于Android智能手机和Google搜索引擎的冰岛语语音识别器。这些工具在2012年秋季宣布推出。

数据开放

决定将带有声音样本的数据库开源,以用于开发语音识别器和其他语音技术工具。为了使声音样本尽可能有用,有必要对其进行验证。在2014年夏季, 校 University of Iceland 的一名学生收听了69,000个声音样本,以确定所讲的文本是否与要读的文本一致。夏季结束时,已经验证了57,000个声音样本,并在此网页上提供了这些样本。在2015年夏季,另一名学生听取了更多的声音样本,在2016年,校 Árni Magnússon Institute for Icelandic Studies 的员工完成了对声音样本的听取。

共录制了127,286个声音样本,有5,401个录音失败,共评估了121,885个声音样本。在验证过程开始之前,通过修剪录音开始和结束的长时间的静默期来创建了新的声音文件。未修剪的文件的总持续时间约为152小时,但缩短到约90小时。在此过程中,发现有2,795个文件仅包含静音。因此,在验证过程的第一阶段,评估了119,090个声音样本。其中100,020个录音被接受为正确的,19,070个被拒绝。在第二阶段(2016年至2017年冬季),两位评估人员听取了第一阶段被拒绝的19,070个录音的未修剪版本,并对其进行了进一步分类。在这些样本中,8,548个被评为正确。总体而言,认为有108,568个声音样本是良好的,可通过此网页获得。

四名评估人员随机听取了从第一阶段的所有评估样本中随机选择的3000个声音样本。所有评估人员都听取了所有这3000个样本。结果与验证过程的第二阶段所获得的结果一致。

于2013年4月1日成立了冰岛非政府组织Almannrómur。该组织的目标是为冰岛语开发语言技术工具。因此,该数据库在此网页上被命名为 Málrómur(“声音”)。

有关详细信息,请参见文章 “Almannarómur: An Open Icelandic Speech Corpus” “Málrómur: A Manually Verified Corpus of Recorded Icelandic Speech” (请参见上文)。

其他信息

其他已知限制

雷克雅未克大学语言和语音实验室(LVL)的"Málrómur语料库"采用知识共享署名4.0国际(CC BY 4.0)许可证发布,希望它能够有所帮助。但是,没有任何形式的保证;甚至没有默示的保证,包括适销性或适用于特定目的的保证。

许可信息

CC-BY-4.0

引文信息

@inproceedings{steingrimsson2017malromur,
  title={Málrómur: A manually verified corpus of recorded Icelandic speech},
  author={Steingrímsson, Steinþór and Guðnason, Jón and Helgadóttir, Sigrún and Rögnvaldsson, Eiríkur},
  booktitle={Proceedings of the 21st Nordic Conference on Computational Linguistics},
  pages={237--240},
  year={2017}
}

贡献

由于Google及其员工的慷慨帮助,部分实现了Almannarómur项目。Google提供了用于数据录制的智能手机和托管数据库的服务器技术。