数据集:

NbAiLab/NPSC_test

英文

NBAiLab/NPSC 数据集卡片

《挪威议会演讲语料库》(NPSC)是用于训练挪威ASR(自动语音识别)模型的语料库。该语料库是由挪威国家图书馆的Språkbanken创建的。

NPSC基于挪威议会会议的声音记录。这些讲话按照挪威博克马尔语或挪威尼诺斯克语进行了正字法转录。除了实际包含在此数据集中的数据外,原始语料库还包含大量的元数据。通过演讲者标识符,可以获取有关演讲者的其他信息,例如性别、年龄和出生地(即方言)。通过议程标识符,可以将该语料库与会议的官方议程链接起来。

该语料库总共包含来自40天会议的声音记录。这相当于140小时的讲话,65,000个句子或1.2百万个词。

此语料库是原始语料库的一个适应版本,用于高效的ASR训练。为简单起见和可移植性,省略了一些原始数据集的功能,例如令牌转录。您可以在 the Resource Catalogue at Språkbanken 找到完整的数据集。

使用方法(当然需要进行编辑)

from datasets import load_dataset
data = load_dataset("nb/NPSC", streaming=True)

数据字段

目前此存储库中包含两个版本。

版本A

此版本具有一组简短的元数据,并在数据集本身中包含音频(48k mp3),编码为float32数组。

当前数据加载器脚本与此版本相关联。

train.json中的一行如下所示:

{
  "sentence_id": 7309,
  "sentence_order": 0,
  "speaker_id": 1,
  "speaker_name": "Marit Nybakk",
  "sentence_text": "Stortingets møte er lovlig satt",
  "sentence_language_code": "nb-NO",
  "text": "Stortingets møte er lovlig satt",
  "start_time": 302650,
  "end_time": 306000,
  "normsentence_text": "Stortingets møte er lovlig satt",
  "transsentence_text": "Stortingets møte er lovleg sett",
  "translated": 1,
  "audio": {
    "path": "audio/20170207-095506_302650_306000.wav",
    "array": [
      24,
      25,
      50,
      (...)
          ],
    "sampling_rate": 48000
  }
}

版本B

此版本不包含在数据集中编码的音频。相反,它将音频文件放置在子目录中。目前有clips_48k_wav和clips_16k_mp3中的样本。数据集中只涉及基本文件名。请注意,数据集既包含基于句子的音频片段,也包含基于会议的音频片段。数据集包含对两者的引用,后者还包括开始和结束时间。

train/metadata.json中的一行如下所示:

{
  "meeting_date": "20170207",
  "full_audio_file": "20170207-095506",
  "proceedings_file": "20170207-095506.ref",
  "duration": 4442474,
  "transcriber_id": 1,
  "reviewer_id": 2,
  "data_split": "test",
  "speaker_name": "Marit Nybakk",
  "speaker_id": 1,
  "sentence_id": 7309,
  "sentence_language_code": "nb-NO",
  "sentence_text": "Stortingets møte er lovlig satt",
  "sentence_order": 0,
  "audio_file": "20170207-095506_302650_306000",
  "start_time": 302650,
  "end_time": 306000,
  "normsentence_text": "Stortingets møte er lovlig satt",
  "transsentence_text": "Stortingets møte er lovleg sett",
  "translated": 1
}

数据集创建

我们提供train、dev和test拆分。这与原始语料库相同。

构建日期:20012022

数据收集和整理

数据集创建的过程在论文中有详细描述。

统计信息

Feature Value
Duration, pauses included 140,3 hours
Duration, pauses not included 125,7 hours
Word count 1,2 million
Sentence count 64.531
Language distribution Nynorsk: 12,8%
Bokmål: 87,2%%
Gender distribution Female: 38,3%
Male: 61.7%

使用数据时的注意事项

该语料库包含语音数据,允许在挪威国家图书馆之外用于语音识别技术的目的。

偏差讨论

请参阅我们的论文。

数据集管理员

Per Erik Solberg

Freddy Wetjen,Andre Kaasen和Per Egil Kummervold对将其移植到Hugging Face数据集格式做出了贡献。

许可信息

在挪威国家图书馆之外使用许可。

许可证

CC-ZERO( https://creativecommons.org/publicdomain/zero/1.0/

引用信息

我们正在准备一篇详细介绍此语料库的文章。在发表之前,请引用我们关于该语料库第一个版本的论文:

ANDRE: TO BE DONE