数据集:

NbAiLab/NPSC_test

任务:

自动语音识别

音频分类

语言:

计算机处理:

monolingual

大小:

size_categories:2G<n<1B

语言创建人:

found

批注创建人:

no-annotation

源数据集:

original

其他:

speech-modeling

许可:

cc0-1.0

数据集介绍文件清单

英文

NBAiLab/NPSC 数据集卡片

《挪威议会演讲语料库》（NPSC）是用于训练挪威ASR（自动语音识别）模型的语料库。该语料库是由挪威国家图书馆的Språkbanken创建的。

NPSC基于挪威议会会议的声音记录。这些讲话按照挪威博克马尔语或挪威尼诺斯克语进行了正字法转录。除了实际包含在此数据集中的数据外，原始语料库还包含大量的元数据。通过演讲者标识符，可以获取有关演讲者的其他信息，例如性别、年龄和出生地（即方言）。通过议程标识符，可以将该语料库与会议的官方议程链接起来。

该语料库总共包含来自40天会议的声音记录。这相当于140小时的讲话，65,000个句子或1.2百万个词。

此语料库是原始语料库的一个适应版本，用于高效的ASR训练。为简单起见和可移植性，省略了一些原始数据集的功能，例如令牌转录。您可以在 the Resource Catalogue at Språkbanken 找到完整的数据集。

使用方法（当然需要进行编辑）

from datasets import load_dataset
data = load_dataset("nb/NPSC", streaming=True)

数据字段

目前此存储库中包含两个版本。

版本A

此版本具有一组简短的元数据，并在数据集本身中包含音频（48k mp3），编码为float32数组。

当前数据加载器脚本与此版本相关联。

train.json中的一行如下所示：

{
  "sentence_id": 7309,
  "sentence_order": 0,
  "speaker_id": 1,
  "speaker_name": "Marit Nybakk",
  "sentence_text": "Stortingets møte er lovlig satt",
  "sentence_language_code": "nb-NO",
  "text": "Stortingets møte er lovlig satt",
  "start_time": 302650,
  "end_time": 306000,
  "normsentence_text": "Stortingets møte er lovlig satt",
  "transsentence_text": "Stortingets møte er lovleg sett",
  "translated": 1,
  "audio": {
    "path": "audio/20170207-095506_302650_306000.wav",
    "array": [
      24,
      25,
      50,
      (...)
          ],
    "sampling_rate": 48000
  }
}

版本B

此版本不包含在数据集中编码的音频。相反，它将音频文件放置在子目录中。目前有clips_48k_wav和clips_16k_mp3中的样本。数据集中只涉及基本文件名。请注意，数据集既包含基于句子的音频片段，也包含基于会议的音频片段。数据集包含对两者的引用，后者还包括开始和结束时间。

train/metadata.json中的一行如下所示：

{
  "meeting_date": "20170207",
  "full_audio_file": "20170207-095506",
  "proceedings_file": "20170207-095506.ref",
  "duration": 4442474,
  "transcriber_id": 1,
  "reviewer_id": 2,
  "data_split": "test",
  "speaker_name": "Marit Nybakk",
  "speaker_id": 1,
  "sentence_id": 7309,
  "sentence_language_code": "nb-NO",
  "sentence_text": "Stortingets møte er lovlig satt",
  "sentence_order": 0,
  "audio_file": "20170207-095506_302650_306000",
  "start_time": 302650,
  "end_time": 306000,
  "normsentence_text": "Stortingets møte er lovlig satt",
  "transsentence_text": "Stortingets møte er lovleg sett",
  "translated": 1
}

数据集创建

我们提供train、dev和test拆分。这与原始语料库相同。

构建日期：20012022

数据收集和整理

数据集创建的过程在论文中有详细描述。

统计信息

Feature	Value
Duration, pauses included	140,3 hours
Duration, pauses not included	125,7 hours
Word count	1,2 million
Sentence count	64.531
Language distribution	Nynorsk: 12,8%
Bokmål: 87,2%%
Gender distribution	Female: 38,3%
Male: 61.7%

使用数据时的注意事项

该语料库包含语音数据，允许在挪威国家图书馆之外用于语音识别技术的目的。

偏差讨论

请参阅我们的论文。

数据集管理员

Per Erik Solberg

Freddy Wetjen，Andre Kaasen和Per Egil Kummervold对将其移植到Hugging Face数据集格式做出了贡献。

许可信息

在挪威国家图书馆之外使用许可。

许可证

CC-ZERO（ https://creativecommons.org/publicdomain/zero/1.0/ ）

引用信息

我们正在准备一篇详细介绍此语料库的文章。在发表之前，请引用我们关于该语料库第一个版本的论文：

ANDRE: TO BE DONE

作者:

NbAiLab

数据集大小:

221.26 MB