数据集:
NbAiLab/NPSC_test
《挪威议会演讲语料库》(NPSC)是用于训练挪威ASR(自动语音识别)模型的语料库。该语料库是由挪威国家图书馆的Språkbanken创建的。
NPSC基于挪威议会会议的声音记录。这些讲话按照挪威博克马尔语或挪威尼诺斯克语进行了正字法转录。除了实际包含在此数据集中的数据外,原始语料库还包含大量的元数据。通过演讲者标识符,可以获取有关演讲者的其他信息,例如性别、年龄和出生地(即方言)。通过议程标识符,可以将该语料库与会议的官方议程链接起来。
该语料库总共包含来自40天会议的声音记录。这相当于140小时的讲话,65,000个句子或1.2百万个词。
此语料库是原始语料库的一个适应版本,用于高效的ASR训练。为简单起见和可移植性,省略了一些原始数据集的功能,例如令牌转录。您可以在 the Resource Catalogue at Språkbanken 找到完整的数据集。
from datasets import load_dataset data = load_dataset("nb/NPSC", streaming=True)
目前此存储库中包含两个版本。
此版本具有一组简短的元数据,并在数据集本身中包含音频(48k mp3),编码为float32数组。
当前数据加载器脚本与此版本相关联。
train.json中的一行如下所示:
{ "sentence_id": 7309, "sentence_order": 0, "speaker_id": 1, "speaker_name": "Marit Nybakk", "sentence_text": "Stortingets møte er lovlig satt", "sentence_language_code": "nb-NO", "text": "Stortingets møte er lovlig satt", "start_time": 302650, "end_time": 306000, "normsentence_text": "Stortingets møte er lovlig satt", "transsentence_text": "Stortingets møte er lovleg sett", "translated": 1, "audio": { "path": "audio/20170207-095506_302650_306000.wav", "array": [ 24, 25, 50, (...) ], "sampling_rate": 48000 } }
此版本不包含在数据集中编码的音频。相反,它将音频文件放置在子目录中。目前有clips_48k_wav和clips_16k_mp3中的样本。数据集中只涉及基本文件名。请注意,数据集既包含基于句子的音频片段,也包含基于会议的音频片段。数据集包含对两者的引用,后者还包括开始和结束时间。
train/metadata.json中的一行如下所示:
{ "meeting_date": "20170207", "full_audio_file": "20170207-095506", "proceedings_file": "20170207-095506.ref", "duration": 4442474, "transcriber_id": 1, "reviewer_id": 2, "data_split": "test", "speaker_name": "Marit Nybakk", "speaker_id": 1, "sentence_id": 7309, "sentence_language_code": "nb-NO", "sentence_text": "Stortingets møte er lovlig satt", "sentence_order": 0, "audio_file": "20170207-095506_302650_306000", "start_time": 302650, "end_time": 306000, "normsentence_text": "Stortingets møte er lovlig satt", "transsentence_text": "Stortingets møte er lovleg sett", "translated": 1 }
我们提供train、dev和test拆分。这与原始语料库相同。
构建日期:20012022
数据收集和整理数据集创建的过程在论文中有详细描述。
Feature | Value |
---|---|
Duration, pauses included | 140,3 hours |
Duration, pauses not included | 125,7 hours |
Word count | 1,2 million |
Sentence count | 64.531 |
Language distribution | Nynorsk: 12,8% |
Bokmål: 87,2%% | |
Gender distribution | Female: 38,3% |
Male: 61.7% |
该语料库包含语音数据,允许在挪威国家图书馆之外用于语音识别技术的目的。
请参阅我们的论文。
Per Erik Solberg
Freddy Wetjen,Andre Kaasen和Per Egil Kummervold对将其移植到Hugging Face数据集格式做出了贡献。
在挪威国家图书馆之外使用许可。
CC-ZERO( https://creativecommons.org/publicdomain/zero/1.0/ )
我们正在准备一篇详细介绍此语料库的文章。在发表之前,请引用我们关于该语料库第一个版本的论文:
ANDRE: TO BE DONE