该数据库由Nordic Language Technology创建,用于开发自动语音识别和瑞典语听写。在这个更新版本中,数据的组织方式已经改变,以提高数据库的实用性。
在原始版本中,文件被组织在一个特定的文件夹结构中,其中文件夹的名称是有意义的。然而,文件名没有意义,还存在文件名相同但位于不同文件夹的情况。这被证明是不方便的,因为用户必须保留原始文件夹结构才能使用数据。文件已被重新命名,使得文件名在文件夹结构之外也是唯一且有意义的。原始的元数据文件为spl格式。这些文件已经转换为JSON格式。转换后的元数据文件也经过了匿名处理,并且文本编码已从ANSI转换为UTF-8。
有关数据及对数据库所做更改的完整描述,请参阅文档文件。
数据最初托管在挪威国家图书馆的网站上。 https://www.nb.no/sprakbanken/en/resource-catalogue/oai-nb-no-sbr-56/
为方便起见,托管在Hugging Face数据集上。
许可证CC0 1.0通用(CC0 1.0) 公共领域奉献