数据集:

jimregan/clarinpl_studio

语言:

pl

计算机处理:

monolingual

大小:

10K<n<100K

批注创建人:

expert-generated

源数据集:

original

预印本库:

arxiv:1706.00245

许可:

other
英文

ClarinPL Studio语音语料库数据集卡

数据集简介

该语料库包含317位发言人在554个会话中的录音,每个会话包括20个朗读句子和10个音标丰富的单词。语料库的音频部分约为56小时,转录内容包含来自46361单词的356674个词汇。

支持的任务和排行榜

[需要更多信息]

语言

音频为波兰语。

数据集结构

数据实例

一个典型的数据点由音频文件的路径组成,通常被称为 "file",以及其转录,被称为 "text"。数据集中的一个示例是:

{'file': '/root/.cache/huggingface/datasets/downloads/extracted/333ddc746f2df1e1d19b44986992d4cbe28710fde81d533a220e755ee6c5c519/audio/SES0001/rich001.wav',
 'id': 'SES0001_rich001',
 'speaker_id': 'SPK0001',
 'text': 'drożdże dżip gwożdżenie ozimina wędzarz rdzeń wędzonka ingerować kładzenie jutrzenka'}

数据字段

  • file:下载的音频文件的路径,以.wav格式存在。
  • text:音频文件的转录。
  • speaker_id:音频的发言人ID。

数据划分

Train Test Valid
dataset 11222 1362 1229

数据集创建

策划理由

本项目的目的是开发特定工具,以实现大量语音数据的自动和半自动处理。该语料库的另一个目的是作为音韵学和发音研究的参考。

数据源

初始数据收集和规范化

语料库是在工作室环境中使用两个麦克风进行录制的:一个高质量的工作室麦克风和一个典型的消费者音频耳机。

谁是源语言生成者?

[需要更多信息]

注释

注释过程

[需要更多信息]

谁是注释者?

[需要更多信息]

个人和敏感信息

[需要更多信息]

使用数据时的注意事项

数据的社会影响

[需要更多信息]

偏见讨论

[需要更多信息]

其他已知限制

[需要更多信息]

其他信息

数据集策划者

[需要更多信息]

许可信息

CLARIN PUB+BY+INF+NORED

引用信息

@article{korvzinek2017polish,
  title={Polish read speech corpus for speech tools and services},
  author={Kor{\v{z}}inek, Danijel and Marasek, Krzysztof and Brocki, {\L}ukasz and Wo{\l}k, Krzysztof},
  journal={arXiv preprint arXiv:1706.00245},
  year={2017}
}

贡献

[需要更多信息]