数据集:
jimregan/clarinpl_studio
语言:
pl计算机处理:
monolingual大小:
10K<n<100K批注创建人:
expert-generated源数据集:
original预印本库:
arxiv:1706.00245许可:
other该语料库包含317位发言人在554个会话中的录音,每个会话包括20个朗读句子和10个音标丰富的单词。语料库的音频部分约为56小时,转录内容包含来自46361单词的356674个词汇。
[需要更多信息]
音频为波兰语。
一个典型的数据点由音频文件的路径组成,通常被称为 "file",以及其转录,被称为 "text"。数据集中的一个示例是:
{'file': '/root/.cache/huggingface/datasets/downloads/extracted/333ddc746f2df1e1d19b44986992d4cbe28710fde81d533a220e755ee6c5c519/audio/SES0001/rich001.wav', 'id': 'SES0001_rich001', 'speaker_id': 'SPK0001', 'text': 'drożdże dżip gwożdżenie ozimina wędzarz rdzeń wędzonka ingerować kładzenie jutrzenka'}
Train | Test | Valid | |
---|---|---|---|
dataset | 11222 | 1362 | 1229 |
本项目的目的是开发特定工具,以实现大量语音数据的自动和半自动处理。该语料库的另一个目的是作为音韵学和发音研究的参考。
语料库是在工作室环境中使用两个麦克风进行录制的:一个高质量的工作室麦克风和一个典型的消费者音频耳机。
谁是源语言生成者?[需要更多信息]
[需要更多信息]
谁是注释者?[需要更多信息]
[需要更多信息]
[需要更多信息]
[需要更多信息]
[需要更多信息]
[需要更多信息]
@article{korvzinek2017polish, title={Polish read speech corpus for speech tools and services}, author={Kor{\v{z}}inek, Danijel and Marasek, Krzysztof and Brocki, {\L}ukasz and Wo{\l}k, Krzysztof}, journal={arXiv preprint arXiv:1706.00245}, year={2017} }
[需要更多信息]