数据集:

jimregan/clarinpl_sejmsenat

语言:

pl

计算机处理:

monolingual

大小:

1K<n<10K

批注创建人:

expert-generated

源数据集:

original

许可:

other
英文

ClarinPL Sejm/Senat演讲语料库数据集卡片

数据集摘要

这是一个包含在ClarinPL网站上发布的97小时议会演讲的语料库。

支持的任务和排行榜

[需要更多信息]

语言

音频为波兰语。

数据集结构

数据实例

典型的数据点由音频文件的路径组成,通常称为file,以及其转录,称为text。数据集中的一个示例是:

{'file': '/root/.cache/huggingface/datasets/downloads/extracted/4143b1d75559b10028c1c7e8800c9ccc05934ca5a8ea15f8f9a92770576a1ee3/SejmSenat/audio/AdamAbramowicz-20130410/file000.wav',
 'id': 'AdamAbramowicz-20130410-file000',
 'speaker_id': 'AdamAbramowicz',
 'text': 'panie marszałku wysoka izbo panie ministrze próbuje się przedstawiać polskę jako zieloną wyspę kraj który się szybko rozwija tymczasem rzeczywistość jest zupełnie inna a widać ją także dzisiaj przed polskim parlamentem próbuje się rząd próbuje zagonić polaków do pracy aż do śmierci przedłużać wiek emerytalny czyliczyli sytuacja gospodarcza polski w tym wypadku jest przedstawiana już zupełnie inaczej pakiet klimatyczny i protokół z kioto jak się zgadzają fachowcy od gospodarki jest szkodliwy dla krajów które są na dorobku a polska właśnie jest takim krajem'}

数据字段

  • file:下载的音频文件的路径,格式为.wav。
  • text:音频文件的转录。
  • speaker_id:音频的发言人ID。

数据拆分

Train Test
dataset 6622 130

数据集创建

策划理由

[需要更多信息]

源数据

初始数据收集和标准化

[需要更多信息]

谁是源语言的生产者?

[需要更多信息]

注释

标注过程

[需要更多信息]

谁是注释者?

[需要更多信息]

个人和敏感信息

[需要更多信息]

使用数据的注意事项

数据的社会影响

[需要更多信息]

偏见讨论

[需要更多信息]

其他已知限制

[需要更多信息]

其他信息

数据集策划者

[需要更多信息]

许可信息

[需要更多信息]

引用信息

[需要更多信息]

贡献

[需要更多信息]