数据集:
imvladikon/knesset_meetings_corpus
任务:
文本生成子任务:
language-modeling语言:
he计算机处理:
monolingual大小:
n<1K语言创建人:
crowdsourced批注创建人:
no-annotation源数据集:
original许可:
pddl一个示例样本:
{ "text": <text content of given document>, "path": <file path to docx> }
数据集用于配置"kneset16"、"kneset17"和"knesset_tagged",仅包含训练集。
train_ds = load_dataset("imvladikon/knesset_meetings_corpus", "kneset16", split="train")
Knesset会议语料库2004-2005由两个组成部分组成:
原始文本 - 由282个文件组成,总共有867,725行。可以以两种格式下载:
作为doc文件,使用windows-1255编码:
kneset16.zip - 包含164个文本文件,共543,228行。 [MILA主机] <http://yeda.cs.technion.ac.il:8088/corpus/software/corpora/knesset/txt/docs/kneset16.zip> [Github镜像] <https://github.com/NLPH/knesset-2004-2005/blob/master/kneset16.zip?raw=true> _
kneset17.zip - 包含118个文本文件,共324,497行。 [MILA主机] <http://yeda.cs.technion.ac.il:8088/corpus/software/corpora/knesset/txt/docs/kneset17.zip> [Github镜像] <https://github.com/NLPH/knesset-2004-2005/blob/master/kneset17.zip?raw=true> _
作为txt文件,使用utf8编码:
kneset.tar.gz - 所有原始文本文件的归档,分为两个文件夹: [Github镜像] <https://github.com/NLPH/knesset-2004-2005/blob/master/kneset.tar.gz> _
16 - 包含164个文本文件,共543,228行。
17 - 包含118个文本文件,共324,497行。
knesset_txt_16.tar.gz - 包含164个文本文件,共543,228行。 [MILA主机] <http://yeda.cs.technion.ac.il:8088/corpus/software/corpora/knesset/txt/utf8/knesset_txt_16.tar.gz> [Github镜像] <https://github.com/NLPH/knesset-2004-2005/blob/master/knesset_txt_16.tar.gz?raw=true> _
knesset_txt_17.zip - 包含118个文本文件,共324,497行。 [MILA主机] <http://yeda.cs.technion.ac.il:8088/corpus/software/corpora/knesset/txt/utf8/knesset_txt_17.zip> [Github镜像] <https://github.com/NLPH/knesset-2004-2005/blob/master/knesset_txt_17.zip?raw=true> _
标记和词性标注的文本 - 标记版本仅适用于"16"文件夹中的文件。这些文本使用MILA的XML方案进行编码。可以通过两种方式下载:
该数据集的镜像可在MILA的网站上找到 <http://www.mila.cs.technion.ac.il/eng/resources_corpora_haknesset.html> _。
Zenodo镜像:https://zenodo.org/record/2707356 <https://zenodo.org/record/2707356> _
所有Knesset会议记录都属于公共领域(以法律规定)。因此,这些文件属于公共领域,不需要任何许可或公共领域声明来确定它们的状态。
.. |DOI| 图片:: https://zenodo.org/badge/DOI/10.5281/zenodo.2707356.svg :目标: https://doi.org/10.5281/zenodo.2707356
.. |LICENCE| 图片:: https://github.com/NLPH/knesset-2004-2005/blob/master/public_domain_shield.svg :目标: https://en.wikipedia.org/wiki/Public_domain
.. |PUBDOM| 图片:: https://github.com/NLPH/knesset-2004-2005/blob/master/public_domain.png :目标: https://en.wikipedia.org/wiki/Public_domain
该数据集可在 Open Data Commons Public Domain Dedication & License 1.0 许可下使用。