数据集:

imvladikon/knesset_meetings_corpus

语言:

he

计算机处理:

monolingual

大小:

n<1K

语言创建人:

crowdsourced

批注创建人:

no-annotation

源数据集:

original

许可:

pddl
英文

数据集卡片

数据集概述

一个示例样本:

{
    "text": <text content of given document>,
    "path": <file path to docx>
}

数据集用于配置"kneset16"、"kneset17"和"knesset_tagged",仅包含训练集。

train_ds = load_dataset("imvladikon/knesset_meetings_corpus", "kneset16", split="train")

Knesset会议语料库2004-2005由两个组成部分组成:

  • 原始文本 - 由282个文件组成,总共有867,725行。可以以两种格式下载:

    • 作为doc文件,使用windows-1255编码:

      • kneset16.zip - 包含164个文本文件,共543,228行。 [MILA主机] <http://yeda.cs.technion.ac.il:8088/corpus/software/corpora/knesset/txt/docs/kneset16.zip> [Github镜像] <https://github.com/NLPH/knesset-2004-2005/blob/master/kneset16.zip?raw=true> _

      • kneset17.zip - 包含118个文本文件,共324,497行。 [MILA主机] <http://yeda.cs.technion.ac.il:8088/corpus/software/corpora/knesset/txt/docs/kneset17.zip> [Github镜像] <https://github.com/NLPH/knesset-2004-2005/blob/master/kneset17.zip?raw=true> _

    • 作为txt文件,使用utf8编码:

      • kneset.tar.gz - 所有原始文本文件的归档,分为两个文件夹: [Github镜像] <https://github.com/NLPH/knesset-2004-2005/blob/master/kneset.tar.gz> _

        • 16 - 包含164个文本文件,共543,228行。

        • 17 - 包含118个文本文件,共324,497行。

      • knesset_txt_16.tar.gz - 包含164个文本文件,共543,228行。 [MILA主机] <http://yeda.cs.technion.ac.il:8088/corpus/software/corpora/knesset/txt/utf8/knesset_txt_16.tar.gz> [Github镜像] <https://github.com/NLPH/knesset-2004-2005/blob/master/knesset_txt_16.tar.gz?raw=true> _

      • knesset_txt_17.zip - 包含118个文本文件,共324,497行。 [MILA主机] <http://yeda.cs.technion.ac.il:8088/corpus/software/corpora/knesset/txt/utf8/knesset_txt_17.zip> [Github镜像] <https://github.com/NLPH/knesset-2004-2005/blob/master/knesset_txt_17.zip?raw=true> _

  • 标记和词性标注的文本 - 标记版本仅适用于"16"文件夹中的文件。这些文本使用MILA的XML方案进行编码。可以通过两种方式下载:

    • knesset_tagged_16.tar.gz - 所有标记和标注文件的归档。 [MILA主机] <http://yeda.cs.technion.ac.il:8088/corpus/software/corpora/knesset/tagged/knesset_tagged_16.tar.gz> [Archive.org镜像] <https://archive.org/details/knesset_transcripts_2004_2005> _

镜像

该数据集的镜像可在MILA的网站上找到 <http://www.mila.cs.technion.ac.il/eng/resources_corpora_haknesset.html> _。

Zenodo镜像:https://zenodo.org/record/2707356 <https://zenodo.org/record/2707356> _

许可证

所有Knesset会议记录都属于公共领域(以法律规定)。因此,这些文件属于公共领域,不需要任何许可或公共领域声明来确定它们的状态。

.. |DOI| 图片:: https://zenodo.org/badge/DOI/10.5281/zenodo.2707356.svg :目标: https://doi.org/10.5281/zenodo.2707356

.. |LICENCE| 图片:: https://github.com/NLPH/knesset-2004-2005/blob/master/public_domain_shield.svg :目标: https://en.wikipedia.org/wiki/Public_domain

.. |PUBDOM| 图片:: https://github.com/NLPH/knesset-2004-2005/blob/master/public_domain.png :目标: https://en.wikipedia.org/wiki/Public_domain

支持的任务和排行榜

More Information Needed

语言

More Information Needed

数据集结构

数据集创建

策划理由

More Information Needed

源数据

初始数据收集和规范化

More Information Needed

语言生成者是谁?

More Information Needed

注释

注释过程

More Information Needed

注释者是谁?

More Information Needed

个人和敏感信息

More Information Needed

使用数据的注意事项

数据集的社会影响

More Information Needed

偏见讨论

More Information Needed

其他已知限制

More Information Needed

附加信息

数据集策划者

More Information Needed

许可信息

该数据集可在 Open Data Commons Public Domain Dedication & License 1.0 许可下使用。

引用信息

More Information Needed

贡献