数据集:

PlanTL-GOB-ES/UD_Spanish-AnCora

子任务:

part-of-speech

语言:

es

计算机处理:

monolingual

语言创建人:

found

批注创建人:

expert-generated

许可:

cc-by-4.0
英文

UD_Spanish-AnCora

数据集概述

此数据集由从 AnCora corpus 投影到 Universal Dependencies treebank 的注释组成。我们将此语料库的POS注释用作EvalEs西班牙语语言基准的一部分。

支持的任务和排行榜

POS标记

语言

数据集为西班牙语(es-ES)

数据集结构

数据实例

三个conllu文件。

注释以纯文本文件的形式编码(UTF-8,归一化为NFC,只使用LF字符作为换行符,在文件末尾包含一个LF字符),包含三种类型的行:

  • 包含单词/标记注释的单词行,由10个字段组成,字段间用单个制表符分隔(详见下文)。
  • 标记句子边界的空白行。
  • 以井号(#)开头的注释行。
  • 数据字段

    单词行包含以下字段:

  • ID:单词索引,整数,为每个新句子从1开始;对于多词标记,可以是一个范围;对于空节点,可以是一个小于1但大于0的小数。
  • FORM:单词形式或标点符号。
  • LEMMA:单词形式的引理或词干。
  • UPOS:通用词性标记。
  • XPOS:语言特定的词性标记;如果不可用,则用下划线表示。
  • FEATS:来自通用特征库或定义的语言特定扩展的形态特征列表;如果不可用,则用下划线表示。
  • HEAD:当前单词的头部,可以是ID的值或零(0)。
  • DEPREL:与头部的通用依赖关系(如果HEAD = 0,则为root)或一个定义的语言特定子类型。
  • DEPS:扩展依赖图,以头部-依存关系对的形式表示。
  • MISC:其他任何注释。
  • 来源: https://universaldependencies.org

    数据拆分

    • es_ancora-ud-train.conllu
    • es_ancora-ud-dev.conllu
    • es_ancora-ud-test.conllu

    数据集创建

    策划理由

    [N/A]

    源数据

    UD_Spanish-AnCora

    初始数据收集和归一化

    最初的注释是作为巴塞罗那大学的 AnCora project 的一部分,在组织 Universal Dependencies team 的转换成依赖关系,并在CoNLL 2009共享任务中使用。 CoNLL 2009版本后来转换为HamleDT和Universal Dependencies。

    有关AnCora项目的更多信息,请访问 AnCora site

    要了解Universal Dependences,请访问网页 https://universaldependencies.org

    谁是源语言生产者?

    有关AnCora语料库及其来源的更多信息,请访问 AnCora site

    注释

    注释过程

    有关第一个AnCora注释的更多信息,请访问 AnCora site

    谁是注释者?

    有关AnCora注释团队的更多信息,请访问 AnCora site

    个人和敏感信息

    不包含个人或敏感信息。

    使用数据的注意事项

    数据集的社会影响

    该数据集有助于西班牙语语言模型的发展。

    偏见讨论

    [N/A]

    其他已知限制

    [N/A]

    其他信息

    数据集策划者

    [N/A]

    授权信息

    本作品根据 CC Attribution 4.0 International License 许可。

    引用信息

    使用该语料库时必须引用以下论文:

    Taulé, M., M.A. Martí, M. Recasens (2008) 'Ancora: Multilevel Annotated Corpora for Catalan and Spanish', Proceedings of 6th International Conference on Language Resources and Evaluation. Marrakesh (Morocco).

    引用Universal Dependencies项目:

    Rueter, J. (Creator), Erina, O. (Contributor), Klementeva, J. (Contributor), Ryabov, I. (Contributor), Tyers, F. M. (Contributor), Zeman, D. (Contributor), Nivre, J. (Creator) (15 Nov 2020). Universal Dependencies version 2.7 Erzya JR. Universal Dependencies Consortium.

    贡献

    [N/A]