英文

[数据集名称]数据集卡片

数据集概述

通用形态学(UniMorph)项目是一个协作努力,旨在改善自然语言处理在世界各语言中处理复杂形态学的能力。UniMorph的目标是用一个通用模式标注形态学数据,使得任何语言中的词的词性可以通过其词的词形变化来定义,词的词义通常由词元(lemma)表示,并由我们模式中的一组形态特征定义其变化形式。模式的规范描述见Sylak-Glassman(2016)。

支持的任务和排行榜

[需要更多信息]

语言

当前版本的UniMorph数据集涵盖110种语言。

数据集结构

数据实例

每个数据实例包括一个词元和一组带有形态学和含义标注的可能变体。例如:

{'forms': {'Aktionsart': [[], [], [], [], []],
  'Animacy': [[], [], [], [], []],
  ...
  'Finiteness': [[], [], [], [1], []],
  ...
  'Number': [[], [], [0], [], []],
  'Other': [[], [], [], [], []],
  'Part_Of_Speech': [[7], [10], [7], [7], [10]],
  ...
  'Tense': [[1], [1], [0], [], [0]],
  ...
  'word': ['ablated', 'ablated', 'ablates', 'ablate', 'ablating']},
 'lemma': 'ablate'}

数据字段

数据集中的每个实例都包含以下字段:

  • 词元(lemma):所有实例的共同词元
  • 形态学形式(forms):此词元的所有标注形式,包括:
    • 单词(word):完整的词形式
    • [ category ] :表示一个或多个类别中的一个或多个标签(多个标签用于表示复合标签,原本用 A+B 表示)。可在 here 找到各类别和每个类别可能的标签的完整列表

数据拆分

[需要更多信息]

数据集创建

策划理由

[需要更多信息]

源数据

初始数据收集和归一化

[需要更多信息]

源语言的生产者是谁?

[需要更多信息]

标注

标注过程

[需要更多信息]

标注者是谁?

[需要更多信息]

个人和敏感信息

[需要更多信息]

使用数据的考虑事项

数据的社会影响

[需要更多信息]

偏见讨论

[需要更多信息]

其他已知限制

[需要更多信息]

附加信息

数据集维护者

[需要更多信息]

许可信息

[需要更多信息]

引用信息

[需要更多信息]

贡献

感谢 @yjernite 添加了此数据集。