数据集:
universal_morphologies
计算机处理:
monolingual语言创建人:
found批注创建人:
expert-generated源数据集:
original其他:
morphology许可:
cc-by-sa-3.0通用形态学(UniMorph)项目是一个协作努力,旨在改善自然语言处理在世界各语言中处理复杂形态学的能力。UniMorph的目标是用一个通用模式标注形态学数据,使得任何语言中的词的词性可以通过其词的词形变化来定义,词的词义通常由词元(lemma)表示,并由我们模式中的一组形态特征定义其变化形式。模式的规范描述见Sylak-Glassman(2016)。
[需要更多信息]
当前版本的UniMorph数据集涵盖110种语言。
每个数据实例包括一个词元和一组带有形态学和含义标注的可能变体。例如:
{'forms': {'Aktionsart': [[], [], [], [], []], 'Animacy': [[], [], [], [], []], ... 'Finiteness': [[], [], [], [1], []], ... 'Number': [[], [], [0], [], []], 'Other': [[], [], [], [], []], 'Part_Of_Speech': [[7], [10], [7], [7], [10]], ... 'Tense': [[1], [1], [0], [], [0]], ... 'word': ['ablated', 'ablated', 'ablates', 'ablate', 'ablating']}, 'lemma': 'ablate'}
数据集中的每个实例都包含以下字段:
[需要更多信息]
[需要更多信息]
[需要更多信息]
源语言的生产者是谁?[需要更多信息]
[需要更多信息]
标注者是谁?[需要更多信息]
[需要更多信息]
[需要更多信息]
[需要更多信息]
[需要更多信息]
[需要更多信息]
[需要更多信息]
[需要更多信息]
感谢 @yjernite 添加了此数据集。