数据集:

strombergnlp/twitter_pos_vcb

子任务:

part-of-speech

语言:

en

计算机处理:

monolingual

大小:

1M<n<10M

语言创建人:

found

批注创建人:

machine-generated

源数据集:

original

许可:

cc-by-4.0
英文

"twitter-pos-vcb"的数据集卡片

数据集摘要

词性标注是基本的自然语言处理任务。然而,Twitter文本很难进行词性标注:它有噪声,有语言错误和独特的风格。此数据集是为支持最先进结果而生成的受投票约束的引导数据。

这个数据集包含了大约150万条英文推文,使用Ritter扩展的PTB标记集对其进行了词性标注。这些推文来自2012年和2013年,使用GATE分词器进行分词,并使用CMU ARK标记器和Ritter的T-POS标记器进行共同标记。只有当这两个标记器的输出在整个推文上完全兼容时,才将该推文添加到数据集中。

此数据集仅建议用作训练数据,而不是评估数据。

有关详细信息,请参见 https://gate.ac.uk/wiki/twitter-postagger.html https://aclanthology.org/R13-1026.pdf

支持的任务和排行榜

More Information Needed

语言

英语,非特定地区。bcp47:en

数据集结构

数据实例

'train'的示例如下。

数据字段

数据字段在所有拆分中是相同的。

twitter_pos_vcb
  • id: 字符串特征。
  • tokens: 字符串特征列表。
  • pos_tags: 分类标签列表(整数)。带有索引的完整标记集:

数据拆分

name tokens sentences
twitter-pos-vcb 1 543 126 159 492

数据集创建

策展理由

More Information Needed

源数据

初始数据收集和标准化

More Information Needed

语言生产者是谁?

More Information Needed

注释

注释过程

More Information Needed

注释者是谁?

More Information Needed

个人和敏感信息

More Information Needed

使用数据的注意事项

数据的社会影响

More Information Needed

偏见讨论

More Information Needed

其他已知限制

More Information Needed

附加信息

数据集策展人

More Information Needed

许可信息

知识共享署名4.0(CC-BY)

引用信息

@inproceedings{derczynski2013twitter,
  title={Twitter part-of-speech tagging for all: Overcoming sparse and noisy data},
  author={Derczynski, Leon and Ritter, Alan and Clark, Sam and Bontcheva, Kalina},
  booktitle={Proceedings of the international conference recent advances in natural language processing ranlp 2013},
  pages={198--206},
  year={2013}
}

贡献

作者上传( @leondz