数据集:
strombergnlp/twitter_pos_vcb
任务:
标记分类子任务:
part-of-speech语言:
en计算机处理:
monolingual大小:
1M<n<10M语言创建人:
found批注创建人:
machine-generated源数据集:
original许可:
cc-by-4.0词性标注是基本的自然语言处理任务。然而,Twitter文本很难进行词性标注:它有噪声,有语言错误和独特的风格。此数据集是为支持最先进结果而生成的受投票约束的引导数据。
这个数据集包含了大约150万条英文推文,使用Ritter扩展的PTB标记集对其进行了词性标注。这些推文来自2012年和2013年,使用GATE分词器进行分词,并使用CMU ARK标记器和Ritter的T-POS标记器进行共同标记。只有当这两个标记器的输出在整个推文上完全兼容时,才将该推文添加到数据集中。
此数据集仅建议用作训练数据,而不是评估数据。
有关详细信息,请参见 https://gate.ac.uk/wiki/twitter-postagger.html 和 https://aclanthology.org/R13-1026.pdf
英语,非特定地区。bcp47:en
'train'的示例如下。
数据字段在所有拆分中是相同的。
twitter_pos_vcbname | tokens | sentences |
---|---|---|
twitter-pos-vcb | 1 543 126 | 159 492 |
知识共享署名4.0(CC-BY)
@inproceedings{derczynski2013twitter, title={Twitter part-of-speech tagging for all: Overcoming sparse and noisy data}, author={Derczynski, Leon and Ritter, Alan and Clark, Sam and Bontcheva, Kalina}, booktitle={Proceedings of the international conference recent advances in natural language processing ranlp 2013}, pages={198--206}, year={2013} }
作者上传( @leondz )