数据集:
ptb_text_only
语言:
en计算机处理:
monolingual大小:
10K<n<100K语言创建人:
found批注创建人:
expert-generated源数据集:
original许可:
other这是Penn Treebank项目的第二版CDROM,包含了1989年的《华尔街日报》素材共计一百万个单词。本版本中的罕见词已经用[token]替换,数字则用[token]替换。
语言模型
数据集中的文本为美式英语
[需要更多信息]
[需要更多信息]
[需要更多信息]
[需要更多信息]
原始数据收集和标准化
[需要更多信息]
源语言制作人是谁?[需要更多信息]
注释过程
[需要更多信息]
注释者是谁?[需要更多信息]
[需要更多信息]
[需要更多信息]
[需要更多信息]
[需要更多信息]
[需要更多信息]
该数据集仅供研究目的使用,请查阅数据集许可证获取更多信息。
@article{marcus-etal-1993-building, title = "Building a Large Annotated Corpus of {E}nglish: The {P}enn {T}reebank", author = "Marcus, Mitchell P. and Santorini, Beatrice and Marcinkiewicz, Mary Ann", journal = "Computational Linguistics", volume = "19", number = "2", year = "1993", url = " https://www.aclweb.org/anthology/J93-2004" , pages = "313--330",}
感谢 @harshalmittal4 添加了该数据集。