数据集:
wikitext_tl39
计算机处理:
monolingual大小:
1M<n<10M语言创建人:
found批注创建人:
no-annotation源数据集:
original预印本库:
arxiv:1907.00409许可:
gpl-3.0WikiText-TL-39是一个大规模的无标签文本数据集,训练集中含有3900万个单词。灵感来自原始的WikiText长期依赖数据集(Merity等,2016)。TL代表"Tagalog"(菲律宾语)。由Cruz和Cheng(2019)发布。
[需要更多信息]
菲律宾语/Tagalog
[需要更多信息]
数据集以纯文本形式存在,只有一个字段("text")用于语言建模。
Split | Documents | Tokens |
---|---|---|
Train | 120,975 | 39M |
Valid | 25,919 | 8M |
Test | 25,921 | 8M |
有关数据集划分的更多详细信息,请参见论文。
[需要更多信息]
菲律宾语维基百科
初始数据收集和标准化[需要更多信息]
源语言生产者是谁?[需要更多信息]
[需要更多信息]
注释者是谁?[需要更多信息]
[需要更多信息]
[需要更多信息]
[需要更多信息]
[需要更多信息]
[需要更多信息]
[需要更多信息]
[需要更多信息]
感谢 @jcblaisecruz02 添加该数据集。