数据集:

wikitext_tl39

任务:

文本生成

填充掩码

子任务:

language-modeling masked-language-modeling

语言:

language:fil

计算机处理:

monolingual

大小:

1M<n<10M

语言创建人:

found

批注创建人:

no-annotation

源数据集:

original

预印本库:

arxiv:1907.00409

许可:

gpl-3.0

数据集介绍文件清单

英文

WikiText-TL-39 数据集卡片

数据集摘要

WikiText-TL-39是一个大规模的无标签文本数据集，训练集中含有3900万个单词。灵感来自原始的WikiText长期依赖数据集（Merity等，2016）。TL代表"Tagalog"（菲律宾语）。由Cruz和Cheng（2019）发布。

支持的任务和排行榜

[需要更多信息]

语言

菲律宾语/Tagalog

数据集结构

数据实例

[需要更多信息]

数据字段

文本 (str)

数据集以纯文本形式存在，只有一个字段（"text"）用于语言建模。

数据划分

Split	Documents	Tokens
Train	120,975	39M
Valid	25,919	8M
Test	25,921	8M

有关数据集划分的更多详细信息，请参见论文。

数据集创建

策划理由

[需要更多信息]

源数据

菲律宾语维基百科

初始数据收集和标准化

[需要更多信息]

源语言生产者是谁？

[需要更多信息]

注释

注释过程

[需要更多信息]

注释者是谁？

[需要更多信息]

个人和敏感信息

[需要更多信息]

使用数据时的考虑事项

数据集的社会影响

[需要更多信息]

偏见讨论

[需要更多信息]

其他已知限制

[需要更多信息]

附加信息

数据集策划者

[需要更多信息]

许可信息

[需要更多信息]

引用信息

[需要更多信息]

贡献者

感谢 @jcblaisecruz02 添加该数据集。

作者:

佚名

数据集大小:

10.48 KB