数据集:

wikitext_tl39

英文

WikiText-TL-39 数据集卡片

数据集摘要

WikiText-TL-39是一个大规模的无标签文本数据集,训练集中含有3900万个单词。灵感来自原始的WikiText长期依赖数据集(Merity等,2016)。TL代表"Tagalog"(菲律宾语)。由Cruz和Cheng(2019)发布。

支持的任务和排行榜

[需要更多信息]

语言

菲律宾语/Tagalog

数据集结构

数据实例

[需要更多信息]

数据字段

  • 文本 (str)

数据集以纯文本形式存在,只有一个字段("text")用于语言建模。

数据划分

Split Documents Tokens
Train 120,975 39M
Valid 25,919 8M
Test 25,921 8M

有关数据集划分的更多详细信息,请参见论文。

数据集创建

策划理由

[需要更多信息]

源数据

菲律宾语维基百科

初始数据收集和标准化

[需要更多信息]

源语言生产者是谁?

[需要更多信息]

注释

注释过程

[需要更多信息]

注释者是谁?

[需要更多信息]

个人和敏感信息

[需要更多信息]

使用数据时的考虑事项

数据集的社会影响

[需要更多信息]

偏见讨论

[需要更多信息]

其他已知限制

[需要更多信息]

附加信息

数据集策划者

[需要更多信息]

许可信息

[需要更多信息]

引用信息

[需要更多信息]

贡献者

感谢 @jcblaisecruz02 添加该数据集。