数据集:

Sakonii/nepalitext-language-model-dataset

任务:

文本生成

子任务:

language-modeling

语言:

计算机处理:

monolingual

语言创建人:

found other

批注创建人:

no-annotation

源数据集:

extended|oscar extended|cc100

许可:

cc0-1.0

数据集介绍文件清单

英文

数据集卡片: "nepalitext-language-model-dataset"

数据集简介

"NepaliText"语言建模数据集是由三个数据集组合而成的，包含超过1300万个尼泊尔文本序列（短语/句子/段落）: OSCAR , cc100 以及从维基百科爬取的尼泊尔文章。

支持的任务和排行榜

该数据集旨在对尼泊尔语进行预训练语言模型和词表示。

语言

数据集的主要语言是尼泊尔语，但可能包含其他语言的实例。

数据集结构

数据实例

例如:

{'text': 'घरेलु मैदानमा भएको च्याम्पियन्स लिगको दोस्रो लेगमा एथ्लेटिको मड्रिडले आर्सनललाई एक शून्यले हराउँदै समग्रमा दुई एकको अग्रताका साथ फाइनलमा प्रवेश गरेको हो ।\n'}

数据字段

数据字段包括:

text: 字符串特征。

数据划分

train	test
13141222	268189

数据集创建

策划理由

[需要更多信息]

数据来源

初始数据收集和归一化

[需要更多信息]

原始语言制作者是谁？

[需要更多信息]

注释

数据集不包含任何额外的注释。

注释过程

[需要更多信息]

注释者是谁？

[需要更多信息]

个人和敏感信息

由于从各个互联网来源提取和抓取，可能存在个人和敏感信息。在训练深度学习模型，尤其是文本生成模型之前，需要考虑这一点。

使用数据的注意事项

数据的社会影响

[需要更多信息]

偏见讨论

[需要更多信息]

其他已知限制

[需要更多信息]

附加信息

数据集的策划者

[需要更多信息]

许可信息

[需要更多信息]

引用信息

[需要更多信息]

贡献者

感谢 @Sakonii 添加了这个数据集。

作者:

Sakonii

数据集大小:

2.77 GB