数据集:

Sakonii/nepalitext-language-model-dataset

语言:

ne

计算机处理:

monolingual

语言创建人:

found other

批注创建人:

no-annotation

许可:

cc0-1.0
英文

数据集卡片: "nepalitext-language-model-dataset"

数据集简介

"NepaliText"语言建模数据集是由三个数据集组合而成的,包含超过1300万个尼泊尔文本序列(短语/句子/段落): OSCAR , cc100 以及从维基百科爬取的尼泊尔文章。

支持的任务和排行榜

该数据集旨在对尼泊尔语进行预训练语言模型和词表示。

语言

数据集的主要语言是尼泊尔语,但可能包含其他语言的实例。

数据集结构

数据实例

例如:

{'text': 'घरेलु मैदानमा भएको च्याम्पियन्स लिगको दोस्रो लेगमा एथ्लेटिको मड्रिडले आर्सनललाई एक शून्यले हराउँदै समग्रमा दुई एकको अग्रताका साथ फाइनलमा प्रवेश गरेको हो ।\n'}

数据字段

数据字段包括:

  • text: 字符串特征。

数据划分

train test
13141222 268189

数据集创建

策划理由

[需要更多信息]

数据来源

初始数据收集和归一化

[需要更多信息]

原始语言制作者是谁?

[需要更多信息]

注释

数据集不包含任何额外的注释。

注释过程

[需要更多信息]

注释者是谁?

[需要更多信息]

个人和敏感信息

由于从各个互联网来源提取和抓取,可能存在个人和敏感信息。在训练深度学习模型,尤其是文本生成模型之前,需要考虑这一点。

使用数据的注意事项

数据的社会影响

[需要更多信息]

偏见讨论

[需要更多信息]

其他已知限制

[需要更多信息]

附加信息

数据集的策划者

[需要更多信息]

许可信息

[需要更多信息]

引用信息

[需要更多信息]

贡献者

感谢 @Sakonii 添加了这个数据集。