数据集:
Sakonii/nepalitext-language-model-dataset
"NepaliText"语言建模数据集是由三个数据集组合而成的,包含超过1300万个尼泊尔文本序列(短语/句子/段落): OSCAR , cc100 以及从维基百科爬取的尼泊尔文章。
该数据集旨在对尼泊尔语进行预训练语言模型和词表示。
数据集的主要语言是尼泊尔语,但可能包含其他语言的实例。
例如:
{'text': 'घरेलु मैदानमा भएको च्याम्पियन्स लिगको दोस्रो लेगमा एथ्लेटिको मड्रिडले आर्सनललाई एक शून्यले हराउँदै समग्रमा दुई एकको अग्रताका साथ फाइनलमा प्रवेश गरेको हो ।\n'}
数据字段包括:
train | test |
---|---|
13141222 | 268189 |
[需要更多信息]
[需要更多信息]
原始语言制作者是谁?[需要更多信息]
数据集不包含任何额外的注释。
注释过程[需要更多信息]
注释者是谁?[需要更多信息]
由于从各个互联网来源提取和抓取,可能存在个人和敏感信息。在训练深度学习模型,尤其是文本生成模型之前,需要考虑这一点。
[需要更多信息]
[需要更多信息]
[需要更多信息]
[需要更多信息]
[需要更多信息]
[需要更多信息]
感谢 @Sakonii 添加了这个数据集。