数据集:

srwac

任务:

文本生成

填充掩码

子任务:

language-modeling masked-language-modeling

语言:

计算机处理:

monolingual

大小:

100M<n<1B

语言创建人:

found

批注创建人:

no-annotation

源数据集:

original

许可:

cc-by-sa-3.0

数据集介绍文件清单

英文

SrWac数据集卡

数据集摘要

2014年，通过对.rs顶级域进行爬取，构建了塞尔维亚网页语料库（srWaC）。该语料库在段落级别上进行了近似去重，通过还原重音进行了规范化处理，并进行了词形句法标注和词形归并。语料库按段落进行了随机排序。每个段落包含有关URL、域和语言识别（塞尔维亚语 vs 克罗地亚语）的元数据。

支持的任务和排行榜

【需要更多信息】

语言

数据集为塞尔维亚语单语数据。

数据集结构

数据示例

【需要更多信息】

数据字段

【需要更多信息】

数据拆分

【需要更多信息】

数据集创建

策划理由

【需要更多信息】

原始数据

数据采集和规范化处理

【需要更多信息】

源语言制作者是谁？

【需要更多信息】

标注

标注过程

【需要更多信息】

标注者是谁？

【需要更多信息】

个人和敏感信息

【需要更多信息】

使用数据的注意事项

数据的社会影响

【需要更多信息】

偏见讨论

【需要更多信息】

其他已知限制

【需要更多信息】

其他信息

数据集维护者

【需要更多信息】

授权信息

数据集遵守 CC-BY-SA 3.0 许可协议。

引用信息

 @misc{11356/1063,
 title = {Serbian web corpus {srWaC} 1.1},
 author = {Ljube{\v s}i{\'c}, Nikola and Klubi{\v c}ka, Filip},
 url = {http://hdl.handle.net/11356/1063},
 note = {Slovenian language resource repository {CLARIN}.{SI}},
 copyright = {Creative Commons - Attribution-{ShareAlike} 4.0 International ({CC} {BY}-{SA} 4.0)},
 year = {2016} }

贡献

感谢 @IvanZidov 添加了这个数据集。

作者:

佚名

数据集大小:

11.16 KB