数据集:

hrwac

语言:

hr

计算机处理:

monolingual

大小:

1B<n<10B

语言创建人:

found

批注创建人:

no-annotation

源数据集:

original
英文

HrWac 数据集卡片

数据集摘要

克罗地亚网络语料库 hrWaC 是通过爬取 .hr 顶级域名于2011年和2014年建立的。该语料库在段落级别上进行了近似去重,通过恢复变音符号进行了规范化,进行了形态句法标注和词形还原。语料库按段落进行了乱序排列。每个段落都包含URL、域名和语言识别(克罗地亚语 vs 塞尔维亚语)的元数据。

支持的任务和排行榜

[需要更多信息]

语言

数据集仅使用克罗地亚语。

数据集结构

数据实例

[需要更多信息]

数据字段

  • 句子: 字符串形式的句子

数据拆分

[需要更多信息]

数据集创建

策划理由

[需要更多信息]

源数据

初始数据收集和规范化

[需要更多信息]

谁是源语言的制作者?

[需要更多信息]

注释

注释过程

[需要更多信息]

注释者是谁?

[需要更多信息]

个人和敏感信息

[需要更多信息]

使用数据的注意事项

数据的社会影响

[需要更多信息]

偏见讨论

[需要更多信息]

其他已知限制

[需要更多信息]

附加信息

数据集策划者

[需要更多信息]

许可信息

数据集使用 CC-BY-SA 3.0 许可。

引用信息

 @misc{11356/1064,
 title = {Croatian web corpus {hrWaC} 2.1},
 author = {Ljube{\v s}i{\'c}, Nikola and Klubi{\v c}ka, Filip},
 url = {http://hdl.handle.net/11356/1064},
 note = {Slovenian language resource repository {CLARIN}.{SI}},
 copyright = {Creative Commons - Attribution-{ShareAlike} 4.0 International ({CC} {BY}-{SA} 4.0)},
 year = {2016} }

贡献者

感谢 @IvanZidov 添加了该数据集。