数据集:
hrwac
语言:
hr计算机处理:
monolingual大小:
1B<n<10B语言创建人:
found批注创建人:
no-annotation源数据集:
original许可:
cc-by-sa-3.0克罗地亚网络语料库 hrWaC 是通过爬取 .hr 顶级域名于2011年和2014年建立的。该语料库在段落级别上进行了近似去重,通过恢复变音符号进行了规范化,进行了形态句法标注和词形还原。语料库按段落进行了乱序排列。每个段落都包含URL、域名和语言识别(克罗地亚语 vs 塞尔维亚语)的元数据。
[需要更多信息]
数据集仅使用克罗地亚语。
[需要更多信息]
[需要更多信息]
[需要更多信息]
[需要更多信息]
谁是源语言的制作者?[需要更多信息]
[需要更多信息]
注释者是谁?[需要更多信息]
[需要更多信息]
[需要更多信息]
[需要更多信息]
[需要更多信息]
[需要更多信息]
数据集使用 CC-BY-SA 3.0 许可。
@misc{11356/1064, title = {Croatian web corpus {hrWaC} 2.1}, author = {Ljube{\v s}i{\'c}, Nikola and Klubi{\v c}ka, Filip}, url = {http://hdl.handle.net/11356/1064}, note = {Slovenian language resource repository {CLARIN}.{SI}}, copyright = {Creative Commons - Attribution-{ShareAlike} 4.0 International ({CC} {BY}-{SA} 4.0)}, year = {2016} }
感谢 @IvanZidov 添加了该数据集。