数据集:
bswac
语言:
bs计算机处理:
monolingual大小:
100M<n<1B语言创建人:
found批注创建人:
no-annotation源数据集:
original许可:
cc-by-sa-3.0Bosnian web corpus bsWaC是通过在 2014 年爬行 .ba 顶级域名构建的。 该语料库在段落级别进行了几乎去重,通过恢复变音符号进行了规范化,进行了形态句法注释和词形标记。 语料库按段落洗牌。 每个段落都包含关于URL、域和语言识别(波斯尼亚语 vs. 克罗地亚语 vs. 塞尔维亚语)的元数据。
[需要更多信息]
数据集是波斯尼亚语单语言的。
[需要更多信息]
[需要更多信息]
[需要更多信息]
[需要更多信息]
[需要更多信息] 谁是源语言制作人?
[需要更多信息]
[需要更多信息] 谁是注释员?
[需要更多信息]
[需要更多信息]
[需要更多信息]
[需要更多信息]
[需要更多信息]
[需要更多信息]
数据集受到 CC-BY-SA 3.0 许可证的约束。
@misc{11356/1062, title = {Bosnian web corpus {bsWaC} 1.1}, author = {Ljube{\v s}i{\'c}, Nikola and Klubi{\v c}ka, Filip}, url = {http://hdl.handle.net/11356/1062}, note = {Slovenian language resource repository {CLARIN}.{SI}}, copyright = {Creative Commons - Attribution-{ShareAlike} 4.0 International ({CC} {BY}-{SA} 4.0)}, year = {2016} }
感谢 @IvanZidov 提供此数据集。