数据集:

bswac

语言:

bs

计算机处理:

monolingual

大小:

100M<n<1B

语言创建人:

found

批注创建人:

no-annotation

源数据集:

original
英文

BsWac 数据集卡片

数据集摘要

Bosnian web corpus bsWaC是通过在 2014 年爬行 .ba 顶级域名构建的。 该语料库在段落级别进行了几乎去重,通过恢复变音符号进行了规范化,进行了形态句法注释和词形标记。 语料库按段落洗牌。 每个段落都包含关于URL、域和语言识别(波斯尼亚语 vs. 克罗地亚语 vs. 塞尔维亚语)的元数据。

支持的任务和排行榜

[需要更多信息]

语言

数据集是波斯尼亚语单语言的。

数据集结构

数据实例

[需要更多信息]

数据字段

[需要更多信息]

数据拆分

[需要更多信息]

数据集创建

策划原理

[需要更多信息]

源数据 初始数据收集和规范化

[需要更多信息] 谁是源语言制作人?

[需要更多信息]

注释 注释过程

[需要更多信息] 谁是注释员?

[需要更多信息]

个人和敏感信息

[需要更多信息]

使用数据的考虑事项

数据的社会影响

[需要更多信息]

偏见讨论

[需要更多信息]

其他已知限制

[需要更多信息]

其他信息

数据集策划者

[需要更多信息]

许可信息

数据集受到 CC-BY-SA 3.0 许可证的约束。

引用信息

  @misc{11356/1062,
 title = {Bosnian web corpus {bsWaC} 1.1},
 author = {Ljube{\v s}i{\'c}, Nikola and Klubi{\v c}ka, Filip},
 url = {http://hdl.handle.net/11356/1062},
 note = {Slovenian language resource repository {CLARIN}.{SI}},
 copyright = {Creative Commons - Attribution-{ShareAlike} 4.0 International ({CC} {BY}-{SA} 4.0)},
 year = {2016} }

贡献

感谢 @IvanZidov 提供此数据集。