数据集:

hrenwac_para

任务:

翻译

语言:

en hr

计算机处理:

translation

大小:

10K<n<100K

语言创建人:

found

批注创建人:

no-annotation

源数据集:

original
英文

hrenwac_para数据集卡片

数据集摘要

hrenWaC语料库2.0版本由从克罗地亚的.hr顶级域中爬取的克罗地亚语-英语平行文本组成。该语料库是使用Spidextor( https://github.com/abumatran/spidextor )构建的,该工具将用于爬取的SpiderLing的输出和用于双语抽取的Bitextor粘合在一起。在片段级别上,提取到的双语文本准确率约为80%,在单词级别上约为84%。

支持的任务和排行榜

[需要更多信息]

语言

该数据集支持克罗地亚语和英语双语。

数据集结构

数据实例

[需要更多信息]

数据字段

[需要更多信息]

数据拆分

[需要更多信息]

数据集创建

策划理由

[需要更多信息]

源数据

初始数据收集和规范化

[需要更多信息]

源语言生成者是谁?

[需要更多信息]

注释

注释过程

[需要更多信息]

注释者是谁?

[需要更多信息]

个人和敏感信息

[需要更多信息]

使用数据的注意事项

数据的社会影响

[需要更多信息]

偏见讨论

[需要更多信息]

其他已知限制

[需要更多信息]

附加信息

数据集创建者

[需要更多信息]

许可信息

该数据集使用 CC-BY-SA 3.0 许可证。

引用信息

  @misc{11356/1058,
 title = {Croatian-English parallel corpus {hrenWaC} 2.0},
 author = {Ljube{\v s}i{\'c}, Nikola and Espl{\`a}-Gomis, Miquel and Ortiz Rojas, Sergio and Klubi{\v c}ka, Filip and Toral, Antonio},
 url = {http://hdl.handle.net/11356/1058},
 note = {Slovenian language resource repository {CLARIN}.{SI}},
 copyright = {{CLARIN}.{SI} User Licence for Internet Corpora},
 year = {2016} }

贡献

感谢 @IvanZidov 添加了该数据集。