数据集:
hrenwac_para
任务:
翻译计算机处理:
translation大小:
10K<n<100K语言创建人:
found批注创建人:
no-annotation源数据集:
original许可:
cc-by-sa-3.0hrenWaC语料库2.0版本由从克罗地亚的.hr顶级域中爬取的克罗地亚语-英语平行文本组成。该语料库是使用Spidextor( https://github.com/abumatran/spidextor )构建的,该工具将用于爬取的SpiderLing的输出和用于双语抽取的Bitextor粘合在一起。在片段级别上,提取到的双语文本准确率约为80%,在单词级别上约为84%。
[需要更多信息]
该数据集支持克罗地亚语和英语双语。
[需要更多信息]
[需要更多信息]
[需要更多信息]
[需要更多信息]
[需要更多信息]
源语言生成者是谁?[需要更多信息]
[需要更多信息]
注释者是谁?[需要更多信息]
[需要更多信息]
[需要更多信息]
[需要更多信息]
[需要更多信息]
[需要更多信息]
该数据集使用 CC-BY-SA 3.0 许可证。
@misc{11356/1058, title = {Croatian-English parallel corpus {hrenWaC} 2.0}, author = {Ljube{\v s}i{\'c}, Nikola and Espl{\`a}-Gomis, Miquel and Ortiz Rojas, Sergio and Klubi{\v c}ka, Filip and Toral, Antonio}, url = {http://hdl.handle.net/11356/1058}, note = {Slovenian language resource repository {CLARIN}.{SI}}, copyright = {{CLARIN}.{SI} User Licence for Internet Corpora}, year = {2016} }
感谢 @IvanZidov 添加了该数据集。