数据集:
srwac
语言:
sr计算机处理:
monolingual大小:
100M<n<1B语言创建人:
found批注创建人:
no-annotation源数据集:
original许可:
cc-by-sa-3.02014年,通过对.rs顶级域进行爬取,构建了塞尔维亚网页语料库(srWaC)。该语料库在段落级别上进行了近似去重,通过还原重音进行了规范化处理,并进行了词形句法标注和词形归并。语料库按段落进行了随机排序。每个段落包含有关URL、域和语言识别(塞尔维亚语 vs 克罗地亚语)的元数据。
【需要更多信息】
数据集为塞尔维亚语单语数据。
【需要更多信息】
【需要更多信息】
【需要更多信息】
【需要更多信息】
【需要更多信息】
源语言制作者是谁?【需要更多信息】
【需要更多信息】
标注者是谁?【需要更多信息】
【需要更多信息】
【需要更多信息】
【需要更多信息】
【需要更多信息】
【需要更多信息】
数据集遵守 CC-BY-SA 3.0 许可协议。
@misc{11356/1063, title = {Serbian web corpus {srWaC} 1.1}, author = {Ljube{\v s}i{\'c}, Nikola and Klubi{\v c}ka, Filip}, url = {http://hdl.handle.net/11356/1063}, note = {Slovenian language resource repository {CLARIN}.{SI}}, copyright = {Creative Commons - Attribution-{ShareAlike} 4.0 International ({CC} {BY}-{SA} 4.0)}, year = {2016} }
感谢 @IvanZidov 添加了这个数据集。