数据集:

cawac

英文

caWaC 数据集卡片

数据集概要

caWaC 是一个包含 78 亿个标记的网络语料库,于 2013 年底从.cat 顶级域名构建而成。

支持的任务和排行榜

【需要更多信息】

语言

数据集以单语 Catalan 为主。

数据集结构

数据实例

【需要更多信息】

数据字段

【需要更多信息】

数据拆分

【需要更多信息】

数据集创建

策划原理

【需要更多信息】

源数据

初始数据收集与规范化

【需要更多信息】

源语言生产者是谁?

【需要更多信息】

注释

注释过程

【需要更多信息】

注释者是谁?

【需要更多信息】

个人和敏感信息

【需要更多信息】

使用数据的注意事项

数据的社会影响

【需要更多信息】

偏见讨论

【需要更多信息】

其他已知限制

【需要更多信息】

附加信息

数据集负责人

【需要更多信息】

许可信息

数据集根据 CC-BY-SA 3.0 许可证发布。

引用信息

@inproceedings{DBLP:conf/lrec/LjubesicT14,
  author    = {Nikola Ljubesic and
               Antonio Toral},
  editor    = {Nicoletta Calzolari and
               Khalid Choukri and
               Thierry Declerck and
               Hrafn Loftsson and
               Bente Maegaard and
               Joseph Mariani and
               Asunci{\'{o}}n Moreno and
               Jan Odijk and
               Stelios Piperidis},
  title     = {caWaC - {A} web corpus of Catalan and its application to language
               modeling and machine translation},
  booktitle = {Proceedings of the Ninth International Conference on Language Resources
               and Evaluation, {LREC} 2014, Reykjavik, Iceland, May 26-31, 2014},
  pages     = {1728--1732},
  publisher = {European Language Resources Association {(ELRA)}},
  year      = {2014},
  url       = {http://www.lrec-conf.org/proceedings/lrec2014/summaries/841.html},
  timestamp = {Mon, 19 Aug 2019 15:23:35 +0200},
  biburl    = {https://dblp.org/rec/conf/lrec/LjubesicT14.bib},
  bibsource = {dblp computer science bibliography, https://dblp.org}
}

贡献

感谢 @albertvillanova 添加了该数据集。