数据集:

brwac

英文

BrWaC 数据集卡片

数据集摘要

BrWaC(巴西葡萄牙语网络语料库)是一个大型语料库,按照 Wacky 框架构建,为研究目的公开。该语料库的当前版本于2017年1月发布,由3,530,000个文档、26.8亿个标记和579万个类型组成。请注意,此资源仅供学术研究目的使用,并同意不将其用于任何商业应用。手动下载于 https://www.inf.ufrgs.br/pln/wiki/index.php?title=BrWaC

支持的任务和排行榜

[需要更多信息]

语言

葡萄牙语

数据集结构

数据实例

BrWaC 数据集的一个示例如下:

{
  "doc_id": "netg-1afc73",
  "text": {
    "paragraphs": [
      [
        "Conteúdo recente"
      ],
      [
        "ESPUMA MARROM CHAMADA \"NINGUÉM MERECE\""
      ],
      [
        "31 de Agosto de 2015, 7:07 , por paulo soavinski - | No one following this article yet."
      ],
      [
        "Visualizado 202 vezes"
      ],
      [
        "JORNAL ELETRÔNICO DA ILHA DO MEL"
      ],
      [
        "Uma espuma marrom escuro tem aparecido com frequência na Praia de Fora.",
        "Na faixa de areia ela aparece disseminada e não chama muito a atenção.",
        "No Buraco do Aipo, com muitas pedras, ela aparece concentrada.",
        "É fácil saber que esta espuma estranha está lá, quando venta.",
        "Pequenos algodões de espuma começam a flutuar no espaço, pertinho da Praia do Saquinho.",
        "Quem pode ajudar na coleta deste material, envio a laboratório renomado e pagamento de análises, favor entrar em contato com o site."
      ]
    ]
  },
  "title": "ESPUMA MARROM CHAMADA ‟NINGUÉM MERECE‟ - paulo soavinski",
  "uri": "http://blogoosfero.cc/ilhadomel/pousadasilhadomel.com.br/espuma-marrom-chamada-ninguem-merece"
}

数据字段

  • doc_id:文档 ID
  • title:文档标题
  • uri:提取文档的 URI
  • text:文档段落列表(其中每个段落是一个字符串列表的句子列表)

数据拆分

数据仅分为训练集,样本大小为3,530,796个。

数据集创建

策划理由

[需要更多信息]

源数据

初始数据收集和规范化

[需要更多信息]

谁是源语言的生成者?

[需要更多信息]

注释

注释过程

[需要更多信息]

注释者是谁?

[需要更多信息]

个人和敏感信息

[需要更多信息]

使用数据的考虑事项

数据的社会影响

[需要更多信息]

偏见讨论

[需要更多信息]

其他已知限制

[需要更多信息]

附加信息

数据集策划者

[需要更多信息]

许可信息

[需要更多信息]

引用信息

@inproceedings{wagner2018brwac,
  title={The brwac corpus: A new open resource for brazilian portuguese},
  author={Wagner Filho, Jorge A and Wilkens, Rodrigo and Idiart, Marco and Villavicencio, Aline},
  booktitle={Proceedings of the Eleventh International Conference on Language Resources and Evaluation (LREC 2018)},
  year={2018}
}

贡献

感谢 @jonatasgrosman 添加了这个数据集。