数据集:
brwac
语言:
pt计算机处理:
monolingual大小:
1M<n<10M语言创建人:
found批注创建人:
no-annotation源数据集:
original许可:
license:unknownBrWaC(巴西葡萄牙语网络语料库)是一个大型语料库,按照 Wacky 框架构建,为研究目的公开。该语料库的当前版本于2017年1月发布,由3,530,000个文档、26.8亿个标记和579万个类型组成。请注意,此资源仅供学术研究目的使用,并同意不将其用于任何商业应用。手动下载于 https://www.inf.ufrgs.br/pln/wiki/index.php?title=BrWaC
[需要更多信息]
葡萄牙语
BrWaC 数据集的一个示例如下:
{ "doc_id": "netg-1afc73", "text": { "paragraphs": [ [ "Conteúdo recente" ], [ "ESPUMA MARROM CHAMADA \"NINGUÉM MERECE\"" ], [ "31 de Agosto de 2015, 7:07 , por paulo soavinski - | No one following this article yet." ], [ "Visualizado 202 vezes" ], [ "JORNAL ELETRÔNICO DA ILHA DO MEL" ], [ "Uma espuma marrom escuro tem aparecido com frequência na Praia de Fora.", "Na faixa de areia ela aparece disseminada e não chama muito a atenção.", "No Buraco do Aipo, com muitas pedras, ela aparece concentrada.", "É fácil saber que esta espuma estranha está lá, quando venta.", "Pequenos algodões de espuma começam a flutuar no espaço, pertinho da Praia do Saquinho.", "Quem pode ajudar na coleta deste material, envio a laboratório renomado e pagamento de análises, favor entrar em contato com o site." ] ] }, "title": "ESPUMA MARROM CHAMADA ‟NINGUÃÂM MERECE‟ - paulo soavinski", "uri": "http://blogoosfero.cc/ilhadomel/pousadasilhadomel.com.br/espuma-marrom-chamada-ninguem-merece" }
数据仅分为训练集,样本大小为3,530,796个。
[需要更多信息]
[需要更多信息]
谁是源语言的生成者?[需要更多信息]
[需要更多信息]
注释者是谁?[需要更多信息]
[需要更多信息]
[需要更多信息]
[需要更多信息]
[需要更多信息]
[需要更多信息]
[需要更多信息]
@inproceedings{wagner2018brwac, title={The brwac corpus: A new open resource for brazilian portuguese}, author={Wagner Filho, Jorge A and Wilkens, Rodrigo and Idiart, Marco and Villavicencio, Aline}, booktitle={Proceedings of the Eleventh International Conference on Language Resources and Evaluation (LREC 2018)}, year={2018} }
感谢 @jonatasgrosman 添加了这个数据集。