数据集:
carolina-c4ai/corpus-carolina
语言:
pt计算机处理:
monolingual大小:
1B<n<10B语言创建人:
crowdsourced批注创建人:
no-annotation源数据集:
original许可:
cc-by-nc-sa-4.0Carolina 是一个开放的语言学和人工智能语料库,包含了丰富的现代巴西葡萄牙语(1970-2021年)的各种类型的文本。该语料库包含从网络中提取的文档和文本,并包括关于来源和类型的信息(元数据)。
文件被聚类到分类法中,可以以完整或分类法模式加载语料库。要加载单个分类法,可以将代码作为参数传递给加载脚本(参见下面的示例)。代码是一个三字母字符串,可能的取值有:
数据集版本控制:
Carolina Corpus 在不断发展中,有多个版本。当前版本是 v1.2,但也可用 v1.1 版本。您可以使用 load_dataset 的 revision 参数来访问不同版本的语料库。
用法示例:
from datasets import load_dataset # to load all taxonomies corpus_carolina = load_dataset("carolina-c4ai/corpus-carolina") # to load social media documents social_media = load_dataset("carolina-c4ai/corpus-carolina", taxonomy="soc") # to load previous version corpus_carolina = load_dataset("carolina-c4ai/corpus-carolina", revision="v1.1")
Carolina 语料库编译用于学术目的,即语言学和计算分析。
现代巴西葡萄牙语(1970-2021年)。
文件存储在 corpus 文件夹中,每个分类法都有一个子文件夹。每个文件遵循 XML 结构(TEI P5),包含多个提取的文档。对于每个文档,文本和元数据分别作为文本和元特征暴露出来。
每个实例具有以下结构。
{ "meta": datasets.Value("string"), "text": datasets.Value("string") }
Code | Taxonomy | Instances | Size |
---|---|---|---|
Total | 2107045 | 11 GB | |
dat | Datasets and other Corpora | 1102049 | 4.4 GB |
wik | Wikis | 960139 | 5.2 GB |
jud | Judicial Branch | 40464 | 1.5 GB |
leg | Legislative Branch | 13 | 25 MB |
soc | Social Media | 3413 | 17 MB |
uni | University Domains | 941 | 10 MB |
pub | Public Domain Works | 26 | 4.5 MB |
作为一般语料库,Carolina 没有拆分。为了加载数据集,将使用 corpus 作为其唯一拆分。
Carolina Corpus 由语言学家和计算机科学家的跨学科团队开发,他们是 São Paulo 大学数字人文虚拟实验室(LaViHD)和人工智能中心(C4AI)的成员。
语言学和人工智能开放语料库(Carolina)是为学术目的编制的,即语言学和计算分析。它由各种数字存储库中的文本组成,其许可证是多样的,因此在使用该语料库时应遵守许可证。Carolina 的标头是根据知识共享署名-非商业性使用-相同方式共享 4.0 国际许可证授权的。"
@misc{corpusCarolinaV1.1, title={ Carolina: The Open Corpus for Linguistics and Artificial Intelligence }, author={ Finger, Marcelo and Paixão de Sousa, Maria Clara and Namiuti, Cristiane and Martins do Monte, Vanessa and Costa, Aline Silva and Serras, Felipe Ribas and Sturzeneker, Mariana Lourenço and Guets, Raquel de Paula and Mesquita, Renata Morais and Mello, Guilherme Lamartine de and Crespo, Maria Clara Ramos Morales and Rocha, Maria Lina de Souza Jeannine and Brasil, Patrícia and Silva, Mariana Marques da and Palma, Mayara Feliciano }, howpublished={\url{ https://sites.usp.br/corpuscarolina/corpus}}, year={2022}, note={Version 1.1 (Ada)}, }