数据集:

carolina-c4ai/corpus-carolina

任务:

填充掩码

文本生成

子任务:

masked-language-modeling language-modeling

语言:

计算机处理:

monolingual

大小:

1B<n<10B

语言创建人:

crowdsourced

批注创建人:

no-annotation

源数据集:

original

许可:

cc-by-nc-sa-4.0

数据集介绍文件清单

英文

Corpus Carolina 数据集卡片

数据集摘要

Carolina 是一个开放的语言学和人工智能语料库，包含了丰富的现代巴西葡萄牙语（1970-2021年）的各种类型的文本。该语料库包含从网络中提取的文档和文本，并包括关于来源和类型的信息（元数据）。

文件被聚类到分类法中，可以以完整或分类法模式加载语料库。要加载单个分类法，可以将代码作为参数传递给加载脚本（参见下面的示例）。代码是一个三字母字符串，可能的取值有：

dat : 数据集和其他语料库;
jud : 司法部门;
leg : 立法部门;
pub : 公有领域作品;
soc : 社交媒体;
uni : 大学领域;
wik : 维基。

数据集版本控制:

Carolina Corpus 在不断发展中，有多个版本。当前版本是 v1.2，但也可用 v1.1 版本。您可以使用 load_dataset 的 revision 参数来访问不同版本的语料库。

用法示例:

from datasets import load_dataset

# to load all taxonomies
corpus_carolina = load_dataset("carolina-c4ai/corpus-carolina")

# to load social media documents
social_media = load_dataset("carolina-c4ai/corpus-carolina", taxonomy="soc")

# to load previous version
corpus_carolina = load_dataset("carolina-c4ai/corpus-carolina", revision="v1.1")

支持的任务

Carolina 语料库编译用于学术目的，即语言学和计算分析。

语言

现代巴西葡萄牙语（1970-2021年）。

数据集结构

文件存储在 corpus 文件夹中，每个分类法都有一个子文件夹。每个文件遵循 XML 结构（TEI P5），包含多个提取的文档。对于每个文档，文本和元数据分别作为文本和元特征暴露出来。

数据实例

每个实例具有以下结构。

{
    "meta": datasets.Value("string"),
    "text": datasets.Value("string")
}

Code	Taxonomy	Instances	Size
Total	2107045	11 GB
dat	Datasets and other Corpora	1102049	4.4 GB
wik	Wikis	960139	5.2 GB
jud	Judicial Branch	40464	1.5 GB
leg	Legislative Branch	13	25 MB
soc	Social Media	3413	17 MB
uni	University Domains	941	10 MB
pub	Public Domain Works	26	4.5 MB

数据字段

meta : 一个包含 TEI 符合的 teiHeader 标签的 XML 字符串。它作为文本公开，并需要解析以访问实际的元数据;
text : 包含提取的文档的字符串。

数据拆分

作为一般语料库，Carolina 没有拆分。为了加载数据集，将使用 corpus 作为其唯一拆分。

额外信息

数据集 curators

Carolina Corpus 由语言学家和计算机科学家的跨学科团队开发，他们是 São Paulo 大学数字人文虚拟实验室（LaViHD）和人工智能中心（C4AI）的成员。

许可信息

语言学和人工智能开放语料库（Carolina）是为学术目的编制的，即语言学和计算分析。它由各种数字存储库中的文本组成，其许可证是多样的，因此在使用该语料库时应遵守许可证。Carolina 的标头是根据知识共享署名-非商业性使用-相同方式共享 4.0 国际许可证授权的。"

引用信息

@misc{corpusCarolinaV1.1,
    title={
        Carolina:
        The Open Corpus for Linguistics and Artificial Intelligence
    },
    author={
        Finger, Marcelo and
        Paixão de Sousa, Maria Clara and
        Namiuti, Cristiane and
        Martins do Monte, Vanessa and
        Costa, Aline Silva and
        Serras, Felipe Ribas and
        Sturzeneker, Mariana Lourenço and
        Guets, Raquel de Paula and
        Mesquita, Renata Morais and
        Mello, Guilherme Lamartine de and
        Crespo, Maria Clara Ramos Morales and
        Rocha, Maria Lina de Souza Jeannine and
        Brasil, Patrícia and
        Silva, Mariana Marques da and
        Palma, Mayara Feliciano
    },
    howpublished={\url{
        https://sites.usp.br/corpuscarolina/corpus}},
    year={2022},
    note={Version 1.1 (Ada)},
}

作者:

carolina-c4ai

数据集大小:

880.08 MB