数据集:

opus_dogc

任务:

翻译

语言:

ca es

计算机处理:

translation

大小:

1M<n<10M

语言创建人:

expert-generated

批注创建人:

no-annotation

源数据集:

original

许可:

cc0-1.0
英文

OPUS DOGC 数据集卡片

数据集概述

OPUS DOGC 是由加泰罗尼亚政府官方期刊中的文件组成的数据集,使用加泰罗尼亚语和西班牙语,由加泰罗尼亚自治大学的Antoni Oliver Gonzalez提供。

支持的任务和排行榜

[需要更多信息]

语言

数据集是多语言的,含有以下平行文本:

  • 加泰罗尼亚语
  • 西班牙语

数据集结构

数据实例

[需要更多信息]

数据字段

数据实例包含以下字段:

  • ca: 加泰罗尼亚语文本
  • es: 对齐的西班牙语文本

数据拆分

[需要更多信息]

数据集创建

策划理由

[需要更多信息]

来源数据

初始数据收集和标准化

[需要更多信息]

谁是源语言生产者?

[需要更多信息]

注释

注释过程

[需要更多信息]

谁是注释者?

[需要更多信息]

个人和敏感信息

[需要更多信息]

使用数据的注意事项

数据的社会影响

[需要更多信息]

偏见讨论

[需要更多信息]

其他已知限制

[需要更多信息]

额外信息

数据集策划者

[需要更多信息]

许可信息

该数据集在 CC0 1.0 下授权为公共领域。

引用信息

@inproceedings{tiedemann-2012-parallel,
    title = "Parallel Data, Tools and Interfaces in {OPUS}",
    author = {Tiedemann, J{\"o}rg},
    booktitle = "Proceedings of the Eighth International Conference on Language Resources and Evaluation ({LREC}'12)",
    month = may,
    year = "2012",
    address = "Istanbul, Turkey",
    publisher = "European Language Resources Association (ELRA)",
    url = "http://www.lrec-conf.org/proceedings/lrec2012/pdf/463_Paper.pdf",
    pages = "2214--2218",
    abstract = "This paper presents the current status of OPUS, a growing language resource of parallel corpora and related tools. The focus in OPUS is to provide freely available data sets in various formats together with basic annotation to be useful for applications in computational linguistics, translation studies and cross-linguistic corpus studies. In this paper, we report about new data sets and their features, additional annotation tools and models provided from the website and essential interfaces and on-line services included in the project.",
}

贡献

感谢 @albertvillanova 添加了这个数据集。