数据集:

capes

任务:

翻译

语言:

en pt

计算机处理:

multilingual

大小:

1M<n<10M

语言创建人:

found

批注创建人:

found

源数据集:

original
英文

CAPES 数据集卡片

数据集摘要

从巴西高等教育改善协调委员会(CAPES)网站收集了一份包含英语和葡萄牙语论文摘要的平行语料库。该语料库针对所有语言对进行了句子对齐。使用Hunalign算法对约240,000个文档进行了收集和对齐。

支持的任务和排行榜

底层任务是机器翻译。

语言

[需要更多信息]

数据集结构

数据实例

[需要更多信息]

数据字段

[需要更多信息]

数据拆分

[需要更多信息]

数据集创建

策划原因

[需要更多信息]

源数据

初始数据收集和规范化

[需要更多信息]

源语言制造者是谁?

[需要更多信息]

注释

注释过程

[需要更多信息]

注释者是谁?

[需要更多信息]

个人和敏感信息

[需要更多信息]

使用数据的注意事项

数据的社会影响

[需要更多信息]

偏见讨论

[需要更多信息]

其他已知限制

[需要更多信息]

其他信息

数据集策划者

[需要更多信息]

许可信息

[需要更多信息]

引用信息

@inproceedings{soares2018parallel,
  title={A Parallel Corpus of Theses and Dissertations Abstracts},
  author={Soares, Felipe and Yamashita, Gabrielli Harumi and Anzanello, Michel Jose},
  booktitle={International Conference on Computational Processing of the Portuguese Language},
  pages={345--352},
  year={2018},
  organization={Springer}
}

贡献

感谢 @patil-suraj 添加了该数据集。