数据集:

scielo

任务:

翻译

计算机处理:

multilingual

大小:

100K<n<1M

语言创建人:

found

批注创建人:

found

源数据集:

original

预印本库:

arxiv:1905.01852
英文

SciELO数据集的数据卡片

数据集摘要

这是一个从SciELO数据库收集的全文科学论文的平行语料库,包括以下语言:英语、葡萄牙语和西班牙语。该语料库对所有语言对进行了句子对齐,还对一小部分句子进行了三语对齐。句子对齐是使用Hunalign算法进行的。

支持的任务和排行榜

底层任务是机器翻译。

语言

[需要更多信息]

数据集结构

数据实例

[需要更多信息]

数据字段

[需要更多信息]

数据划分

[需要更多信息]

数据集创建

策划理由

[需要更多信息]

源数据

初始数据收集和规范化

[需要更多信息]

谁是源语言的制作者?

[需要更多信息]

注释

注释过程

[需要更多信息]

注释者是谁?

[需要更多信息]

个人和敏感信息

[需要更多信息]

使用数据的注意事项

数据的社会影响

[需要更多信息]

偏见讨论

[需要更多信息]

其他已知限制

[需要更多信息]

其他信息

数据集策划者

[需要更多信息]

许可信息

[需要更多信息]

引用信息

@inproceedings{soares2018large,
  title={A Large Parallel Corpus of Full-Text Scientific Articles},
  author={Soares, Felipe and Moreira, Viviane and Becker, Karin},
  booktitle={Proceedings of the Eleventh International Conference on Language Resources and Evaluation (LREC-2018)},
  year={2018}
}

贡献

感谢 @patil-suraj 添加了这个数据集。