数据集:

ro_sts_parallel

任务:

翻译

语言:

en ro

计算机处理:

multilingual

大小:

10K<n<100K

语言创建人:

crowdsourced

批注创建人:

crowdsourced

许可:

cc-by-4.0
英文

RO-STS-Parallel数据集卡片

数据集摘要

我们介绍RO-STS-Parallel - 通过将数据集翻译成罗马尼亚语得到的一份罗马尼亚语-英语平行数据集。它包含17256个句子的罗马尼亚语和英语对。

支持的任务和排行榜

[需要更多信息]

语言

文本数据集为罗马尼亚语和英语(ro, en)

数据集结构

数据实例

一个例子如下:

{
  'translation': {
    'ro': 'Problema e si mai simpla.',
    'en': 'The problem is simpler than that.'
    }
}

数据字段

  • translation:
    • ro: 罗马尼亚语文本
    • en: 英语文本

数据分割

训练/验证/测试集包含11,498个/3,000个/2,758个句子对。

数据集创建

策划理由

源数据

初始数据收集和规范化

构建数据集的过程中,我们首先使用Google的翻译引擎获得了自动翻译结果,然后由人类志愿者进行人工校对、修正和交叉验证。

源语言制作者是谁?

[需要更多信息]

注释

注释过程注释人员是谁?

个人隐私信息

[需要更多信息]

使用数据的注意事项

数据的社会影响

[需要更多信息]

偏差讨论

[需要更多信息]

其他已知限制

[需要更多信息]

附加信息

数据集策划者

[需要更多信息]

许可信息

CC BY-SA 4.0许可协议

引用信息

@inproceedings{dumitrescu2021liro,
  title={Liro: Benchmark and leaderboard for romanian language tasks},
  author={Dumitrescu, Stefan Daniel and Rebeja, Petru and Lorincz, Beata and Gaman, Mihaela and Avram, Andrei and Ilie, Mihai and Pruteanu, Andrei and Stan, Adriana and Rosia, Lorena and Iacobescu, Cristina and others},
  booktitle={Thirty-fifth Conference on Neural Information Processing Systems Datasets and Benchmarks Track (Round 1)},
  year={2021}
}

贡献

感谢 @lorinczb 添加了这个数据集。