数据集:
ro_sts_parallel
任务:
翻译计算机处理:
multilingual大小:
10K<n<100K语言创建人:
crowdsourced批注创建人:
crowdsourced源数据集:
extended|other-sts-b许可:
cc-by-4.0我们介绍RO-STS-Parallel - 通过将数据集翻译成罗马尼亚语得到的一份罗马尼亚语-英语平行数据集。它包含17256个句子的罗马尼亚语和英语对。
[需要更多信息]
文本数据集为罗马尼亚语和英语(ro, en)
一个例子如下:
{ 'translation': { 'ro': 'Problema e si mai simpla.', 'en': 'The problem is simpler than that.' } }
训练/验证/测试集包含11,498个/3,000个/2,758个句子对。
构建数据集的过程中,我们首先使用Google的翻译引擎获得了自动翻译结果,然后由人类志愿者进行人工校对、修正和交叉验证。
源语言制作者是谁?[需要更多信息]
[需要更多信息]
[需要更多信息]
[需要更多信息]
[需要更多信息]
[需要更多信息]
CC BY-SA 4.0许可协议
@inproceedings{dumitrescu2021liro, title={Liro: Benchmark and leaderboard for romanian language tasks}, author={Dumitrescu, Stefan Daniel and Rebeja, Petru and Lorincz, Beata and Gaman, Mihaela and Avram, Andrei and Ilie, Mihai and Pruteanu, Andrei and Stan, Adriana and Rosia, Lorena and Iacobescu, Cristina and others}, booktitle={Thirty-fifth Conference on Neural Information Processing Systems Datasets and Benchmarks Track (Round 1)}, year={2021} }
感谢 @lorinczb 添加了这个数据集。