数据集:
ro_sts
任务:
文本分类语言:
ro计算机处理:
monolingual大小:
1K<n<10K语言创建人:
crowdsourced批注创建人:
crowdsourced源数据集:
extended|other-sts-b许可:
cc-by-4.0我们介绍 RO-STS - 适用于罗马尼亚语的语义文本相似性数据集。它是 STS English dataset 的高质量翻译。RO-STS 包含8,628个句子对及其相似度得分。原始的英语句子是从新闻标题、图片说明和用户论坛中收集而来,并根据这些分类。罗马尼亚发布版本遵循这种分类,并在每个子集中提供相同的训练/验证/测试划分,分别包含5,749个/1,500个/1,379个句子对。
[需要更多信息]
文本数据集是用罗马尼亚语(ro)编写的
示例如下所示:
{'score': 1.5, 'sentence1': 'Un bărbat cântă la harpă.', 'sentence2': 'Un bărbat cântă la claviatură.', }
训练/验证/测试划分包含5,749个/1,500个/1,379个句子对。
[需要更多信息]
[需要更多信息]
初始数据收集和规范化*构建数据集时,我们首先使用谷歌的翻译引擎获取自动翻译,然后由人工志愿者进行手动检查、纠正和交叉验证。*
源语言制作者是谁?[需要更多信息]
[需要更多信息]
[需要更多信息]
[需要更多信息]
[需要更多信息]
[需要更多信息]
CC BY-SA 4.0 许可证
@inproceedings{dumitrescu2021liro, title={Liro: Benchmark and leaderboard for romanian language tasks}, author={Dumitrescu, Stefan Daniel and Rebeja, Petru and Lorincz, Beata and Gaman, Mihaela and Avram, Andrei and Ilie, Mihai and Pruteanu, Andrei and Stan, Adriana and Rosia, Lorena and Iacobescu, Cristina and others}, booktitle={Thirty-fifth Conference on Neural Information Processing Systems Datasets and Benchmarks Track (Round 1)}, year={2021} }
感谢 @lorinczb 添加了这个数据集。