数据集:

ro_sts

任务:

文本分类

子任务:

text-scoring semantic-similarity-scoring

语言:

计算机处理:

monolingual

大小:

1K<n<10K

语言创建人:

crowdsourced

批注创建人:

crowdsourced

源数据集:

extended|other-sts-b

许可:

cc-by-4.0

数据集介绍文件清单

英文

RO-STS 数据集卡片

数据集摘要

我们介绍 RO-STS - 适用于罗马尼亚语的语义文本相似性数据集。它是 STS English dataset 的高质量翻译。RO-STS 包含8,628个句子对及其相似度得分。原始的英语句子是从新闻标题、图片说明和用户论坛中收集而来，并根据这些分类。罗马尼亚发布版本遵循这种分类，并在每个子集中提供相同的训练/验证/测试划分，分别包含5,749个/1,500个/1,379个句子对。

支持的任务和排行榜

[需要更多信息]

语言

文本数据集是用罗马尼亚语（ro）编写的

数据集结构

数据实例

示例如下所示：

{'score': 1.5,
 'sentence1': 'Un bărbat cântă la harpă.',
 'sentence2': 'Un bărbat cântă la claviatură.',
}

数据字段

score: 一个表示语义相似度得分的浮点数，其中0.0是最低得分，5.0是最高得分
sentence1: 表示文本的字符串
sentence2: 要与前面的文本进行比较的另一个字符串

数据划分

训练/验证/测试划分包含5,749个/1,500个/1,379个句子对。

数据集创建

策划理由

[需要更多信息]

源数据

[需要更多信息]

初始数据收集和规范化

*构建数据集时，我们首先使用谷歌的翻译引擎获取自动翻译，然后由人工志愿者进行手动检查、纠正和交叉验证。*

源语言制作者是谁？

[需要更多信息]

注释

注释过程是如何进行的？注释者是谁？

个人和敏感信息

[需要更多信息]

使用数据的注意事项

数据的社会影响

[需要更多信息]

偏见讨论

[需要更多信息]

其他已知限制

[需要更多信息]

其他信息

数据集编辑者

[需要更多信息]

许可信息

CC BY-SA 4.0 许可证

引用信息

@inproceedings{dumitrescu2021liro,
  title={Liro: Benchmark and leaderboard for romanian language tasks},
  author={Dumitrescu, Stefan Daniel and Rebeja, Petru and Lorincz, Beata and Gaman, Mihaela and Avram, Andrei and Ilie, Mihai and Pruteanu, Andrei and Stan, Adriana and Rosia, Lorena and Iacobescu, Cristina and others},
  booktitle={Thirty-fifth Conference on Neural Information Processing Systems Datasets and Benchmarks Track (Round 1)},
  year={2021}
}

贡献者

感谢 @lorinczb 添加了这个数据集。

作者:

佚名

数据集大小:

12.32 KB