数据集:

stsb_mt_sv

英文

Swedish Machine Translated STS-B 数据集卡片

数据集简介

这个数据集是一个用于瑞典语的机器翻译版本的语义文本相似性数据集。

支持的任务和排行榜

这个数据集可以用于评估瑞典语文本相似性。

语言

数据集中的文本为瑞典语。相关的 BCP-47 代码是 sv 。

数据集结构

数据实例

示例数据的格式如下:

{'score': '4.2',
 'sentence1': 'Undrar om jultomten kommer i år pga Corona..?',
 'sentence2': 'Jag undrar om jultomen kommer hit i år med tanke på covid-19',
}

数据字段

  • score :表示语义相似性得分的浮点数。其中 0.0 是最低得分,5.0 是最高得分。
  • sentence1 :表示文本的字符串
  • sentence2 :另一个用于进行语义相似性比较的字符串

数据拆分

数据集被拆分为训练集、验证集和测试集。最终的拆分大小如下:

Train Valid Test
5749 1500 1379

数据集创建

策划理由

[需要更多信息]

源数据

初始数据收集和标准化

[需要更多信息]

谁是源语言的生产者?

[需要更多信息]

注释

注释过程

[需要更多信息]

谁是标注者?

[需要更多信息]

个人和敏感信息

[需要更多信息]

使用数据时的注意事项

数据的社会影响

[需要更多信息]

偏见讨论

[需要更多信息]

其他已知限制

[需要更多信息]

其他信息

数据集策划者

机器翻译版本由 @timpal0l 组合而成

许可信息

[需要更多信息]

引用信息

@article{isbister2020not,
  title={Why Not Simply Translate? A First Swedish Evaluation Benchmark for Semantic Similarity},
  author={Isbister, Tim and Sahlgren, Magnus},
  journal={arXiv preprint arXiv:2009.03116},
  year={2020}
}

贡献者

感谢 @timpal0l 提供此数据集。