数据集:
stsb_mt_sv
任务:
文本分类语言:
sv计算机处理:
monolingual大小:
1K<n<10K批注创建人:
crowdsourced源数据集:
extended|other-sts-b预印本库:
arxiv:2009.03116许可:
license:unknown这个数据集是一个用于瑞典语的机器翻译版本的语义文本相似性数据集。
这个数据集可以用于评估瑞典语文本相似性。
数据集中的文本为瑞典语。相关的 BCP-47 代码是 sv 。
示例数据的格式如下:
{'score': '4.2', 'sentence1': 'Undrar om jultomten kommer i år pga Corona..?', 'sentence2': 'Jag undrar om jultomen kommer hit i år med tanke på covid-19', }
数据集被拆分为训练集、验证集和测试集。最终的拆分大小如下:
Train | Valid | Test |
---|---|---|
5749 | 1500 | 1379 |
[需要更多信息]
[需要更多信息]
谁是源语言的生产者?[需要更多信息]
[需要更多信息]
谁是标注者?[需要更多信息]
[需要更多信息]
[需要更多信息]
[需要更多信息]
[需要更多信息]
机器翻译版本由 @timpal0l 组合而成
[需要更多信息]
@article{isbister2020not, title={Why Not Simply Translate? A First Swedish Evaluation Benchmark for Semantic Similarity}, author={Isbister, Tim and Sahlgren, Magnus}, journal={arXiv preprint arXiv:2009.03116}, year={2020} }
感谢 @timpal0l 提供此数据集。