数据集:

embedding-data/simple-wiki

任务:

句子相似度

子任务:

semantic-similarity-classification

语言:

许可:

mit

数据集介绍文件清单

英文

"simple-wiki" 数据集卡片

数据集简介

该数据集包含从维基百科获取的等价句子对。

支持的任务

Sentence Transformers 训练; 适用于语义搜索和句子相似度。

语言

英语。

数据集结构

数据集中的每个示例包含等价句子对，并格式化为带有键"set"和句子列表作为"value"的字典。

{"set": [sentence_1, sentence_2]}
{"set": [sentence_1, sentence_2]}
...
{"set": [sentence_1, sentence_2]}

此数据集对于训练句子变换模型非常有用。请参考以下帖子了解如何使用类似的句子进行模型训练。

使用示例

使用 pip install datasets 安装?数据集库，然后从Hub加载数据集:

from datasets import load_dataset
dataset = load_dataset("embedding-data/simple-wiki")

数据集被加载为 DatasetDict 并具有以下格式：

DatasetDict({
    train: Dataset({
        features: ['set'],
        num_rows: 102225
    })
})

查看示例 i ：

dataset["train"][i]["set"]

策划理由

More Information Needed

源数据

初始数据收集和规范化

More Information Needed

谁是源语言的制作人？

More Information Needed

标注

注释过程

More Information Needed

谁是标注者？

More Information Needed

个人和敏感信息

More Information Needed

使用数据的注意事项

其他信息

数据集策划人

More Information Needed

许可信息

More Information Needed

贡献

作者:

embedding-data

数据集大小:

8.17 MB

"simple-wiki" 数据集卡片

数据集简介

支持的任务

语言

数据集结构

使用示例

策划理由

源数据

标注

个人和敏感信息

使用数据的注意事项

数据集的社会影响

偏见讨论

其他已知限制

其他信息

数据集策划人

许可信息

贡献