数据集:

embedding-data/simple-wiki

英文

"simple-wiki" 数据集卡片

数据集简介

该数据集包含从维基百科获取的等价句子对。

支持的任务

语言

  • 英语。

数据集结构

数据集中的每个示例包含等价句子对,并格式化为带有键"set"和句子列表作为"value"的字典。

{"set": [sentence_1, sentence_2]}
{"set": [sentence_1, sentence_2]}
...
{"set": [sentence_1, sentence_2]}

此数据集对于训练句子变换模型非常有用。请参考以下帖子了解如何使用类似的句子进行模型训练。

使用示例

使用 pip install datasets 安装?数据集库,然后从Hub加载数据集:

from datasets import load_dataset
dataset = load_dataset("embedding-data/simple-wiki")

数据集被加载为 DatasetDict 并具有以下格式:

DatasetDict({
    train: Dataset({
        features: ['set'],
        num_rows: 102225
    })
})

查看示例 i :

dataset["train"][i]["set"]

策划理由

More Information Needed

源数据

初始数据收集和规范化

More Information Needed

谁是源语言的制作人?

More Information Needed

标注

注释过程

More Information Needed

谁是标注者?

More Information Needed

个人和敏感信息

More Information Needed

使用数据的注意事项

数据集的社会影响

More Information Needed

偏见讨论

More Information Needed

其他已知限制

More Information Needed

其他信息

数据集策划人

More Information Needed

许可信息

More Information Needed

贡献