数据集:
embedding-data/simple-wiki
该数据集包含从维基百科获取的等价句子对。
数据集中的每个示例包含等价句子对,并格式化为带有键"set"和句子列表作为"value"的字典。
{"set": [sentence_1, sentence_2]} {"set": [sentence_1, sentence_2]} ... {"set": [sentence_1, sentence_2]}
此数据集对于训练句子变换模型非常有用。请参考以下帖子了解如何使用类似的句子进行模型训练。
使用 pip install datasets 安装?数据集库,然后从Hub加载数据集:
from datasets import load_dataset dataset = load_dataset("embedding-data/simple-wiki")
数据集被加载为 DatasetDict 并具有以下格式:
DatasetDict({ train: Dataset({ features: ['set'], num_rows: 102225 }) })
查看示例 i :
dataset["train"][i]["set"]