数据集:
embedding-data/sentence-compression
数据集包含一对等价句子。该数据集按原样提供,不附带任何明示或暗示的保证。谷歌对因使用该数据集而产生的任何直接或间接损失概不负责。
免责声明:发布 sentence-compression 数据集的团队并未将数据集上传至 Hub,也未撰写数据集卡。这些步骤由 Hugging Face 团队完成。
数据集中的每个示例包含一对等价句子,并格式化为一个字典。键 "set" 包含句子列表作为值。
{"set": [sentence_1, sentence_2]} {"set": [sentence_1, sentence_2]} ... {"set": [sentence_1, sentence_2]}
该数据集适用于训练句子嵌入模型。请参考以下文章以了解如何使用类似的句子对训练模型。
使用 pip install datasets 安装 ? Datasets 库,并使用以下代码从 Hub 加载数据集:
from datasets import load_dataset dataset = load_dataset("embedding-data/sentence-compression")
数据集以 DatasetDict 形式加载,并具有以下格式:
DatasetDict({ train: Dataset({ features: ['set'], num_rows: 180000 }) })
使用以下代码查看示例 i :
dataset["train"][i]["set"]