数据集:

embedding-data/sentence-compression

英文

Sentence-compression 数据集卡

数据集摘要

数据集包含一对等价句子。该数据集按原样提供,不附带任何明示或暗示的保证。谷歌对因使用该数据集而产生的任何直接或间接损失概不负责。

免责声明:发布 sentence-compression 数据集的团队并未将数据集上传至 Hub,也未撰写数据集卡。这些步骤由 Hugging Face 团队完成。

支持的任务

  • 训练句子相似度模型,用于语义搜索和句子相似性。

语言

  • 英语。

数据集结构

数据集中的每个示例包含一对等价句子,并格式化为一个字典。键 "set" 包含句子列表作为值。

{"set": [sentence_1, sentence_2]}
{"set": [sentence_1, sentence_2]}
...
{"set": [sentence_1, sentence_2]}

该数据集适用于训练句子嵌入模型。请参考以下文章以了解如何使用类似的句子对训练模型。

使用示例

使用 pip install datasets 安装 ? Datasets 库,并使用以下代码从 Hub 加载数据集:

from datasets import load_dataset
dataset = load_dataset("embedding-data/sentence-compression")

数据集以 DatasetDict 形式加载,并具有以下格式:

DatasetDict({
    train: Dataset({
        features: ['set'],
        num_rows: 180000
    })
})

使用以下代码查看示例 i :

dataset["train"][i]["set"]

策划理由

More Information Needed

源数据

数据收集和规范化

More Information Needed

源语言出处是谁?

More Information Needed

注释

注释过程

More Information Needed

注释者是谁?

More Information Needed

个人和敏感信息

More Information Needed

使用数据的注意事项

数据集的社会影响

More Information Needed

偏见讨论

More Information Needed

其他已知限制

More Information Needed

其他信息

数据集维护者

More Information Needed

许可信息

More Information Needed

贡献