数据集:
embedding-data/Amazon-QA
此数据集包含来自亚马逊的问题和回答数据。
免责声明:发布 Amazon-QA 数据集的团队没有将数据集上传到 Hub,也没有编写数据集卡片。这些步骤由 Hugging Face 团队完成。
数据集中的每个示例都包含查询和回答句子的对,并以字典格式进行了格式化:
{"query": [sentence_1], "pos": [sentence_2]} {"query": [sentence_1], "pos": [sentence_2]} ... {"query": [sentence_1], "pos": [sentence_2]}
此数据集对于训练句子转换模型非常有用。请参阅以下帖子,了解如何使用类似的句子训练模型。
使用 pip install datasets 安装 ? Datasets 库,然后从 Hub 加载数据集:
from datasets import load_dataset dataset = load_dataset("embedding-data/Amazon-QA")
数据集加载为 DatasetDict 并具有以下格式:
DatasetDict({ train: Dataset({ features: ['query', 'pos'], num_rows: 1095290 }) })
使用以下方式查看示例 i:
dataset["train"][0]