数据集:

humarin/chatgpt-paraphrases

任务:

文生文

语言:

en

大小:

100K<n<1M

许可:

openrail
英文

这是ChatGPT生成的一个同义句数据集。

基于该数据集的模型可用: model

我们使用以下提示生成同义句

为这个问题生成5个类似的同义句,按照编号的方式显示,不包含注释:{text}

这个数据集基于 Quora paraphrase question ,以及 SQUAD 2.0 CNN news dataset 中的文本。

对于每个样本,我们生成了5个同义句,总共约有42万行数据。你可以从每个样本的一行中获得30行数据。这样你就可以得到1260万个训练对(420,000行带有5个同义句的数据-> 6x5x420000 = 1260万个双向对或6x5x420000/2 = 630万个唯一对)。

我们使用了

  • Quora数据集中的247138个问题
  • Squad 2.0数据集中的91983个文本
  • CNN新闻数据集中的80076个文本

数据集的结构

  • text列 - 数据集中的原始句子或问题
  • paraphrases - 5个同义句的列表
  • category - 问题/句子
  • source - quora/squad_2/cnn_news

法律免责声明

数据基于OpenAI的gpt-3.5-turbo,其 terms of use 条款禁止开发与OpenAI竞争的模型。因此,如果您使用此数据集来训练模型,请不要与OpenAI竞争。

BibTeX引用和引文信息

@inproceedings{chatgpt_paraphrases_dataset,
  author={Vladimir Vorobev, Maxim Kuznetsov},
  title={ChatGPT paraphrases dataset},
  year={2023}
}