这是ChatGPT生成的一个同义句数据集。
基于该数据集的模型可用: model
为这个问题生成5个类似的同义句,按照编号的方式显示,不包含注释:{text}
这个数据集基于 Quora paraphrase question ,以及 SQUAD 2.0 和 CNN news dataset 中的文本。
对于每个样本,我们生成了5个同义句,总共约有42万行数据。你可以从每个样本的一行中获得30行数据。这样你就可以得到1260万个训练对(420,000行带有5个同义句的数据-> 6x5x420000 = 1260万个双向对或6x5x420000/2 = 630万个唯一对)。
数据基于OpenAI的gpt-3.5-turbo,其 terms of use 条款禁止开发与OpenAI竞争的模型。因此,如果您使用此数据集来训练模型,请不要与OpenAI竞争。
@inproceedings{chatgpt_paraphrases_dataset, author={Vladimir Vorobev, Maxim Kuznetsov}, title={ChatGPT paraphrases dataset}, year={2023} }