humarin/chatgpt-paraphrases | ATYUN.COM 官网-人工智能教程资讯全方位服务平台

登录注册

资讯

学习

基础知识理论实践学习教程

企业招聘

下载

模型数据集

AI工具箱

企业服务

EVA 智能HR 视频AI

ChatGPT 人工智能应用人工智能未来计算机视觉

热门新闻

行业人工智能

为什么数据污染对LLM来说是一个大问题

机器人康奈尔大学

康奈尔大学推出新的社交机器人，更柔软，更人性化

行业人工智能

所以，能动手就别吵吵了

常用工具

字节跳动旗下团队推出的免费AI英语写作助手

Stable Diffusion

StabilityAI推出的文本到图像生成AI

GitHub AI编程工具

Adobe最新推出的AI图片生成工具

AI艺术和创意辅助平台

您尚未登录账户

请先登录您的atyun账户，方可使用该功能

仅限企业账户使用

该功能仅限企业账号使用，开通企业账号可享受更多服务，是否现在注册企业账号？

立即注册企业账号

暂不需要

您的企业账号申请正在审核中

审核通过后即可使用此功能，请耐心等待~

数据集:

humarin/chatgpt-paraphrases

任务:

语言:

大小:

许可:

数据集介绍文件清单

这是ChatGPT生成的一个同义句数据集。

基于该数据集的模型可用： model

我们使用以下提示生成同义句

为这个问题生成5个类似的同义句，按照编号的方式显示，不包含注释：{text}

这个数据集基于 Quora paraphrase question ，以及 SQUAD 2.0 和 CNN news dataset 中的文本。

对于每个样本，我们生成了5个同义句，总共约有42万行数据。你可以从每个样本的一行中获得30行数据。这样你就可以得到1260万个训练对（420,000行带有5个同义句的数据-> 6x5x420000 = 1260万个双向对或6x5x420000/2 = 630万个唯一对）。

我们使用了

Quora数据集中的247138个问题
Squad 2.0数据集中的91983个文本
CNN新闻数据集中的80076个文本

数据集的结构

text列 - 数据集中的原始句子或问题
paraphrases - 5个同义句的列表
category - 问题/句子
source - quora/squad_2/cnn_news

法律免责声明

数据基于OpenAI的gpt-3.5-turbo，其 terms of use 条款禁止开发与OpenAI竞争的模型。因此，如果您使用此数据集来训练模型，请不要与OpenAI竞争。

BibTeX引用和引文信息

@inproceedings{chatgpt_paraphrases_dataset,
  author={Vladimir Vorobev, Maxim Kuznetsov},
  title={ChatGPT paraphrases dataset},
  year={2023}
}

作者:

humarin

数据集大小:

252.67 MB

相关推荐