GPT Wiki介绍

概述

用于训练模型以区分人类编写和GPT/ChatGPT生成文本的数据集。该数据集包含了15万个主题的维基百科简介和GPT (Curie) 生成的简介。

生成文本所使用的提示

200 word wikipedia style introduction on '{title}'
{starter_text}

其中， title 为维基百科页面的标题， starter_text 为维基百科简介的前七个词。以下是生成“分泌蛋白”的简介段落的示例提示：

'关于分泌蛋白的200字维基百科风格简介

分泌蛋白是指任何蛋白质，无论

GPT模型的配置

model="text-curie-001",
prompt=prompt,
temperature=0.7,
max_tokens=300,
top_p=1,
frequency_penalty=0.4,
presence_penalty=0.1

数据集的结构

Column	Datatype	Description
id	int64	ID
url	string	Wikipedia URL
title	string	Title
wiki_intro	string	Introduction paragraph from wikipedia
generated_intro	string	Introduction generated by GPT (Curie) model
title_len	int64	Number of words in title
wiki_intro_len	int64	Number of words in wiki_intro
generated_intro_len	int64	Number of words in generated_intro
prompt	string	Prompt used to generate intro
generated_text	string	Text continued after the prompt
prompt_tokens	int64	Number of tokens in the prompt
generated_text_tokens	int64	Number of tokens in generated text

鸣谢

wikipedia dataset

代码

创建此数据集的代码可以在 GitHub

引用

@misc {aaditya_bhat_2023,
    author       = { {Aaditya Bhat} },
    title        = { GPT-wiki-intro (Revision 0e458f5) },
    year         = 2023,
    url          = { https://huggingface.co/datasets/aadityaubhat/GPT-wiki-intro },
    doi          = { 10.57967/hf/0326 },
    publisher    = { Hugging Face }
}

作者:

aadityaubhat

数据集大小:

121.38 MB