用于训练模型以区分人类编写和GPT/ChatGPT生成文本的数据集。该数据集包含了15万个主题的维基百科简介和GPT (Curie) 生成的简介。
生成文本所使用的提示
200 word wikipedia style introduction on '{title}' {starter_text}
其中, title 为维基百科页面的标题, starter_text 为维基百科简介的前七个词。以下是生成“分泌蛋白”的简介段落的示例提示:
'关于分泌蛋白的200字维基百科风格简介
分泌蛋白是指任何蛋白质,无论
GPT模型的配置
model="text-curie-001", prompt=prompt, temperature=0.7, max_tokens=300, top_p=1, frequency_penalty=0.4, presence_penalty=0.1
数据集的结构
Column | Datatype | Description |
---|---|---|
id | int64 | ID |
url | string | Wikipedia URL |
title | string | Title |
wiki_intro | string | Introduction paragraph from wikipedia |
generated_intro | string | Introduction generated by GPT (Curie) model |
title_len | int64 | Number of words in title |
wiki_intro_len | int64 | Number of words in wiki_intro |
generated_intro_len | int64 | Number of words in generated_intro |
prompt | string | Prompt used to generate intro |
generated_text | string | Text continued after the prompt |
prompt_tokens | int64 | Number of tokens in the prompt |
generated_text_tokens | int64 | Number of tokens in generated text |
创建此数据集的代码可以在 GitHub
@misc {aaditya_bhat_2023, author = { {Aaditya Bhat} }, title = { GPT-wiki-intro (Revision 0e458f5) }, year = 2023, url = { https://huggingface.co/datasets/aadityaubhat/GPT-wiki-intro }, doi = { 10.57967/hf/0326 }, publisher = { Hugging Face } }