数据集:

aadityaubhat/GPT-wiki-intro

英文

GPT Wiki介绍

概述

用于训练模型以区分人类编写和GPT/ChatGPT生成文本的数据集。该数据集包含了15万个主题的维基百科简介和GPT (Curie) 生成的简介。

生成文本所使用的提示

200 word wikipedia style introduction on '{title}'
{starter_text}

其中, title 为维基百科页面的标题, starter_text 为维基百科简介的前七个词。以下是生成“分泌蛋白”的简介段落的示例提示:

'关于分泌蛋白的200字维基百科风格简介

分泌蛋白是指任何蛋白质,无论

GPT模型的配置

model="text-curie-001",
prompt=prompt,
temperature=0.7,
max_tokens=300,
top_p=1,
frequency_penalty=0.4,
presence_penalty=0.1

数据集的结构

Column Datatype Description
id int64 ID
url string Wikipedia URL
title string Title
wiki_intro string Introduction paragraph from wikipedia
generated_intro string Introduction generated by GPT (Curie) model
title_len int64 Number of words in title
wiki_intro_len int64 Number of words in wiki_intro
generated_intro_len int64 Number of words in generated_intro
prompt string Prompt used to generate intro
generated_text string Text continued after the prompt
prompt_tokens int64 Number of tokens in the prompt
generated_text_tokens int64 Number of tokens in generated text

鸣谢

代码

创建此数据集的代码可以在 GitHub

引用

@misc {aaditya_bhat_2023,
    author       = { {Aaditya Bhat} },
    title        = { GPT-wiki-intro (Revision 0e458f5) },
    year         = 2023,
    url          = { https://huggingface.co/datasets/aadityaubhat/GPT-wiki-intro },
    doi          = { 10.57967/hf/0326 },
    publisher    = { Hugging Face }
}