GPT-J 6B - Janeway

模型描述

GPT-J 6B-Janeway 是使用EleutherAI的GPT-J 6B模型进行微调得到的。

训练数据

训练数据包含大约2210本电子书，主要涵盖科幻和奇幻类别。该数据集基于GPT-Neo-2.7B-Picard使用的相同数据集，其中各种类型的数据增加了20%。数据集的某些部分使用以下文本作为前置文本: [Genre: ,]

如何使用

您可以直接使用该模型进行文本生成。下面的示例每次运行都会生成不同的序列：

>>> from transformers import pipeline
>>> generator = pipeline('text-generation', model='KoboldAI/GPT-J-6B-Janeway')
>>> generator("Welcome Captain Janeway, I apologize for the delay.", do_sample=True, min_length=50)
[{'generated_text': 'Welcome Captain Janeway, I apologize for the delay."\nIt's all right," Janeway said. "I'm certain that you're doing your best to keep me informed of what\'s going on."'}]

限制和偏见

GPT-J 的核心功能是接收一个文本字符串并预测下一个标记。尽管语言模型在许多其他任务中被广泛使用，但仍有许多未知因素。在提示 GPT-J 时，重要的是要记住，从统计上来看，最可能的下一个标记通常不是产生最“准确”文本的标记。不要依赖GPT-J来生成事实准确的输出。

GPT-J 在 Pile 上进行了训练，该数据集已知包含粗言秽语和不友好的语言。根据使用情况，GPT-J 可能会生成社会上不可接受的文本。有关 Pile 偏见的更详细分析，请参见 Sections 5 and 6 of the Pile paper .

与所有语言模型一样，很难预测 GPT-J 对特定提示的响应方式，并且可能会出现冒犯性内容而没有警告。我们建议在发布之前由人工审核或过滤输出内容，这样既可以过滤不良内容，又可以提高结果的质量。

BibTeX 引用和引文信息

该模型使用以下模型作为基础:

@misc{gpt-j,
  author = {Wang, Ben and Komatsuzaki, Aran},
  title = {{GPT-J-6B: A 6 Billion Parameter Autoregressive Language Model}},
  howpublished = {\url{https://github.com/kingoflolz/mesh-transformer-jax}},
  year = 2021,
  month = May
}

致谢

感谢谷歌通过 TPU Research Cloud 慷慨提供计算资源，以及 Cloud TPU 团队提供的 Cloud TPU VM Alpha 的早期访问权限。

作者:

KoboldAI

数据集大小:

11.28 GB