模型:
KoboldAI/GPT-J-6B-Janeway
GPT-J 6B-Janeway 是使用EleutherAI的GPT-J 6B模型进行微调得到的。
训练数据包含大约2210本电子书,主要涵盖科幻和奇幻类别。该数据集基于GPT-Neo-2.7B-Picard使用的相同数据集,其中各种类型的数据增加了20%。数据集的某些部分使用以下文本作为前置文本: [Genre: ,]
您可以直接使用该模型进行文本生成。下面的示例每次运行都会生成不同的序列:
>>> from transformers import pipeline >>> generator = pipeline('text-generation', model='KoboldAI/GPT-J-6B-Janeway') >>> generator("Welcome Captain Janeway, I apologize for the delay.", do_sample=True, min_length=50) [{'generated_text': 'Welcome Captain Janeway, I apologize for the delay."\nIt's all right," Janeway said. "I'm certain that you're doing your best to keep me informed of what\'s going on."'}]
GPT-J 的核心功能是接收一个文本字符串并预测下一个标记。尽管语言模型在许多其他任务中被广泛使用,但仍有许多未知因素。在提示 GPT-J 时,重要的是要记住,从统计上来看,最可能的下一个标记通常不是产生最“准确”文本的标记。不要依赖GPT-J来生成事实准确的输出。
GPT-J 在 Pile 上进行了训练,该数据集已知包含粗言秽语和不友好的语言。根据使用情况,GPT-J 可能会生成社会上不可接受的文本。有关 Pile 偏见的更详细分析,请参见 Sections 5 and 6 of the Pile paper .
与所有语言模型一样,很难预测 GPT-J 对特定提示的响应方式,并且可能会出现冒犯性内容而没有警告。我们建议在发布之前由人工审核或过滤输出内容,这样既可以过滤不良内容,又可以提高结果的质量。
该模型使用以下模型作为基础:
@misc{gpt-j, author = {Wang, Ben and Komatsuzaki, Aran}, title = {{GPT-J-6B: A 6 Billion Parameter Autoregressive Language Model}}, howpublished = {\url{https://github.com/kingoflolz/mesh-transformer-jax}}, year = 2021, month = May }
感谢谷歌通过 TPU Research Cloud 慷慨提供计算资源,以及 Cloud TPU 团队提供的 Cloud TPU VM Alpha 的早期访问权限。