模型:

TehVenom/Dolly_Shygmalion-6b-Dev_V8P2

任务:

文本生成

类库:

PyTorch Transformers

语言:

其他:

gptj

许可:

apache-2.0

模型介绍文件清单

英文

GPT-J 6B - Dolly_Shygmalion-6b-Dev_V8P2混合模型

模型描述

这是一个合并模型，使用加权参数混合策略，比例为（20:20:60），分别对应以下模型：

[20%] - KoboldAI/GPT-J-6B-Shinen: https://huggingface.co/KoboldAI/GPT-J-6B-Shinen
[20%] - databricks/dolly-v1-6b: https://huggingface.co/databricks/dolly-v1-6b
[60%] - Pygmalion/Pygmalion-6b DEV (V8 / Part 2): https://huggingface.co/Pygmalion/Pygmalion-6b

由各自的作者提供。

警告：由于基础模型（主要为 Pygmalion/Pygmalion-6b V8P2 ）是在一般用户日志和互联网档案上训练的，Dolly_Shygmalion-6b-Dev_V8P2可能会生成NSFW或不适当的内容。

预期使用方式：

仅限研究目的，旨在负责任地使用。用自然语言表达对话，Dolly_Shygmalion将以对话格式继续进行。尝试生成一个两行提示，例如：

Bot: "Hello, how are you?"
You: "I am doing just fine, thank you."

或任何其他主题，模型将以此问答的方式进行回应。

信息：

要了解更多详情，请查看相关源模型，特别是 Pygmalion/Pygmalion-6b V8P2 ，以获取有关使用期望的聊天机器人格式的更多信息。

与微调类似，合并权重不会增加信息，但会对其进行转换，因此需要考虑权衡。Dolly_Shygmalion-6b-Dev_V8P2结合了Dolly-GPT-J、Shinen-6b和Pygmalion-6b V8P2，这三个模型使用简单的加权参数方法进行了两步融合过程

(X*A + Y*B)

这里X和Y是模型权重，A和B是它们在最终值中的强度表示。这样做的目的是通过借鉴每个基础模型中强烈代表的方面来提升最终模型，但也可能削弱每个模型的其他方面，这在基础模型存在问题时是可取的。

混合过程使用FP32进行，输出以FP16保存以减少存储需求。

限制和偏见

基于已知的自然语言处理技术问题，潜在的相关因素包括偏见（性别、职业、种族和宗教）。

警告：该模型具有中等程度的NSFW偏见。

版权

BibTeX引用和引文信息

@misc{gpt-j,
  author = {Wang, Ben and Komatsuzaki, Aran},
  title = {{GPT-J-6B: A 6 Billion Parameter Autoregressive Language Model}},
  howpublished = {\url{https://github.com/kingoflolz/mesh-transformer-jax}},
  year = 2021,
  month = May
}

致谢：

涉及的模型：

平均权重混合脚本由Concedo提供：

https://huggingface.co/concedo

GPT-J 6B - Dolly_Shygmalion-6b-Dev_V8P2混合模型

模型描述

预期使用方式：

信息：

限制和偏见

版权

BibTeX引用和引文信息

致谢：

相关数据集和文章：