模型:

flax-community/gpt-neo-125M-code-clippy-dedup-2048

英文

gpt-neo-125M-code-clippy-dedup-2048 模型卡

模型详情

模型描述

需要更多信息

  • 开发者:Flax社区
  • 共享者[可选]:Hugging Face
  • 模型类型:文本生成
  • 语言(NLP):需要更多信息
  • 许可证:需要更多信息
  • 相关模型:
    • 父模型:GPT-Neo
  • 更多信息资源:

用途

直接应用

该模型可用于文本生成任务

下游应用[可选]

需要更多信息

不适用领域

该模型不应用于故意创建对人不友好或令人疏远的环境。

偏见、风险和局限性

大量研究探讨了语言模型的偏见和公平性问题(参见,例如, Sheng et al. (2021) Bender et al. (2021) )。模型生成的预测可能包含对受保护类别、身份特征以及敏感、社会和职业群体的令人不安和有害的刻板印象。

建议

模型创建者在GitHub Repo中指出( https://github.com/CodedotAl/gpt-code-clippy ):

问题:数据集中的错误文件名 我们最近发现了一个在数据集抓取过程中出现的错误。我们发现文件名已经过时/误导。[参见此处 issue ]我们感谢Naman指出了这个问题。这可能有两个影响: - 由于训练数据集的筛选是使用文件扩展名进行的,因此在训练时可能会有错误的数据点,并且可能会错过许多属于所选语言的正确数据点。

训练详情

训练数据

模型创建者在GitHub Repo中指出( https://github.com/CodedotAl/gpt-code-clippy ):

对CodeClippy数据集进行GPTNeo-125M的微调时,我们使用了AdamW优化器(beta1=0.9,beta2=0.95),采用了类似GPT3的学习率计划(4k预热步骤从0到5e-5,然后是50k余弦衰减步骤到5e-6),权重衰减为0.1,批量大小为1024,序列长度为2048。

训练过程

预处理

需要更多信息

速度、大小、时间

模型创建者在GitHub Repo中指出( https://github.com/CodedotAl/gpt-code-clippy ):

对CodeClippy数据集上的GPTNeo-125M进行微调时,我们使用了AdamW优化器(beta1=0.9,beta2=0.95),采用了类似GPT3的学习率计划(4k预热步骤从0到5e-5,然后是50k余弦衰减步骤到5e-6),权重衰减为0.1,批量大小为1024,序列长度为2048。选择相对较大的批量大小、较低的学习率和较长的预热步骤是为了避免过度更新,并保留预训练的GPTNeo权重中所包含的知识。

评估

测试数据、因素和指标

测试数据

模型创建者在GitHub Repo中指出( https://github.com/CodedotAl/gpt-code-clippy ):

模型还在 APPS HumanEval 数据集上进行了评估。

因素

需要更多信息

指标

需要更多信息

结果

Model pass@1 pass@2 pass@5 pass@10
gpt-neo-125M-apps 0.06% 0.12% 0.30% 0.61%

模型检查

需要更多信息

环境影响

可以使用 Machine Learning Impact calculator 中提供的 Lacoste et al. (2019) 来估算碳排放量。

  • 硬件类型:需要更多信息
  • 使用时间:需要更多信息
  • 云服务提供商:需要更多信息
  • 计算地区:需要更多信息
  • 排放的碳量:需要更多信息

技术规格[可选]

模型架构和目标

GPTNeoForCausalLM

计算基础设施

需要更多信息

硬件

需要更多信息

软件

需要更多信息

引用

BibTeX:需要更多信息

APA:需要更多信息

术语表[可选]

需要更多信息

更多信息[可选]

需要更多信息

模型卡作者[可选]

Flax社区与Ezi Ozoani和Hugging Face团队合作

模型卡联系方式

需要更多信息

如何开始使用模型

使用下面的代码来开始使用模型。

点击展开
from transformers import AutoTokenizer, AutoModelForCausalLM
 
tokenizer = AutoTokenizer.from_pretrained("flax-community/gpt-neo-125M-code-clippy-dedup-2048")
 
model = AutoModelForCausalLM.from_pretrained("flax-community/gpt-neo-125M-code-clippy-dedup-2048")