模型:
flax-community/gpt-neo-125M-code-clippy-dedup-2048
需要更多信息
该模型可用于文本生成任务
需要更多信息
该模型不应用于故意创建对人不友好或令人疏远的环境。
大量研究探讨了语言模型的偏见和公平性问题(参见,例如, Sheng et al. (2021) 和 Bender et al. (2021) )。模型生成的预测可能包含对受保护类别、身份特征以及敏感、社会和职业群体的令人不安和有害的刻板印象。
模型创建者在GitHub Repo中指出( https://github.com/CodedotAl/gpt-code-clippy ):
问题:数据集中的错误文件名 我们最近发现了一个在数据集抓取过程中出现的错误。我们发现文件名已经过时/误导。[参见此处 issue ]我们感谢Naman指出了这个问题。这可能有两个影响: - 由于训练数据集的筛选是使用文件扩展名进行的,因此在训练时可能会有错误的数据点,并且可能会错过许多属于所选语言的正确数据点。
模型创建者在GitHub Repo中指出( https://github.com/CodedotAl/gpt-code-clippy ):
对CodeClippy数据集进行GPTNeo-125M的微调时,我们使用了AdamW优化器(beta1=0.9,beta2=0.95),采用了类似GPT3的学习率计划(4k预热步骤从0到5e-5,然后是50k余弦衰减步骤到5e-6),权重衰减为0.1,批量大小为1024,序列长度为2048。
需要更多信息
模型创建者在GitHub Repo中指出( https://github.com/CodedotAl/gpt-code-clippy ):
对CodeClippy数据集上的GPTNeo-125M进行微调时,我们使用了AdamW优化器(beta1=0.9,beta2=0.95),采用了类似GPT3的学习率计划(4k预热步骤从0到5e-5,然后是50k余弦衰减步骤到5e-6),权重衰减为0.1,批量大小为1024,序列长度为2048。选择相对较大的批量大小、较低的学习率和较长的预热步骤是为了避免过度更新,并保留预训练的GPTNeo权重中所包含的知识。
模型创建者在GitHub Repo中指出( https://github.com/CodedotAl/gpt-code-clippy ):
模型还在 APPS 和 HumanEval 数据集上进行了评估。
需要更多信息
需要更多信息
Model | pass@1 | pass@2 | pass@5 | pass@10 |
---|---|---|---|---|
gpt-neo-125M-apps | 0.06% | 0.12% | 0.30% | 0.61% |
需要更多信息
可以使用 Machine Learning Impact calculator 中提供的 Lacoste et al. (2019) 来估算碳排放量。
GPTNeoForCausalLM
需要更多信息
需要更多信息
需要更多信息
BibTeX:需要更多信息
APA:需要更多信息
需要更多信息
需要更多信息
Flax社区与Ezi Ozoani和Hugging Face团队合作
需要更多信息
使用下面的代码来开始使用模型。
点击展开from transformers import AutoTokenizer, AutoModelForCausalLM tokenizer = AutoTokenizer.from_pretrained("flax-community/gpt-neo-125M-code-clippy-dedup-2048") model = AutoModelForCausalLM.from_pretrained("flax-community/gpt-neo-125M-code-clippy-dedup-2048")