模型:

flax-community/gpt-neo-125M-code-clippy-dedup-2048

任务:

文本生成

类库:

PyTorch JAX TensorBoard Transformers

其他:

gpt_neo flax

预印本库:

arxiv:1910.09700

模型介绍文件清单

英文

gpt-neo-125M-code-clippy-dedup-2048 模型卡

模型详情

模型描述

需要更多信息

开发者：Flax社区
共享者[可选]：Hugging Face
模型类型：文本生成
语言(NLP)：需要更多信息
许可证：需要更多信息
相关模型：
- 父模型：GPT-Neo
更多信息资源：
- GitHub Repo

用途

直接应用

该模型可用于文本生成任务

下游应用[可选]

需要更多信息

不适用领域

该模型不应用于故意创建对人不友好或令人疏远的环境。

偏见、风险和局限性

大量研究探讨了语言模型的偏见和公平性问题(参见，例如， Sheng et al. (2021) 和 Bender et al. (2021) )。模型生成的预测可能包含对受保护类别、身份特征以及敏感、社会和职业群体的令人不安和有害的刻板印象。

建议

模型创建者在GitHub Repo中指出( https://github.com/CodedotAl/gpt-code-clippy ):

问题：数据集中的错误文件名我们最近发现了一个在数据集抓取过程中出现的错误。我们发现文件名已经过时/误导。[参见此处 issue ]我们感谢Naman指出了这个问题。这可能有两个影响： - 由于训练数据集的筛选是使用文件扩展名进行的，因此在训练时可能会有错误的数据点，并且可能会错过许多属于所选语言的正确数据点。

训练详情

训练数据

模型创建者在GitHub Repo中指出( https://github.com/CodedotAl/gpt-code-clippy ):

对CodeClippy数据集进行GPTNeo-125M的微调时，我们使用了AdamW优化器(beta1=0.9，beta2=0.95)，采用了类似GPT3的学习率计划（4k预热步骤从0到5e-5，然后是50k余弦衰减步骤到5e-6），权重衰减为0.1，批量大小为1024，序列长度为2048。

训练过程

预处理

需要更多信息

速度、大小、时间

模型创建者在GitHub Repo中指出( https://github.com/CodedotAl/gpt-code-clippy ):

对CodeClippy数据集上的GPTNeo-125M进行微调时，我们使用了AdamW优化器(beta1=0.9，beta2=0.95)，采用了类似GPT3的学习率计划（4k预热步骤从0到5e-5，然后是50k余弦衰减步骤到5e-6），权重衰减为0.1，批量大小为1024，序列长度为2048。选择相对较大的批量大小、较低的学习率和较长的预热步骤是为了避免过度更新，并保留预训练的GPTNeo权重中所包含的知识。

评估

测试数据、因素和指标

测试数据

模型创建者在GitHub Repo中指出( https://github.com/CodedotAl/gpt-code-clippy ):

模型还在 APPS 和 HumanEval 数据集上进行了评估。

因素

需要更多信息

指标

需要更多信息

结果

Model	pass@1	pass@2	pass@5	pass@10
gpt-neo-125M-apps	0.06%	0.12%	0.30%	0.61%

模型检查

需要更多信息

环境影响

可以使用 Machine Learning Impact calculator 中提供的 Lacoste et al. (2019) 来估算碳排放量。

硬件类型：需要更多信息
使用时间：需要更多信息
云服务提供商：需要更多信息
计算地区：需要更多信息
排放的碳量：需要更多信息

技术规格[可选]

模型架构和目标

GPTNeoForCausalLM

计算基础设施

需要更多信息

硬件

需要更多信息

软件

需要更多信息

引用

BibTeX：需要更多信息

APA：需要更多信息

术语表[可选]

需要更多信息

模型卡作者[可选]

Flax社区与Ezi Ozoani和Hugging Face团队合作

模型卡联系方式

需要更多信息

如何开始使用模型

使用下面的代码来开始使用模型。

点击展开

from transformers import AutoTokenizer, AutoModelForCausalLM
 
tokenizer = AutoTokenizer.from_pretrained("flax-community/gpt-neo-125M-code-clippy-dedup-2048")
 
model = AutoModelForCausalLM.from_pretrained("flax-community/gpt-neo-125M-code-clippy-dedup-2048")

作者:

Flax Community

数据集大小:

1003.47 MB

gpt-neo-125M-code-clippy-dedup-2048 模型卡

模型详情

模型描述

用途

直接应用

下游应用[可选]

不适用领域

偏见、风险和局限性

建议

训练详情

训练数据

训练过程

预处理

速度、大小、时间

评估

测试数据、因素和指标

测试数据

因素

指标

结果

模型检查

环境影响

技术规格[可选]

模型架构和目标

计算基础设施

硬件

软件

引用

术语表[可选]

更多信息[可选]

模型卡作者[可选]

模型卡联系方式

如何开始使用模型