模型:
AlexWortega/taskGPT2-xl-v0.2a
我在text2code、cot、math和FLAN任务上对GPT2进行了微调,在某些任务中表现优于GPT-JT
from transformers import pipeline pipe = pipeline(model='AlexWortega/taskGPT2-xl') pipe('''"I love this!" Is it positive? A:''')
或者
from transformers import AutoTokenizer, AutoModelForCausalLM tokenizer = AutoTokenizer.from_pretrained("taskGPT2-xl") model = AutoModelForCausalLM.from_pretrained("taskGPT2-xl")
taskGPT2-xl 的权重采用 Apache 许可证的 2.0 版本。
我使用了 huggingface 的数据集:
我使用了 Novograd 优化器,学习率为 2e-5,全局批量大小为 6(每个数据并行 worker 为 3)。我同时使用数据并行和流水线并行进行训练。在训练过程中,我将输入序列截断为 512 个标记,对于包含少于 512 个标记的输入序列,我将多个序列连接成一个长序列,以提高数据利用效率。
#Metrics
即将推出
@article{ title={GPT2xl is underrated task solver}, author={Nickolich Aleksandr, Karina Romanova, Arseniy Shahmatov, Maksim Gersimenko}, year={2023} }