英文

GPT-Neo 罗马尼亚语 780M

这个模型是由 EleutherAI 复制 GPT-3 架构而设计的 GPT-Neo 变压器解码器模型。

它是使用约 40GB 的经过彻底清理的罗马尼亚文本语料库进行训练的,包括 Oscar、Opus、维基百科、文学作品和其他一些碎片文本,并进行了拼接和去重。它在 v3-32 TPU 机器上进行了约一个月的训练,总共进行了 1.5M 步。

作者:

  • Dumitrescu Stefan
  • Mihai Ilie

评估

评估结果很快将被添加,也会在 https://github.com/dumitrescustefan/Romanian-Transformers 上进行测试。

鸣谢

感谢 TPU Research Cloud 提供了训练此模型所需的 TPUv3 机器!