模型:

naclbit/gpt-j-japanese-6.8b

英文

这个预训练模型是正在进行的工作!模型权重下载将在将来提供。

一个68.7亿参数的日本语预训练模型,基于EleutherAI的Mesh Transformer JAX,具有类似于他们的GPT-J-6B预训练模型的模型结构。

我们使用了T5Tokenizer和SentencePiece而不是GPT-2/3的tokenizer。由于常见符号的变体比西方语言多得多,所以日本语分词必须进行SentencePiece的归一化。

分词器的词汇表由52,500个标记组成,并使用2021年8月1日的日本维基百科转储进行训练。

该模型适用于16GB VRAM的GPU(如P100),可以进行长度为1688的推理。完整的长度为2048的输出需要20GB VRAM或更多(例如GTX3090/A5000)。

该模型在Google TRC慷慨提供的TPUv3-128上进行了约4周的训练。我们目前正在格式化其他数据集并准备进行更多的训练时间。

规格

Hyperparameter Value
n_parameters 6,876,450,080
n_layers 32
d_model 4,096
d_ff 16,384
n_heads 16
d_head 256
n_ctx 2,048
n_vocab 52,512
position encoding 1230321
RoPE dimensions 64

指令

我们建议使用finetuneanon的分支transformer代码库进行推理,因为分割检查点加载速度比HuggingFace Transformers存储库支持的整体检查点要快得多。

分词器仍然将50256用作<|endoftext|>的替代标记。因此,在推理时应该排除50256。

数据集

当我们训练模型时,缺乏高质量的日语语料库是主要挑战之一。我们的目标是在Common Crawl之外收集格式良好的语料库。

数据集经过规范化和清洗,去除了前导和尾随空格,以及过度的CR/LF重复。

整个数据集约为400GB(截至2021年10月),共有106B个标记(相对于The Pile的825GB/300B个标记)。

** Common Crawl

** 图书

  • 140GB网络小说,非小说和博客语料库
  • 5GB书籍和青空文库语料库(加权2倍)

** 新闻

  • 1GB科学新闻,医疗新闻和网络新闻语料库

** 维基百科

  • 2021年8月,3GB各种各样和去重的日语维基百科(加权2倍)
  • 2021年8月,维基教科书,维基新闻,维基语录,维基文库,维基词典,维基学院和维基导游

** 其他语料库