模型:
naclbit/gpt-j-japanese-6.8b
这个预训练模型是正在进行的工作!模型权重下载将在将来提供。
一个68.7亿参数的日本语预训练模型,基于EleutherAI的Mesh Transformer JAX,具有类似于他们的GPT-J-6B预训练模型的模型结构。
我们使用了T5Tokenizer和SentencePiece而不是GPT-2/3的tokenizer。由于常见符号的变体比西方语言多得多,所以日本语分词必须进行SentencePiece的归一化。
分词器的词汇表由52,500个标记组成,并使用2021年8月1日的日本维基百科转储进行训练。
该模型适用于16GB VRAM的GPU(如P100),可以进行长度为1688的推理。完整的长度为2048的输出需要20GB VRAM或更多(例如GTX3090/A5000)。
该模型在Google TRC慷慨提供的TPUv3-128上进行了约4周的训练。我们目前正在格式化其他数据集并准备进行更多的训练时间。
Hyperparameter | Value |
---|---|
n_parameters | 6,876,450,080 |
n_layers | 32 |
d_model | 4,096 |
d_ff | 16,384 |
n_heads | 16 |
d_head | 256 |
n_ctx | 2,048 |
n_vocab | 52,512 |
position encoding | 1230321 |
RoPE dimensions | 64 |
我们建议使用finetuneanon的分支transformer代码库进行推理,因为分割检查点加载速度比HuggingFace Transformers存储库支持的整体检查点要快得多。
分词器仍然将50256用作<|endoftext|>的替代标记。因此,在推理时应该排除50256。
当我们训练模型时,缺乏高质量的日语语料库是主要挑战之一。我们的目标是在Common Crawl之外收集格式良好的语料库。
数据集经过规范化和清洗,去除了前导和尾随空格,以及过度的CR/LF重复。
整个数据集约为400GB(截至2021年10月),共有106B个标记(相对于The Pile的825GB/300B个标记)。
** Common Crawl
** 图书
** 新闻
** 维基百科
** 其他语料库