模型:

colorfulscoop/bert-base-ja

任务:

填充掩码

类库:

PyTorch TensorFlow Transformers

数据集:

wikipedia 3Awikipedia

语言:

其他:

bert pretraining

许可:

cc-by-sa-4.0

模型介绍文件清单

英文

BERT基础日语模型

该存储库包含在日语维基百科数据集上训练的BERT基础模型。

训练数据

用于训练的数据集是截至2021年6月20日的 Japanese Wikipedia 数据集，该数据集是在 Creative Commons Attribution-ShareAlike 3.0 下发布的。该数据集被分成了三个子集 - 训练集、验证集和测试集。令牌化器和模型都是使用训练集进行训练的。

模型描述

模型架构与BERT基础模型相同（hidden_size: 768, num_hidden_layers: 12, num_attention_heads: 12, max_position_embeddings: 512），只是词汇量大小有所不同。词汇量大小设定为32,000而不是原始的30,522。

对于模型，使用transformers.BertForPreTraining。

令牌化器描述

使用 SentencePiece 令牌化器作为此模型的令牌化器。

在训练过程中，令牌化器模型使用从训练集中提取的1,000,000个样本进行训练。词汇表大小设定为32,000。设置add_dummy_prefix选项为True，因为日语中的单词没有用空格分隔。

训练后，模型被导入到transformers.DebertaV2Tokenizer中，因为它支持SentencePiece模型，并且当设置use_fast选项为True或False时，它的行为是一致的。

注意：这里"一致"的含义如下。例如，AlbertTokenizer提供AlbertTokenizer和AlbertTokenizerFast。快速模型是默认使用的。然而，它们之间的分词行为是不同的，而这个模型期望的行为是非快速版本的。虽然可以通过将use_fast=False选项传递给AutoTokenizer或pipeline来解决此问题，强制使用非快速版本的分词器，但无法将此选项传递给config.json或model card。因此，在使用推断API时会发生意外的行为。为了避免此类问题，在此模型中使用transformers.DebertaV2Tokenizer。

训练

训练细节如下。

每256个样本进行一次梯度更新（批量大小：8，累积梯度批次：32）
梯度裁剪范数为1.0
学习率从0开始，线性增加到0.0001，前10,000步
训练集包含约20M个样本。因为80k * 256〜20M，1个epoch大约有80k个步骤。

训练是在带有一颗RTX 2080 Ti的Ubuntu 18.04.5 LTS上进行的。

训练一直进行，直到验证损失变差。总共训练步骤约为214k。测试集损失为2.80。

训练代码可在 a GitHub repository 中找到。

用法

首先，安装依赖项。

$ pip install torch==1.8.0 transformers==4.8.2 sentencepiece==0.1.95

然后使用transformers.pipeline来尝试遮罩填充任务。

>>> import transformers
>>> pipeline = transformers.pipeline("fill-mask", "colorfulscoop/bert-base-ja", revision="v1.0")
>>> pipeline("専門として[MASK]を専攻しています")
[{'sequence': '専門として工学を専攻しています', 'score': 0.03630176931619644, 'token': 3988, 'token_str': '工学'}, {'sequence': '専門として政治学を専攻しています', 'score': 0.03547220677137375, 'token': 22307, 'token_str': '政治学'}, {'sequence': '専門として教育を専攻しています', 'score': 0.03162326663732529, 'token': 414, 'token_str': '教育'}, {'sequence': '専門として経済学を専攻しています', 'score': 0.026036914438009262, 'token': 6814, 'token_str': '経済学'}, {'sequence': '専門として法学を専攻しています', 'score': 0.02561848610639572, 'token': 10810, 'token_str': '法学'}]

注意：建议在通过transformers.pipeline或transformers.AutoModel.from_pretrained下载模型时指定revision选项，以保持可复现性。

许可

此存储库中包含的所有模型都在 Creative Commons Attribution-ShareAlike 3.0 下获得许可。

免责声明：本模型有可能生成类似的训练数据文本、不真实的文本或带有偏见的文本。使用本模型需自担风险。Colorful Scoop对模型的任何输出不提供任何保证或担保。Colorful Scoop不对模型输出而引起的任何问题、损失或损害承担任何责任。

本模型利用以下数据作为训练数据

名称：ウィキペディア（Wikipedia）：フリー百科事典
信用： https://ja.wikipedia.org/
许可证： Creative Commons Attribution-ShareAlike 3.0
链接： https://ja.wikipedia.org/

作者:

Colorful Scoop

数据集大小:

945.11 MB