模型:

colorfulscoop/bert-base-ja

英文

BERT基础日语模型

该存储库包含在日语维基百科数据集上训练的BERT基础模型。

训练数据

用于训练的数据集是截至2021年6月20日的 Japanese Wikipedia 数据集,该数据集是在 Creative Commons Attribution-ShareAlike 3.0 下发布的。该数据集被分成了三个子集 - 训练集、验证集和测试集。令牌化器和模型都是使用训练集进行训练的。

模型描述

模型架构与BERT基础模型相同(hidden_size: 768, num_hidden_layers: 12, num_attention_heads: 12, max_position_embeddings: 512),只是词汇量大小有所不同。词汇量大小设定为32,000而不是原始的30,522。

对于模型,使用transformers.BertForPreTraining。

令牌化器描述

使用 SentencePiece 令牌化器作为此模型的令牌化器。

在训练过程中,令牌化器模型使用从训练集中提取的1,000,000个样本进行训练。词汇表大小设定为32,000。设置add_dummy_prefix选项为True,因为日语中的单词没有用空格分隔。

训练后,模型被导入到transformers.DebertaV2Tokenizer中,因为它支持SentencePiece模型,并且当设置use_fast选项为True或False时,它的行为是一致的。

注意:这里"一致"的含义如下。例如,AlbertTokenizer提供AlbertTokenizer和AlbertTokenizerFast。快速模型是默认使用的。然而,它们之间的分词行为是不同的,而这个模型期望的行为是非快速版本的。虽然可以通过将use_fast=False选项传递给AutoTokenizer或pipeline来解决此问题,强制使用非快速版本的分词器,但无法将此选项传递给config.json或model card。因此,在使用推断API时会发生意外的行为。为了避免此类问题,在此模型中使用transformers.DebertaV2Tokenizer。

训练

训练细节如下。

  • 每256个样本进行一次梯度更新(批量大小:8,累积梯度批次:32)
  • 梯度裁剪范数为1.0
  • 学习率从0开始,线性增加到0.0001,前10,000步
  • 训练集包含约20M个样本。因为80k * 256〜20M,1个epoch大约有80k个步骤。

训练是在带有一颗RTX 2080 Ti的Ubuntu 18.04.5 LTS上进行的。

训练一直进行,直到验证损失变差。总共训练步骤约为214k。测试集损失为2.80。

训练代码可在 a GitHub repository 中找到。

用法

首先,安装依赖项。

$ pip install torch==1.8.0 transformers==4.8.2 sentencepiece==0.1.95

然后使用transformers.pipeline来尝试遮罩填充任务。

>>> import transformers
>>> pipeline = transformers.pipeline("fill-mask", "colorfulscoop/bert-base-ja", revision="v1.0")
>>> pipeline("専門として[MASK]を専攻しています")
[{'sequence': '専門として工学を専攻しています', 'score': 0.03630176931619644, 'token': 3988, 'token_str': '工学'}, {'sequence': '専門として政治学を専攻しています', 'score': 0.03547220677137375, 'token': 22307, 'token_str': '政治学'}, {'sequence': '専門として教育を専攻しています', 'score': 0.03162326663732529, 'token': 414, 'token_str': '教育'}, {'sequence': '専門として経済学を専攻しています', 'score': 0.026036914438009262, 'token': 6814, 'token_str': '経済学'}, {'sequence': '専門として法学を専攻しています', 'score': 0.02561848610639572, 'token': 10810, 'token_str': '法学'}]

注意:建议在通过transformers.pipeline或transformers.AutoModel.from_pretrained下载模型时指定revision选项,以保持可复现性。

许可

版权所有(c)2021年Colorful Scoop

此存储库中包含的所有模型都在 Creative Commons Attribution-ShareAlike 3.0 下获得许可。

免责声明:本模型有可能生成类似的训练数据文本、不真实的文本或带有偏见的文本。使用本模型需自担风险。Colorful Scoop对模型的任何输出不提供任何保证或担保。Colorful Scoop不对模型输出而引起的任何问题、损失或损害承担任何责任。

本模型利用以下数据作为训练数据