模型:
izumi-lab/bert-base-japanese-fin-additional
这是一个在日本语言文本上进行预训练的模型。
预训练的代码可在 retarfi/language-pretraining 找到。
模型架构与 BERT small 相同,在 original BERT paper 中;12 层、768 隐藏状态维度和 12 注意力头。
模型还额外训练了来自 Tohoku University's BERT base Japanese model (cl-tohoku/bert-base-japanese) 的金融语料库。
金融语料库包含两个部分:
金融语料库文件中包含约27M个句子。
您可以使用分词器 Tohoku University's BERT base Japanese model (cl-tohoku/bert-base-japanese) 。
您可以使用分词器:
tokenizer = transformers.BertJapaneseTokenizer.from_pretrained('cl-tohoku/bert-base-japanese')
模型的训练配置与 BERT base 相同,在 original BERT paper 中;每个实例512个标记,每个批次256个实例,1M个训练步骤。
@article{Suzuki-etal-2023-ipm, title = {Constructing and analyzing domain-specific language model for financial text mining} author = {Masahiro Suzuki and Hiroki Sakaji and Masanori Hirano and Kiyoshi Izumi}, journal = {Information Processing & Management}, volume = {60}, number = {2}, pages = {103194}, year = {2023}, doi = {10.1016/j.ipm.2022.103194} }
预训练模型按照 Creative Commons Attribution-ShareAlike 4.0 的条款分发。
这项工作得到了JSPS KAKENHI Grant Number JP21K12010和JST-Mirai Program Grant Number JPMJMI20B1的支持。