模型:

izumi-lab/bert-base-japanese-fin-additional

英文

额外的预训练BERT base日本金融模型

这是一个在日本语言文本上进行预训练的模型。

预训练的代码可在 retarfi/language-pretraining 找到。

模型架构

模型架构与 BERT small 相同,在 original BERT paper 中;12 层、768 隐藏状态维度和 12 注意力头。

训练数据

模型还额外训练了来自 Tohoku University's BERT base Japanese model (cl-tohoku/bert-base-japanese) 的金融语料库。

金融语料库包含两个部分:

  • 2012年10月9日至2020年12月31日的财务结果摘要
  • 2018年2月8日至2020年12月31日的证券报告

金融语料库文件中包含约27M个句子。

分词

您可以使用分词器 Tohoku University's BERT base Japanese model (cl-tohoku/bert-base-japanese)

您可以使用分词器:

tokenizer = transformers.BertJapaneseTokenizer.from_pretrained('cl-tohoku/bert-base-japanese')

训练

模型的训练配置与 BERT base 相同,在 original BERT paper 中;每个实例512个标记,每个批次256个实例,1M个训练步骤。

引用

@article{Suzuki-etal-2023-ipm,
  title = {Constructing and analyzing domain-specific language model for financial text mining}
  author = {Masahiro Suzuki and Hiroki Sakaji and Masanori Hirano and Kiyoshi Izumi},
  journal = {Information Processing & Management},
  volume = {60},
  number = {2},
  pages = {103194},
  year = {2023},
  doi = {10.1016/j.ipm.2022.103194}
}

许可证

预训练模型按照 Creative Commons Attribution-ShareAlike 4.0 的条款分发。

致谢

这项工作得到了JSPS KAKENHI Grant Number JP21K12010和JST-Mirai Program Grant Number JPMJMI20B1的支持。