模型:

izumi-lab/electra-small-japanese-fin-discriminator

英文

ELECTRA小型日本金融鉴别器

这是一个在日语文本上进行预训练的模型。

预训练的代码可在 retarfi/language-pretraining 找到。

模型架构

模型架构与 ELECTRA小型相同,具有 12 层、256 维的隐藏状态和 4 个注意力头。

训练数据

模型是在日文维基百科上进行训练的。

训练语料库是由日文维基百科的转储文件生成的,截至2021年6月1日。

日文维基百科语料文件大小为2.9GB,包含大约 2000 万个句子。

金融语料包括两个语料库:

  • 从2012年10月9日到2020年12月31日期间的财务摘要

  • 从2018年2月8日到2020年12月31日期间的证券报告

金融语料文件大小为5.2GB,包含大约 2700 万个句子。

分词

文本首先由MeCab使用IPA词典进行分词,然后通过WordPiece算法进行子词划分。

词汇表大小为32768。

训练

模型的训练配置与 ELECTRA小型的配置相同,除了大小之外;每个实例128个标记,每批次128个实例,总共训练100万步。

生成器的大小与鉴别器相同。

引用

@article{Suzuki-etal-2023-ipm,
  title = {Constructing and analyzing domain-specific language model for financial text mining}
  author = {Masahiro Suzuki and Hiroki Sakaji and Masanori Hirano and Kiyoshi Izumi},
  journal = {Information Processing & Management},
  volume = {60},
  number = {2},
  pages = {103194},
  year = {2023},
  doi = {10.1016/j.ipm.2022.103194}
}

许可证

预训练模型按照 Creative Commons Attribution-ShareAlike 4.0 的条款进行分发。

致谢

本工作得到了JSPS KAKENHI授予的资助,项目编号为JP21K12010。