模型:
izumi-lab/electra-small-japanese-fin-discriminator
这是一个在日语文本上进行预训练的模型。
预训练的代码可在 retarfi/language-pretraining 找到。
模型架构与 ELECTRA小型相同,具有 12 层、256 维的隐藏状态和 4 个注意力头。
模型是在日文维基百科上进行训练的。
训练语料库是由日文维基百科的转储文件生成的,截至2021年6月1日。
日文维基百科语料文件大小为2.9GB,包含大约 2000 万个句子。
金融语料包括两个语料库:
从2012年10月9日到2020年12月31日期间的财务摘要
从2018年2月8日到2020年12月31日期间的证券报告
金融语料文件大小为5.2GB,包含大约 2700 万个句子。
文本首先由MeCab使用IPA词典进行分词,然后通过WordPiece算法进行子词划分。
词汇表大小为32768。
模型的训练配置与 ELECTRA小型的配置相同,除了大小之外;每个实例128个标记,每批次128个实例,总共训练100万步。
生成器的大小与鉴别器相同。
@article{Suzuki-etal-2023-ipm, title = {Constructing and analyzing domain-specific language model for financial text mining} author = {Masahiro Suzuki and Hiroki Sakaji and Masanori Hirano and Kiyoshi Izumi}, journal = {Information Processing & Management}, volume = {60}, number = {2}, pages = {103194}, year = {2023}, doi = {10.1016/j.ipm.2022.103194} }
预训练模型按照 Creative Commons Attribution-ShareAlike 4.0 的条款进行分发。
本工作得到了JSPS KAKENHI授予的资助,项目编号为JP21K12010。