发布版本 1.0(2019年11月25日)
在此处下载模型:
通常建议使用大小写敏感的模型。
介绍芬兰文 BERT 的论文: arXiv:1912.07076
芬兰文版 Google BERT 深度迁移学习模型的一个版本。该模型可以进行微调,以实现各种芬兰自然语言处理任务的最先进结果。
FinBERT 使用了一个自定义的50,000个单词块词汇表,其对芬兰词汇的覆盖率比之前发布的 Google multilingual BERT 模型要好得多。
Vocabulary | Example |
---|---|
FinBERT | Suomessa vaihtuu kesän aikana sekä pääministeri että valtiovarain ##ministeri . |
Multilingual BERT | Suomessa vai ##htuu kes ##än aikana sekä p ##ää ##minister ##i että valt ##io ##vara ##in ##minister ##i . |
FinBERT 在过去十年的 30 亿个标记(24B 字符)的芬兰文本数据上进行了100万步的预训练,这些文本数据来自新闻、在线讨论和互联网抓取。相比之下,多语 BERT 是在维基百科文本上进行的训练,而芬兰语维基百科的文本量约为用于训练 FinBERT 的文本量的3%。
这些特点使 FinBERT 不仅能够超越多语 BERT,在进行芬兰自然语言处理任务的微调时,也能超越所有先前提出的模型。
在 Yle 新闻(左)和 Ylilauta 在线讨论(右)语料库上,FinBERT 在文档分类方面的性能优于多语 BERT(M-BERT)的一系列训练集大小。(标准分类性能与 FastText 作为参考。)
[ code ] [ Yle data ] [ Ylilauta data ]
FiNER 语料库评估( Ruokolainen et al 2019 )
Model | Accuracy |
---|---|
FinBERT | 92.40% |
Multilingual BERT | 90.29% |
12311321 (rule-based) | 86.82% |
(FiNER 标签器结果来自 Ruokolainen et al. 2019 )
在带有 Universal Dependencies 词性标签的三个芬兰文语料库(Turku 依赖树库、FinnTreeBank 和平行 UD 树库)上进行评估
Model | TDT | FTB | PUD |
---|---|---|---|
FinBERT | 98.23% | 98.39% | 98.08% |
Multilingual BERT | 96.97% | 95.87% | 97.58% |
如果想要使用 huggingface/transformers 库与此模型进行配合,可按照 huggingface_transformers.md 中的步骤进行操作。
2019年10月24日 从头开始训练的 BERT 基础无大小写版本的测试版,用于训练芬兰新闻、在线讨论和抓取数据的语料库。
在此处下载模型: bert-base-finnish-uncased.zip
2019年9月30日 我们发布一个从头开始训练的 BERT 基础大写版本的测试版,用于训练芬兰新闻、在线讨论和抓取数据的语料库。
在此处下载模型: bert-base-finnish-cased.zip