模型:

TurkuNLP/bert-base-finnish-uncased-v1

英文

快速入门

发布版本 1.0(2019年11月25日)

在此处下载模型:

通常建议使用大小写敏感的模型。

介绍芬兰文 BERT 的论文: arXiv:1912.07076

这是什么?

芬兰文版 Google BERT 深度迁移学习模型的一个版本。该模型可以进行微调,以实现各种芬兰自然语言处理任务的最先进结果。

FinBERT 使用了一个自定义的50,000个单词块词汇表,其对芬兰词汇的覆盖率比之前发布的 Google multilingual BERT 模型要好得多。

Vocabulary Example
FinBERT Suomessa vaihtuu kesän aikana sekä pääministeri että valtiovarain ##ministeri .
Multilingual BERT Suomessa vai ##htuu kes ##än aikana sekä p ##ää ##minister ##i että valt ##io ##vara ##in ##minister ##i .

FinBERT 在过去十年的 30 亿个标记(24B 字符)的芬兰文本数据上进行了100万步的预训练,这些文本数据来自新闻、在线讨论和互联网抓取。相比之下,多语 BERT 是在维基百科文本上进行的训练,而芬兰语维基百科的文本量约为用于训练 FinBERT 的文本量的3%。

这些特点使 FinBERT 不仅能够超越多语 BERT,在进行芬兰自然语言处理任务的微调时,也能超越所有先前提出的模型。

结果

文件分类

在 Yle 新闻(左)和 Ylilauta 在线讨论(右)语料库上,FinBERT 在文档分类方面的性能优于多语 BERT(M-BERT)的一系列训练集大小。(标准分类性能与 FastText 作为参考。)

[ code ] [ Yle data ] [ Ylilauta data ]

命名实体识别

FiNER 语料库评估( Ruokolainen et al 2019

Model Accuracy
FinBERT 92.40%
Multilingual BERT 90.29%
12311321 (rule-based) 86.82%

(FiNER 标签器结果来自 Ruokolainen et al. 2019

[ code ] [ data ]

词性标注

在带有 Universal Dependencies 词性标签的三个芬兰文语料库(Turku 依赖树库、FinnTreeBank 和平行 UD 树库)上进行评估

Model TDT FTB PUD
FinBERT 98.23% 98.39% 98.08%
Multilingual BERT 96.97% 95.87% 97.58%

[ code ] [ data ]

使用 PyTorch

如果想要使用 huggingface/transformers 库与此模型进行配合,可按照 huggingface_transformers.md 中的步骤进行操作。

之前的版本

发布版本 0.2

2019年10月24日 从头开始训练的 BERT 基础无大小写版本的测试版,用于训练芬兰新闻、在线讨论和抓取数据的语料库。

在此处下载模型: bert-base-finnish-uncased.zip

发布版本 0.1

2019年9月30日 我们发布一个从头开始训练的 BERT 基础大写版本的测试版,用于训练芬兰新闻、在线讨论和抓取数据的语料库。

在此处下载模型: bert-base-finnish-cased.zip