TurkuNLP/bert-base-finnish-uncased-v1 | ATYUN.COM 官网-人工智能教程资讯全方位服务平台

模型:

TurkuNLP/bert-base-finnish-uncased-v1

任务:

填充掩码

类库:

PyTorch TensorFlow JAX Transformers

语言:

其他:

bert AutoTrain Compatible

预印本库:

arxiv:1912.07076 arxiv:1908.04212

模型介绍文件清单

英文

快速入门

发布版本 1.0（2019年11月25日）

在此处下载模型：

Cased Finnish BERT Base: bert-base-finnish-cased-v1.zip
Uncased Finnish BERT Base: bert-base-finnish-uncased-v1.zip

通常建议使用大小写敏感的模型。

介绍芬兰文 BERT 的论文： arXiv:1912.07076

这是什么？

芬兰文版 Google BERT 深度迁移学习模型的一个版本。该模型可以进行微调，以实现各种芬兰自然语言处理任务的最先进结果。

FinBERT 使用了一个自定义的50,000个单词块词汇表，其对芬兰词汇的覆盖率比之前发布的 Google multilingual BERT 模型要好得多。

Vocabulary	Example
FinBERT	Suomessa vaihtuu kesän aikana sekä pääministeri että valtiovarain ##ministeri .
Multilingual BERT	Suomessa vai ##htuu kes ##än aikana sekä p ##ää ##minister ##i että valt ##io ##vara ##in ##minister ##i .

FinBERT 在过去十年的 30 亿个标记（24B 字符）的芬兰文本数据上进行了100万步的预训练，这些文本数据来自新闻、在线讨论和互联网抓取。相比之下，多语 BERT 是在维基百科文本上进行的训练，而芬兰语维基百科的文本量约为用于训练 FinBERT 的文本量的3%。

这些特点使 FinBERT 不仅能够超越多语 BERT，在进行芬兰自然语言处理任务的微调时，也能超越所有先前提出的模型。

结果

文件分类

在 Yle 新闻（左）和 Ylilauta 在线讨论（右）语料库上，FinBERT 在文档分类方面的性能优于多语 BERT（M-BERT）的一系列训练集大小。（标准分类性能与 FastText 作为参考。）

[ code ] [ Yle data ] [ Ylilauta data ]

命名实体识别

FiNER 语料库评估（ Ruokolainen et al 2019 ）

Model	Accuracy
FinBERT	92.40%
Multilingual BERT	90.29%
12311321 (rule-based)	86.82%

（FiNER 标签器结果来自 Ruokolainen et al. 2019 ）

[ code ] [ data ]

词性标注

在带有 Universal Dependencies 词性标签的三个芬兰文语料库（Turku 依赖树库、FinnTreeBank 和平行 UD 树库）上进行评估

Model	TDT	FTB	PUD
FinBERT	98.23%	98.39%	98.08%
Multilingual BERT	96.97%	95.87%	97.58%

[ code ] [ data ]

使用 PyTorch

如果想要使用 huggingface/transformers 库与此模型进行配合，可按照 huggingface_transformers.md 中的步骤进行操作。

之前的版本

发布版本 0.2

2019年10月24日从头开始训练的 BERT 基础无大小写版本的测试版，用于训练芬兰新闻、在线讨论和抓取数据的语料库。

在此处下载模型： bert-base-finnish-uncased.zip

发布版本 0.1

2019年9月30日我们发布一个从头开始训练的 BERT 基础大写版本的测试版，用于训练芬兰新闻、在线讨论和抓取数据的语料库。

在此处下载模型： bert-base-finnish-cased.zip

作者:

TurkuNLP Research Group

数据集大小:

1.54 GB