模型:

dbmdz/bert-medium-historic-multilingual-cased

任务:

填充掩码

类库:

PyTorch TensorFlow TensorBoard Transformers

语言:

multilingual

其他:

bert AutoTrain Compatible

预印本库:

arxiv:1908.08962

许可:

mit

模型介绍文件清单

英文

历史语言模型（HLMs）

语言

我们的历史语言模型库提供对以下语言的支持-包括它们的训练数据来源：

Language	Training data	Size
German	1234321	13-28GB (filtered)
French	1234321	11-31GB (filtered)
English	1236321	24GB (year filtered)
Finnish	1234321	1.2GB
Swedish	1234321	1.1GB

模型

目前，在模型库中提供以下模型：

Model identifier	Model Hub link
dbmdz/bert-base-historic-multilingual-cased	1239321
dbmdz/bert-base-historic-english-cased	12310321
dbmdz/bert-base-finnish-europeana-cased	12311321
dbmdz/bert-base-swedish-europeana-cased	12312321

我们还发布了多语言模型的较小模型：

Model identifier	Model Hub link
dbmdz/bert-tiny-historic-multilingual-cased	12313321
dbmdz/bert-mini-historic-multilingual-cased	12314321
dbmdz/bert-small-historic-multilingual-cased	12315321
dbmdz/bert-medium-historic-multilingual-cased	1239321

注意：我们之前发布了基于嘈杂数据训练的历史德语和法语语言模型-有关详细信息，请参阅 this repo ：

Model identifier	Model Hub link
dbmdz/bert-base-german-europeana-cased	12318321
dbmdz/bert-base-french-europeana-cased	12319321

文集统计

德语Europeana文集

我们使用不同的OCR置信度阈值提供一些统计数据，以缩小文集大小并使用较少噪声的数据：

OCR confidence	Size
0.60	28GB
0.65	18GB
0.70	13GB

对于最终文集，我们使用OCR置信度为0.6（28GB）。以下图表显示了每年的标记分布：

法语Europeana文集

与德语一样，我们使用不同的OCR置信度阈值：

OCR confidence	Size
0.60	31GB
0.65	27GB
0.70	27GB
0.75	23GB
0.80	11GB

对于最终文集，我们使用OCR置信度0.7（27GB）。以下图表显示了每年的标记分布：

英国图书馆文集

元数据来自 here 。包括年份过滤的统计数据：

Years	Size
ALL	24GB
>= 1800 && < 1900	24GB

我们使用经过年份过滤的变体。以下图表显示了每年的标记分布：

芬兰Europeana文集

OCR confidence	Size
0.60	1.2GB

以下图表显示了每年的标记分布：

瑞典Europeana文集

OCR confidence	Size
0.60	1.1GB

以下图表显示了每年的标记分布：

所有文集

以下图表显示了完整训练文集的每年标记分布：

多语言词汇生成

首次尝试时，我们使用每个预训练文集的前10GB。我们将芬兰语和瑞典语上采样到约10GB。以下表格显示了用于生成32k和64k子词词汇表的确切大小：

Language	Size
German	10GB
French	10GB
English	10GB
Finnish	9.5GB
Swedish	9.7GB

然后，我们计算以下NER语料库中的子词生育率和[UNK]比例：

Language	NER corpora
German	CLEF-HIPE, NewsEye
French	CLEF-HIPE, NewsEye
English	CLEF-HIPE
Finnish	NewsEye
Swedish	NewsEye

32k词汇表每种语言的子词生育率和未知部分的详细情况如下：

Language	Subword fertility	Unknown portion
German	1.43	0.0004
French	1.25	0.0001
English	1.25	0.0
Finnish	1.69	0.0007
Swedish	1.43	0.0

64k词汇表每种语言的子词生育率和未知部分的详细情况如下：

Language	Subword fertility	Unknown portion
German	1.31	0.0004
French	1.16	0.0001
English	1.17	0.0
Finnish	1.54	0.0007
Swedish	1.32	0.0

最终预训练文集

我们将瑞典语和芬兰语上采样到约27GB。可以在此处查看所有预训练文集的最终统计数据：

Language	Size
German	28GB
French	27GB
English	24GB
Finnish	27GB
Swedish	27GB

总大小为130GB。

较小的多语言模型

受 "Well-Read Students Learn Better: On the Importance of Pre-training Compact Models" 论文的启发，我们训练较小的模型（不同层数和隐藏大小），并报告参数数量和预训练成本：

Model (Layer / Hidden size)	Parameters	Pre-Training time
hmBERT Tiny ( 2/128)	4.58M	4.3 sec / 1,000 steps
hmBERT Mini ( 4/256)	11.55M	10.5 sec / 1,000 steps
hmBERT Small ( 4/512)	29.52M	20.7 sec / 1,000 steps
hmBERT Medium ( 8/512)	42.13M	35.0 sec / 1,000 steps
hmBERT Base (12/768)	110.62M	80.0 sec / 1,000 steps

然后，在多语言 NewsEye 数据集上进行下游评估：

预训练

多语言模型-hmBERT Base

我们使用32k词汇表和官方BERT实现在v3-32 TPU上训练了一个多语言BERT模型，使用以下参数：

python3 run_pretraining.py --input_file gs://histolectra/historic-multilingual-tfrecords/*.tfrecord \
--output_dir gs://histolectra/bert-base-historic-multilingual-cased \
--bert_config_file ./config.json \
--max_seq_length=512 \
--max_predictions_per_seq=75 \
--do_train=True \
--train_batch_size=128 \
--num_train_steps=3000000 \
--learning_rate=1e-4 \
--save_checkpoints_steps=100000 \
--keep_checkpoint_max=20 \
--use_tpu=True \
--tpu_name=electra-2 \
--num_tpu_cores=32

以下图表显示了预训练损失曲线：

较小的多语言模型

我们使用用于训练基础模型的相同参数。

hmBERT Tiny

以下图表显示了微小模型的预训练损失曲线：

hmBERT Mini

以下图表显示了迷你模型的预训练损失曲线：

hmBERT Small

以下图表显示了小型模型的预训练损失曲线：

hmBERT Medium

以下图表显示了中型模型的预训练损失曲线：

英语模型

英语BERT模型-使用来自英国图书馆文集的文本-使用Hugging Face JAX/FLAX实现，在v3-8 TPU上进行了10个时期（约1M步）的训练，使用以下命令：

python3 run_mlm_flax.py --model_type bert \
--config_name /mnt/datasets/bert-base-historic-english-cased/ \
--tokenizer_name /mnt/datasets/bert-base-historic-english-cased/ \
--train_file /mnt/datasets/bl-corpus/bl_1800-1900_extracted.txt \
--validation_file /mnt/datasets/bl-corpus/english_validation.txt \
--max_seq_length 512 \
--per_device_train_batch_size 16 \
--learning_rate 1e-4 \
--num_train_epochs 10 \
--preprocessing_num_workers 96 \
--output_dir /mnt/datasets/bert-base-historic-english-cased-512-noadafactor-10e \
--save_steps 2500 \
--eval_steps 2500 \
--warmup_steps 10000 \
--line_by_line \
--pad_to_max_length

以下图表显示了预训练损失曲线：

芬兰模型

使用来自芬兰部分Europana的文本，使用Hugging Face JAX/FLAX实现进行了40个时期（约1M步）的训练，使用以下命令：

python3 run_mlm_flax.py --model_type bert \
--config_name /mnt/datasets/bert-base-finnish-europeana-cased/ \
--tokenizer_name /mnt/datasets/bert-base-finnish-europeana-cased/ \
--train_file /mnt/datasets/hlms/extracted_content_Finnish_0.6.txt \
--validation_file /mnt/datasets/hlms/finnish_validation.txt \
--max_seq_length 512 \
--per_device_train_batch_size 16 \
--learning_rate 1e-4 \
--num_train_epochs 40 \
--preprocessing_num_workers 96 \
--output_dir /mnt/datasets/bert-base-finnish-europeana-cased-512-dupe1-noadafactor-40e \
--save_steps 2500 \
--eval_steps 2500 \
--warmup_steps 10000 \
--line_by_line \
--pad_to_max_length

以下图表显示了预训练损失曲线：

瑞典模型

使用来自瑞典部分Europana的文本，使用Hugging Face JAX/FLAX实现进行了40个时期（约660K步）的训练，使用以下命令：

python3 run_mlm_flax.py --model_type bert \
--config_name /mnt/datasets/bert-base-swedish-europeana-cased/ \
--tokenizer_name /mnt/datasets/bert-base-swedish-europeana-cased/ \
--train_file /mnt/datasets/hlms/extracted_content_Swedish_0.6.txt \
--validation_file /mnt/datasets/hlms/swedish_validation.txt \
--max_seq_length 512 \
--per_device_train_batch_size 16 \
--learning_rate 1e-4 \
--num_train_epochs 40 \
--preprocessing_num_workers 96 \
--output_dir /mnt/datasets/bert-base-swedish-europeana-cased-512-dupe1-noadafactor-40e \
--save_steps 2500 \
--eval_steps 2500 \
--warmup_steps 10000 \
--line_by_line \
--pad_to_max_length

以下图表显示了预训练损失曲线：

致谢

研究得到了Google TPU研究云（TRC）计划的云TPUs的支持，之前被称为TensorFlow研究云（TFRC）。非常感谢提供TRC访问权限的支持❤️

感谢 Hugging Face 团队的慷慨支持，可以从其S3存储中下载大小写模型🤗

作者:

Bayerische Staatsbibliothek

数据集大小:

887.11 MB