模型:

Maltehb/aelaectra-danish-electra-small-cased-ner-dane

任务:

标记分类

类库:

PyTorch TensorFlow Transformers

数据集:

DAGW 3ADAGW

语言:

其他:

electra ælæctra danish ELECTRA-Small replaced token detection AutoTrain Compatible replaced+token+detection

预印本库:

arxiv:2003.10555 arxiv:1810.04805 arxiv:2005.03521

许可:

mit

模型介绍文件清单

英文

Ælæctra - Hvingelby等人（2020）指定的 DaNE dataset 上的命名实体识别的微调开发的by Malte Højmark-Bertelsen。

Ælæctra是一个丹麦基于Transformer的语言模型，旨在通过与以前的最先进（SOTA）模型相比更高效的模型，增强丹麦自然语言处理资源的多样性。

Ælæctra使用Danish Gigaword Corpus (Strømberg-Derczynski et al., 2020)进行ELECTRA-Small (Clark et al., 2020)的预训练方法进行预训练，并在命名实体识别（NER）任务上进行了评估。由于NER只提供了对Ælæctra能力的有限了解，我非常有兴趣进行进一步的评估。因此，如果您在任何任务中使用它，请随时与我分享您的发现！

Ælæctra正如前面提到的，被创建以增强丹麦的自然语言处理能力，请注意，此GitHub仓库仍不支持丹麦字符“Æ、Ø和Å”，因此此代码库的标题变成“-l-ctra”。多么讽刺。?

这是如何加载finetuned Ælæctra-cased模型进行 PyTorch 上的命名实体识别的示例，使用了 ?Transformers 库：

from transformers import AutoTokenizer, AutoModelForTokenClassification

tokenizer = AutoTokenizer.from_pretrained("Maltehb/-l-ctra-danish-electra-small-cased-ner-dane")
model = AutoModelForTokenClassification.from_pretrained("Maltehb/-l-ctra-danish-electra-small-cased-ner-dane")

目前丹麦语言模型的评估

Ælæctra、丹麦BERT（DaBERT）和多语言BERT（mBERT）进行了评估：

Model	Layers	Hidden Size	Params	AVG NER micro-f1 (DaNE-testset)	Average Inference Time (Sec/Epoch)	Download
Ælæctra Uncased	12	256	13.7M	78.03 (SD = 1.28)	10.91	1234321
Ælæctra Cased	12	256	14.7M	80.08 (SD = 0.26)	10.92	1234321
DaBERT	12	768	110M	84.89 (SD = 0.64)	43.03	1236321
mBERT Uncased	12	768	167M	80.44 (SD = 0.82)	72.10	1237321
mBERT Cased	12	768	177M	83.79 (SD = 0.91)	70.56	1238321

在 DaNE （Hvingelby等人，2020）上，除了MISC标签外，Ælæctra的分数略低于大小写敏感和不敏感的多语言BERT（Devlin等人，2019）和丹麦BERT（Danish BERT, 2019/2020），但Ælæctra的大小不到它们的三分之一，并且使用了更少的计算资源进行预训练和实例化。

预训练

要预训Ælæctra，建议从 Dockerfile 构建Docker容器。然后，只需按照 pretraining notebooks

预训练使用了由丹麦数据公司 KMD 提供的16 GiB的单个NVIDIA Tesla V100 GPU进行，对于大小写敏感和不敏感的模型，预训练大约需要4天9小时。

微调

要微调任何Ælæctra模型，请按照 fine-tuning notebooks

参考文献

Clark, K., Luong, M.-T., Le, Q. V., & Manning, C. D.（2020）。ELECTRA: Pre-training Text Encoders as Discriminators Rather Than Generators。arXiv:2003.10555 [Cs]. http://arxiv.org/abs/2003.10555

Danish BERT.（2020）。BotXO. https://github.com/botxo/nordic_bert （原始作品发表于2019年）

Devlin, J., Chang, M.-W., Lee, K., & Toutanova, K.（2019）。BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding。arXiv:1810.04805 [Cs]. http://arxiv.org/abs/1810.04805

Hvingelby, R., Pauli, A. B., Barrett, M., Rosted, C., Lidegaard, L. M., & Søgaard, A.（2020）。DaNE: A Named Entity Resource for Danish。Proceedings of the 12th Language Resources and Evaluation Conference, 4597-4604. https://www.aclweb.org/anthology/2020.lrec-1.565

Strømberg-Derczynski, L., Baglini, R., Christiansen, M. H., Ciosici, M. R., Dalsgaard, J. A., Fusaroli, R., Henrichsen, P. J., Hvingelby, R., Kirkedal, A., Kjeldsen, A. S., Ladefoged, C., Nielsen, F. Å., Petersen, M. L., Rystrøm, J. H., & Varab, D. (2020)。The Danish Gigaword Project。arXiv:2005.03521 [Cs]. http://arxiv.org/abs/2005.03521

致谢

由于这个仓库的大部分是基于由Google团队创建的ELECTRA的 the works 来构建的，因此非常感谢他们。

非常感谢收集丹麦吉加禾语料库（Strømberg-Derczynski等人，2020）的杰出人物。

此外，我要感谢我的导师 Riccardo Fusaroli 在论文方面的支持，特别感谢 Kenneth Enevoldsen 他一直给予的反馈。

最后，我要感谢KMD、来自KMD的同事以及认知科学的同龄人和同学们，他们鼓励我继续努力并坚持高昂的斗志！

联系

如需帮助或更多信息，请随时通过hjb@kmd.dk与作者Malte Højmark-Bertelsen联系，或通过以下平台之一联系：

作者:

Malte Højmark-Bertelsen

数据集大小:

104.92 MB