模型:
Maltehb/aelaectra-danish-electra-small-cased-ner-dane
Ælæctra是一个丹麦基于Transformer的语言模型,旨在通过与以前的最先进(SOTA)模型相比更高效的模型,增强丹麦自然语言处理资源的多样性。
Ælæctra使用Danish Gigaword Corpus (Strømberg-Derczynski et al., 2020)进行ELECTRA-Small (Clark et al., 2020)的预训练方法进行预训练,并在命名实体识别(NER)任务上进行了评估。由于NER只提供了对Ælæctra能力的有限了解,我非常有兴趣进行进一步的评估。因此,如果您在任何任务中使用它,请随时与我分享您的发现!
Ælæctra正如前面提到的,被创建以增强丹麦的自然语言处理能力,请注意,此GitHub仓库仍不支持丹麦字符“Æ、Ø和Å”,因此此代码库的标题变成“-l-ctra”。多么讽刺。?
这是如何加载finetuned Ælæctra-cased模型进行 PyTorch 上的命名实体识别的示例,使用了 ?Transformers 库:
from transformers import AutoTokenizer, AutoModelForTokenClassification tokenizer = AutoTokenizer.from_pretrained("Maltehb/-l-ctra-danish-electra-small-cased-ner-dane") model = AutoModelForTokenClassification.from_pretrained("Maltehb/-l-ctra-danish-electra-small-cased-ner-dane")
Ælæctra、丹麦BERT(DaBERT)和多语言BERT(mBERT)进行了评估:
Model | Layers | Hidden Size | Params | AVG NER micro-f1 (DaNE-testset) | Average Inference Time (Sec/Epoch) | Download |
---|---|---|---|---|---|---|
Ælæctra Uncased | 12 | 256 | 13.7M | 78.03 (SD = 1.28) | 10.91 | 1234321 |
Ælæctra Cased | 12 | 256 | 14.7M | 80.08 (SD = 0.26) | 10.92 | 1234321 |
DaBERT | 12 | 768 | 110M | 84.89 (SD = 0.64) | 43.03 | 1236321 |
mBERT Uncased | 12 | 768 | 167M | 80.44 (SD = 0.82) | 72.10 | 1237321 |
mBERT Cased | 12 | 768 | 177M | 83.79 (SD = 0.91) | 70.56 | 1238321 |
在 DaNE (Hvingelby等人,2020)上,除了MISC标签外,Ælæctra的分数略低于大小写敏感和不敏感的多语言BERT(Devlin等人,2019)和丹麦BERT(Danish BERT, 2019/2020),但Ælæctra的大小不到它们的三分之一,并且使用了更少的计算资源进行预训练和实例化。
要预训Ælæctra,建议从 Dockerfile 构建Docker容器。然后,只需按照 pretraining notebooks
预训练使用了由丹麦数据公司 KMD 提供的16 GiB的单个NVIDIA Tesla V100 GPU进行,对于大小写敏感和不敏感的模型,预训练大约需要4天9小时。
要微调任何Ælæctra模型,请按照 fine-tuning notebooks
Clark, K., Luong, M.-T., Le, Q. V., & Manning, C. D.(2020)。ELECTRA: Pre-training Text Encoders as Discriminators Rather Than Generators。arXiv:2003.10555 [Cs]. http://arxiv.org/abs/2003.10555
Danish BERT.(2020)。BotXO. https://github.com/botxo/nordic_bert (原始作品发表于2019年)
Devlin, J., Chang, M.-W., Lee, K., & Toutanova, K.(2019)。BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding。arXiv:1810.04805 [Cs]. http://arxiv.org/abs/1810.04805
Hvingelby, R., Pauli, A. B., Barrett, M., Rosted, C., Lidegaard, L. M., & Søgaard, A.(2020)。DaNE: A Named Entity Resource for Danish。Proceedings of the 12th Language Resources and Evaluation Conference, 4597-4604. https://www.aclweb.org/anthology/2020.lrec-1.565
Strømberg-Derczynski, L., Baglini, R., Christiansen, M. H., Ciosici, M. R., Dalsgaard, J. A., Fusaroli, R., Henrichsen, P. J., Hvingelby, R., Kirkedal, A., Kjeldsen, A. S., Ladefoged, C., Nielsen, F. Å., Petersen, M. L., Rystrøm, J. H., & Varab, D. (2020)。The Danish Gigaword Project。arXiv:2005.03521 [Cs]. http://arxiv.org/abs/2005.03521
致谢由于这个仓库的大部分是基于由Google团队创建的ELECTRA的 the works 来构建的,因此非常感谢他们。
非常感谢收集丹麦吉加禾语料库(Strømberg-Derczynski等人,2020)的杰出人物。
此外,我要感谢我的导师 Riccardo Fusaroli 在论文方面的支持,特别感谢 Kenneth Enevoldsen 他一直给予的反馈。
最后,我要感谢KMD、来自KMD的同事以及认知科学的同龄人和同学们,他们鼓励我继续努力并坚持高昂的斗志!
联系如需帮助或更多信息,请随时通过hjb@kmd.dk与作者Malte Højmark-Bertelsen联系,或通过以下平台之一联系: