英文

Ælæctra - 迈向更高效的丹麦自然语言处理的一步

Ælæctra 是一个丹麦语基于Transformer的语言模型,旨在以比之前的最新(SOTA)模型更高效的方式增强丹麦自然语言处理资源的多样性。最初发布了大小写模型。它是作为一个认知科学学士学位论文的一部分创建的。

Ælæctra 是通过使用丹麦Gigaword语料库(Strømberg-Derczynski et al.,2020)和ELECTRA-Small(Clark et al.,2020)预训练方法预训练的,并在命名实体识别(NER)任务上进行了评估。由于NER只提供了Ælæctra能力的有限图片,我对进一步的评估非常感兴趣。因此,如果您将其用于任何任务,请随时向我报告您的发现!

Ælæctra 被创建出来,正如前面所提到的,旨在增强丹麦自然语言处理的能力。请注意,由于GitHub仍不支持丹麦字符“Æ,Ø和Å”,导致该存储库的标题变为“-l-ctra”。多么具有讽刺意味。?

下面是如何使用 ?Transformers 库在 PyTorch 中加载大小写和非大小写 Ælæctra 模型的示例:

from transformers import AutoTokenizer, AutoModelForPreTraining

tokenizer = AutoTokenizer.from_pretrained("Maltehb/-l-ctra-danish-electra-small-cased")
model = AutoModelForPreTraining.from_pretrained("Maltehb/-l-ctra-danish-electra-small-cased")
from transformers import AutoTokenizer, AutoModelForPreTraining

tokenizer = AutoTokenizer.from_pretrained("Maltehb/-l-ctra-danish-electra-small-uncased")
model = AutoModelForPreTraining.from_pretrained("Maltehb/-l-ctra-danish-electra-small-uncased")

当前丹麦语言模型的评估

Ælæctra、Danish BERT(DaBERT)和多语言BERT(mBERT)进行了评估:

Model Layers Hidden Size Params AVG NER micro-f1 (DaNE-testset) Average Inference Time (Sec/Epoch) Download
Ælæctra Uncased 12 256 13.7M 78.03 (SD = 1.28) 10.91 1234321
Ælæctra Cased 12 256 14.7M 80.08 (SD = 0.26) 10.92 1234321
DaBERT 12 768 110M 84.89 (SD = 0.64) 43.03 1236321
mBERT Uncased 12 768 167M 80.44 (SD = 0.82) 72.10 1237321
mBERT Cased 12 768 177M 83.79 (SD = 0.91) 70.56 1238321

DaNE 上(Hvingelby et al.,2020),Ælæctra 的得分稍微低于大小写和非大小写的多语言BERT(Devlin et al.,2019)和丹麦BERT(Danish BERT,2019/2020),但 Ælæctra 的大小不到它们的三分之一,并且在预训练和实例化时使用了显著更少的计算资源。有关评估的完整描述和模型的规范,请阅读论文:“Ælæctra - 迈向更高效的丹麦自然语言处理”。

预训练

建议使用 Dockerfile 从 Docker 容器构建 Ælæctra 的预训练。接下来,只需按照 pretraining notebooks 中的步骤即可。

预训练是利用一块配备了16 GiB的NVIDIA Tesla V100GPU完成的,由丹麦数据公司 KMD 提供。预训练过程大约需要4天9小时,涵盖了大小写模型和非大小写模型。

微调

要对任何 Ælæctra 模型进行微调,请按照 fine-tuning notebooks 中的步骤。

参考文献

Clark, K., Luong, M.-T., Le, Q. V., & Manning, C. D. (2020). ELECTRA: Pre-training Text Encoders as Discriminators Rather Than Generators. ArXiv:2003.10555 [Cs]. http://arxiv.org/abs/2003.10555

Danish BERT. (2020). BotXO. https://github.com/botxo/nordic_bert (原作发表于2019年)

Devlin, J., Chang, M.-W., Lee, K., & Toutanova, K. (2019). BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding. ArXiv:1810.04805 [Cs]. http://arxiv.org/abs/1810.04805

Hvingelby, R., Pauli, A. B., Barrett, M., Rosted, C., Lidegaard, L. M., & Søgaard, A. (2020). DaNE: A Named Entity Resource for Danish. Proceedings of the 12th Language Resources and Evaluation Conference, 4597–4604. https://www.aclweb.org/anthology/2020.lrec-1.565

Strømberg-Derczynski, L., Baglini, R., Christiansen, M. H., Ciosici, M. R., Dalsgaard, J. A., Fusaroli, R., Henrichsen, P. J., Hvingelby, R., Kirkedal, A., Kjeldsen, A. S., Ladefoged, C., Nielsen, F. Å., Petersen, M. L., Rystrøm, J. H., & Varab, D. (2020). The Danish Gigaword Project. ArXiv:2005.03521 [Cs]. http://arxiv.org/abs/2005.03521

Acknowledgements

由于这个存储库的大部分基于 Google ELECTRA团队创建的 the works ,因此非常感谢他们。

向收集丹麦Gigaword语料库(Strømberg-Derczynski et al.,2020)的不可思议的人们致以千真万确的感谢。

此外,我要感谢我的导师 Riccardo Fusaroli 对论文的支持,特别感谢 Kenneth Enevoldsen 提供的持续反馈。

最后,我要感谢KMD、我的KMD同事以及认知科学的同行和同学们,他们鼓励我继续努力,要保持自信!

Contact

如果需要帮助或进一步了解信息,随时与作者 Malte Højmark-Bertelsen(hjb@kmd.dk)或以下平台联系: