模型:

Maltehb/aelaectra-danish-electra-small-cased

类库:

PyTorch TensorFlow Transformers

数据集:

DAGW 3ADAGW

语言:

其他:

electra pretraining ælæctra danish ELECTRA-Small replaced token detection Carbon Emissions replaced+token+detection

预印本库:

arxiv:2003.10555 arxiv:1810.04805 arxiv:2005.03521

许可:

mit

模型介绍文件清单

英文

Ælæctra - 迈向更高效的丹麦自然语言处理的一步

Ælæctra 是一个丹麦语基于Transformer的语言模型，旨在以比之前的最新（SOTA）模型更高效的方式增强丹麦自然语言处理资源的多样性。最初发布了大小写模型。它是作为一个认知科学学士学位论文的一部分创建的。

Ælæctra 是通过使用丹麦Gigaword语料库（Strømberg-Derczynski et al.，2020）和ELECTRA-Small（Clark et al.，2020）预训练方法预训练的，并在命名实体识别（NER）任务上进行了评估。由于NER只提供了Ælæctra能力的有限图片，我对进一步的评估非常感兴趣。因此，如果您将其用于任何任务，请随时向我报告您的发现！

Ælæctra 被创建出来，正如前面所提到的，旨在增强丹麦自然语言处理的能力。请注意，由于GitHub仍不支持丹麦字符“Æ，Ø和Å”，导致该存储库的标题变为“-l-ctra”。多么具有讽刺意味。?

下面是如何使用 ?Transformers 库在 PyTorch 中加载大小写和非大小写 Ælæctra 模型的示例：

from transformers import AutoTokenizer, AutoModelForPreTraining

tokenizer = AutoTokenizer.from_pretrained("Maltehb/-l-ctra-danish-electra-small-cased")
model = AutoModelForPreTraining.from_pretrained("Maltehb/-l-ctra-danish-electra-small-cased")

from transformers import AutoTokenizer, AutoModelForPreTraining

tokenizer = AutoTokenizer.from_pretrained("Maltehb/-l-ctra-danish-electra-small-uncased")
model = AutoModelForPreTraining.from_pretrained("Maltehb/-l-ctra-danish-electra-small-uncased")

当前丹麦语言模型的评估

Ælæctra、Danish BERT（DaBERT）和多语言BERT（mBERT）进行了评估：

Model	Layers	Hidden Size	Params	AVG NER micro-f1 (DaNE-testset)	Average Inference Time (Sec/Epoch)	Download
Ælæctra Uncased	12	256	13.7M	78.03 (SD = 1.28)	10.91	1234321
Ælæctra Cased	12	256	14.7M	80.08 (SD = 0.26)	10.92	1234321
DaBERT	12	768	110M	84.89 (SD = 0.64)	43.03	1236321
mBERT Uncased	12	768	167M	80.44 (SD = 0.82)	72.10	1237321
mBERT Cased	12	768	177M	83.79 (SD = 0.91)	70.56	1238321

在 DaNE 上（Hvingelby et al.，2020），Ælæctra 的得分稍微低于大小写和非大小写的多语言BERT（Devlin et al.，2019）和丹麦BERT（Danish BERT，2019/2020），但 Ælæctra 的大小不到它们的三分之一，并且在预训练和实例化时使用了显著更少的计算资源。有关评估的完整描述和模型的规范，请阅读论文：“Ælæctra - 迈向更高效的丹麦自然语言处理”。

预训练

建议使用 Dockerfile 从 Docker 容器构建 Ælæctra 的预训练。接下来，只需按照 pretraining notebooks 中的步骤即可。

预训练是利用一块配备了16 GiB的NVIDIA Tesla V100GPU完成的，由丹麦数据公司 KMD 提供。预训练过程大约需要4天9小时，涵盖了大小写模型和非大小写模型。

微调

要对任何 Ælæctra 模型进行微调，请按照 fine-tuning notebooks 中的步骤。

参考文献

Clark, K., Luong, M.-T., Le, Q. V., & Manning, C. D. (2020). ELECTRA: Pre-training Text Encoders as Discriminators Rather Than Generators. ArXiv:2003.10555 [Cs]. http://arxiv.org/abs/2003.10555

Danish BERT. (2020). BotXO. https://github.com/botxo/nordic_bert （原作发表于2019年）

Devlin, J., Chang, M.-W., Lee, K., & Toutanova, K. (2019). BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding. ArXiv:1810.04805 [Cs]. http://arxiv.org/abs/1810.04805

Hvingelby, R., Pauli, A. B., Barrett, M., Rosted, C., Lidegaard, L. M., & Søgaard, A. (2020). DaNE: A Named Entity Resource for Danish. Proceedings of the 12th Language Resources and Evaluation Conference, 4597–4604. https://www.aclweb.org/anthology/2020.lrec-1.565

Strømberg-Derczynski, L., Baglini, R., Christiansen, M. H., Ciosici, M. R., Dalsgaard, J. A., Fusaroli, R., Henrichsen, P. J., Hvingelby, R., Kirkedal, A., Kjeldsen, A. S., Ladefoged, C., Nielsen, F. Å., Petersen, M. L., Rystrøm, J. H., & Varab, D. (2020). The Danish Gigaword Project. ArXiv:2005.03521 [Cs]. http://arxiv.org/abs/2005.03521

Acknowledgements

由于这个存储库的大部分基于 Google ELECTRA团队创建的 the works ，因此非常感谢他们。

向收集丹麦Gigaword语料库（Strømberg-Derczynski et al.，2020）的不可思议的人们致以千真万确的感谢。

此外，我要感谢我的导师 Riccardo Fusaroli 对论文的支持，特别感谢 Kenneth Enevoldsen 提供的持续反馈。

最后，我要感谢KMD、我的KMD同事以及认知科学的同行和同学们，他们鼓励我继续努力，要保持自信！

Contact

如果需要帮助或进一步了解信息，随时与作者 Malte Højmark-Bertelsen（hjb@kmd.dk）或以下平台联系：

作者:

Malte Højmark-Bertelsen

数据集大小:

107.94 MB