模型:

Maltehb/aelaectra-danish-electra-small-uncased

类库:

PyTorch Transformers

数据集:

DAGW 3ADAGW

语言:

其他:

electra pretraining ælæctra danish ELECTRA-Small replaced token detection Carbon Emissions replaced+token+detection

预印本库:

arxiv:2003.10555 arxiv:1810.04805 arxiv:2005.03521

许可:

mit

模型介绍文件清单

英文

Ælæctra - 朝着更高效的丹麦自然语言处理迈进

Ælæctra是一种基于Transformer的丹麦语言模型，旨在以比之前的最先进(SOTA)模型更高效的方式提升丹麦自然语言处理资源的多样性。首先发布了大小写两个模型。它是作为认知科学学士论文的一部分创建的。

Ælæctra是通过使用丹麦Gigaword语料库(Strømberg-Derczynski等人，2020)对ELECTRA-Small(Clark等人，2020)预训练方法进行预训练，并在命名实体识别(NER)任务上进行评估。由于NER只能呈现Ælæctra能力的有限图景，我对进一步的评估非常感兴趣。因此，如果您在任何任务中使用它，请随时与我分享您的发现！

Ælæctra如前所述，旨在增强丹麦的NLP功能，请注意，此GitHub仍不支持丹麦的字符"Æ, Ø和Å"，因此该存储库的标题成为"-l-ctra"。真是讽刺?

以下是如何在 PyTorch 中使用

from transformers import AutoTokenizer, AutoModelForPreTraining

tokenizer = AutoTokenizer.from_pretrained("Maltehb/-l-ctra-cased")
model = AutoModelForPreTraining.from_pretrained("Maltehb/-l-ctra-cased")

库加载大小写的Ælæctra模型的示例：

from transformers import AutoTokenizer, AutoModelForPreTraining

tokenizer = AutoTokenizer.from_pretrained("Maltehb/-l-ctra-cased")
model = AutoModelForPreTraining.from_pretrained("Maltehb/-l-ctra-cased")

from transformers import AutoTokenizer, AutoModelForPreTraining

tokenizer = AutoTokenizer.from_pretrained("Maltehb/-l-ctra-uncased")
model = AutoModelForPreTraining.from_pretrained("Maltehb/-l-ctra-uncased")

当前丹麦语言模型的评估

对Ælæctra、丹麦BERT(DaBERT)和多语言BERT(mBERT)进行了评估：

Model	Layers	Hidden Size	Params	AVG NER micro-f1 (DaNE-testset)	Average Inference Time (Sec/Epoch)	Download
Ælæctra Uncased	12	256	13.7M	78.03 (SD = 1.28)	10.91	1234321
Ælæctra Cased	12	256	14.7M	80.08 (SD = 0.26)	10.92	1234321
DaBERT	12	768	110M	84.89 (SD = 0.64)	43.03	1236321
mBERT Uncased	12	768	167M	80.44 (SD = 0.82)	72.10	1237321
mBERT Cased	12	768	177M	83.79 (SD = 0.91)	70.56	1238321

在 DaNE 上，Ælæctra的得分略低于大小写的多语言BERT(Devlin等人，2019)和丹麦BERT(丹麦BERT，2019/2020)，但Ælæctra的大小不到它们的三分之一，并且在预训练和实例化中使用的计算资源显著更少。有关评估的完整描述和模型规范，请阅读论文：“Ælæctra - 朝着更高效的丹麦自然语言处理迈进”。

预训练

建议使用 Dockerfile 构建Ælæctra的Docker容器。然后，只需按照 pretraining notebooks 进行操作。

预训练使用了由丹麦数据公司 KMD 提供的具有16 GiB的单个NVIDIA Tesla V100 GPU。针对大小写的模型进行了大约4天9.5小时的预训练。

微调

要微调任何Ælæctra模型，请按照 fine-tuning notebooks 进行操作。

参考资料

Clark, K., Luong, M.-T., Le, Q. V., & Manning, C. D. (2020). ELECTRA: Pre-training Text Encoders as Discriminators Rather Than Generators. ArXiv:2003.10555 [Cs]. http://arxiv.org/abs/2003.10555

Danish BERT.(2020). BotXO. https://github.com/botxo/nordic_bert (首次发表于2019年)

Devlin, J., Chang, M.-W., Lee, K., & Toutanova, K.(2019).BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding. ArXiv:1810.04805[Cs]. http://arxiv.org/abs/1810.04805

Hvingelby, R., Pauli, A. B., Barrett, M., Rosted, C., Lidegaard, L. M., & Søgaard, A.(2020).DaNE: A Named Entity Resource for Danish. Proceedings of the 12th Language Resources and Evaluation Conference, 4597–4604. https://www.aclweb.org/anthology/2020.lrec-1.565

Strømberg-Derczynski, L., Baglini, R., Christiansen, M. H., Ciosici, M. R., Dalsgaard, J. A., Fusaroli, R., Henrichsen, P. J., Hvingelby, R., Kirkedal, A., Kjeldsen, A. S., Ladefoged, C., Nielsen, F. Å., Petersen, M. L., Rystrøm, J. H., & Varab, D.(2020).The Danish Gigaword Project. ArXiv:2005.03521[Cs]. http://arxiv.org/abs/2005.03521

致谢

由于这个存储库的大部分是基于Google团队创建的ELECTRA的 the works 构建的，因此非常感谢他们。

还要向收集丹麦Gigaword语料库的不可思议的人们表示特别感谢(Strømberg-Derczynski等人，2020)。

此外，我要感谢我的导师 Riccardo Fusaroli 对论文的支持，特别感谢 Kenneth Enevoldsen 向我提供持续的反馈。

最后，我要感谢KMD，来自KMD的同事，以及认知科学的同行和同学们，他们鼓励我坚持努力工作，保持高昂的斗志！

联系方式

如需帮助或更多信息，请随时与作者Malte Højmark-Bertelsen通过hjb@kmd.dk或以下任一平台联系。

作者:

Malte Højmark-Bertelsen

数据集大小:

55.54 MB