模型:
xlm-mlm-ende-1024
任务:
填充掩码许可:
cc-by-nc-4.0XLM模型是由Guillaume Lample、Alexis Conneau于 Cross-lingual Language Model Pretraining 提出的。xlm-mlm-ende-1024是使用遮蔽语言建模(MLM)目标对英语-德语进行预训练的Transformer。此模型使用语言嵌入来指定推理时使用的语言。有关更多详细信息,请参阅 Hugging Face Multilingual Models for Inference docs 。
该模型是一个语言模型。该模型可用于遮蔽语言建模。
要了解更多关于此任务和潜在的下游用途,请参阅Hugging Face的 fill mask docs 和 Hugging Face Multilingual Models for Inference 文档。
不应使用该模型有意创建对人们有敌意或疏远的环境。
针对语言模型的偏见和公平性问题进行了重要的研究(参见 Sheng et al. (2021) 和 Bender et al. (2021) 等)。
用户(包括直接用户和下游用户)应了解模型的风险、偏见和限制。
模型开发者写道:
在所有实验中,我们使用1024个隐藏单元、8个头部、GELU激活(Hendrycks和Gimpel,2016)、0.1的丢弃率以及学习得到的位置嵌入的Transformer架构。我们使用Adam优化器(Kingma和Ba,2014)、线性预热(Vaswani等,2017)和学习率在10^−4至5.10^−4之间变化来训练我们的模型。
有关训练数据和训练过程的链接、引用和详细信息,请参阅 associated paper 。
模型开发者还写道:
如果您使用这些模型,应使用相同的数据预处理/ BPE代码预处理您的数据。
有关更多详细信息,请参阅相关的 GitHub Repo 。
模型开发者使用 WMT'16 English-German 数据集和 BLEU metric 进行了模型评估。有关测试数据、因素和度量的更多详细信息,请参阅 associated paper 。
有关xlm-mlm-ende-1024的结果,请参阅 associated paper 的表1和表2。
可以使用 Machine Learning Impact calculator 和 Lacoste et al. (2019) 中提到的方法来估计碳排放量。
模型开发者写道:
我们在PyTorch(Paszke等,2017)中实现了所有模型,并在64个Volta GPU上进行语言建模任务的训练,并在8个GPU上进行MT任务的训练。我们使用float16运算加快训练速度并减少模型内存使用量。
有关详细信息,请参阅 associated paper 。
BibTeX:
@article{lample2019cross, title={Cross-lingual language model pretraining}, author={Lample, Guillaume and Conneau, Alexis}, journal={arXiv preprint arXiv:1901.07291}, year={2019} }
APA:
本模型卡由Hugging Face团队撰写。
需要更多信息。该模型使用语言嵌入来指定推理时使用的语言。有关更多详细信息,请参阅 Hugging Face Multilingual Models for Inference docs 。