模型:
xlm-mlm-enfr-1024
任务:
填充掩码许可:
cc-by-nc-4.0XLM模型是由Guillaume Lample和Alexis Conneau于 Cross-lingual Language Model Pretraining 提出的。xlm-mlm-enfr-1024是使用掩码语言建模(MLM)目标针对英法进行预训练的transformer模型。该模型使用语言嵌入来指定推理中使用的语言。更多详细信息请参见 Hugging Face Multilingual Models for Inference docs 。
该模型是一个语言模型。可以用于掩码语言建模。
要了解有关该任务和潜在下游应用的更多信息,请参见Hugging Face的 fill mask docs 和 Hugging Face Multilingual Models for Inference 文档。
不应将该模型用于故意创建敌对或使人感到疏远的环境。
大量研究已经探讨了语言模型的偏见和公平性问题(参见 Sheng et al. (2021) 和 Bender et al. (2021) 等)。
用户(包括直接用户和下游用户)应意识到模型的风险、偏见和限制。
模型开发者表示:
在所有实验中,我们使用了Transformer架构,具有1024个隐藏单元、8个头部、GELU激活函数(Hendrycks和Gimpel,2016)、0.1的dropout率和学习的位置嵌入。我们使用Adam优化器(Kingma和Ba,2014)、线性warm-up(Vaswani等,2017)和学习率从10^-4到5.10^-4变化来训练模型。
有关训练数据和训练过程的链接、引用和更多细节,请参见 associated paper 。
模型开发者还写道:
如果您使用这些模型,应使用相同的数据预处理/BPE编码对数据进行预处理。
有关详细信息,请参见相关的 GitHub Repo 。
模型开发者使用 WMT'14 English-French 数据集和 BLEU metric 进行了模型评估。有关测试数据、因素和度量的更多详细信息,请参阅 associated paper 。
有关xlm-mlm-enfr-1024的结果,请参见 associated paper 的表1和表2。
可以使用 Machine Learning Impact calculator 中提供的 Lacoste et al. (2019) 来估计碳排放。
模型开发者写道:
我们使用PyTorch(Paszke等,2017)实现了所有模型,对于语言建模任务,使用64个Volta GPU进行训练,对于MT任务,使用8个GPU。我们使用float16操作来加速训练和减少模型的内存使用。
有关详细信息,请参阅 associated paper 。
BibTeX:
@article{lample2019cross, title={Cross-lingual language model pretraining}, author={Lample, Guillaume and Conneau, Alexis}, journal={arXiv preprint arXiv:1901.07291}, year={2019} }
APA:
本模型卡片由Hugging Face团队撰写。
需要更多信息。该模型使用语言嵌入来指定推理中使用的语言。有关更多详细信息,请参阅 Hugging Face Multilingual Models for Inference docs 。