模型:
xlm-mlm-100-1280
xlm-mlm-100-1280是XLM模型,于 Cross-lingual Language Model Pretraining 年由Guillaume Lample和Alexis Conneau提出,使用100种语言的维基百科文本进行训练。该模型是使用掩码语言建模(MLM)目标进行预训练的变压器模型。
该模型是语言模型,可用于掩码语言建模。
了解有关此任务和潜在下游用途的更多信息,请参阅Hugging Face fill mask docs 和 Hugging Face Multilingual Models for Inference 文档。也请参阅 associated paper 。
该模型不应用于故意为人们创造敌对或疏远情境。
已有大量研究探讨了语言模型的偏见和公平性问题(参见例如 Sheng et al. (2021) 和 Bender et al. (2021) )。
用户(直接和下游)应意识到模型的风险、偏见和限制。
该模型是在100种语言的维基百科文本上训练的XLM模型。预处理包括使用字节对编码进行标记化。有关训练数据和训练过程的详细信息,请参阅 GitHub repo 和 associated paper 。
Conneau et al. (2020) 报告称,该模型具有16层、1280个隐藏状态、16个注意力头和前馈层的维度为1520。词汇表大小为200k,总参数数量为570M(详见表7)。
模型开发者使用测试准确率作为指标,在XNLI跨语言分类任务(详见 XNLI data card 以获取有关XNLI的更多详细信息)上评估了模型。有关测试数据、因素和指标的详细信息,请参阅 GitHub Repo 。
对于xlm-mlm-100-1280,英语(en)、西班牙语(es)、德语(de)、阿拉伯语(ar)、汉语(zh)和乌尔都语(ur)的XNLI跨语言分类任务的测试准确率为:
Language | en | es | de | ar | zh | ur |
---|---|---|---|---|---|---|
83.7 | 76.6 | 73.6 | 67.4 | 71.7 | 62.9 |
有关详细信息,请参阅 GitHub repo 。
可以使用 Machine Learning Impact calculator 中提供的方式来估计碳排放量。
Conneau et al. (2020) 报告称,该模型具有16层、1280个隐藏状态、16个注意力头和前馈层的维度为1520。词汇表大小为200k,总参数数量为570M(详见表7)。
BibTeX:
@article{lample2019cross, title={Cross-lingual language model pretraining}, author={Lample, Guillaume and Conneau, Alexis}, journal={arXiv preprint arXiv:1901.07291}, year={2019} }
APA:
此模型卡片由Hugging Face团队撰写。
需要更多信息。有关示例,请参阅相关的 GitHub repo 中的 ipython notebook 。