模型:
xlm-mlm-17-1280
xlm-mlm-17-1280 是XLM模型,由Guillaume Lample和Alexis Conneau在2019年提出,使用17种语言的文本进行训练。该模型是使用掩码语言建模(MLM)目标进行预训练的变换器。
该模型是一个语言模型,可用于掩码语言建模。
如需了解更多关于该任务和潜在的下游使用方式,请参阅Hugging Face fill mask docs 和 Hugging Face Multilingual Models for Inference 文档。还请参阅 associated paper 。
该模型不应被用于故意营造敌对或疏远人员的环境。
偏见和公平性问题对语言模型进行了广泛研究(参见 Sheng et al. (2021) 和 Bender et al. (2021) 等)。
用户(包括直接用户和下游用户)应了解模型的风险、偏见和限制。
该模型是在17种语言的文本上进行训练的XLM模型。预处理包括分词和字节对编码。详见 GitHub repo 和 associated paper ,以获取有关训练数据和训练过程的更多细节。
Conneau et al. (2020) 报告称,该模型具有16层、1280个隐藏状态、16个注意力头,并且前馈层的维度为1520。词汇表大小为200k,总参数数量为570M(见表7)。
模型开发者通过XNLI跨语言分类任务对模型进行了评估(详见 XNLI data card 以获取有关XNLI的更多详细信息),使用测试准确性作为评估指标。有关测试数据、因素和度量的更多详细信息,请参阅 GitHub Repo 。
对于xlm-mlm-17-1280,其在英语(en)、西班牙语(es)、德语(de)、阿拉伯语(ar)和中文(zh)的XNLI跨语言分类任务上的测试准确性为:
Language | en | es | de | ar | zh |
---|---|---|---|---|---|
84.8 | 79.4 | 76.2 | 71.5 | 75 |
详见 GitHub repo 获取更多详细信息。
可以使用 Lacoste et al. (2019) 中介绍的 Machine Learning Impact calculator 来估计碳排放量。
Conneau et al. (2020) 报告称,该模型具有16层、1280个隐藏状态、16个注意力头,并且前馈层的维度为1520。词汇表大小为200k,总参数数量为570M(见表7)。
BibTeX:
@article{lample2019cross, title={Cross-lingual language model pretraining}, author={Lample, Guillaume and Conneau, Alexis}, journal={arXiv preprint arXiv:1901.07291}, year={2019} }
APA:
本模型卡由Hugging Face团队编写。
需要更多信息。请参阅相关的 GitHub repo 和 ipython notebook 获取示例。