英文

xlm-mlm-17-1280

目录

  • 模型详情
  • 使用方式
  • 偏见、风险和限制
  • 训练
  • 评估
  • 环境影响
  • 技术规格
  • 引用
  • 模型卡作者
  • 如何开始使用该模型
  • 模型详情

    xlm-mlm-17-1280 是XLM模型,由Guillaume Lample和Alexis Conneau在2019年提出,使用17种语言的文本进行训练。该模型是使用掩码语言建模(MLM)目标进行预训练的变换器。

    模型描述

    使用方式

    直接使用

    该模型是一个语言模型,可用于掩码语言建模。

    下游使用

    如需了解更多关于该任务和潜在的下游使用方式,请参阅Hugging Face fill mask docs Hugging Face Multilingual Models for Inference 文档。还请参阅 associated paper

    不适用范围

    该模型不应被用于故意营造敌对或疏远人员的环境。

    偏见、风险和限制

    偏见和公平性问题对语言模型进行了广泛研究(参见 Sheng et al. (2021) Bender et al. (2021) 等)。

    推荐事项

    用户(包括直接用户和下游用户)应了解模型的风险、偏见和限制。

    训练

    该模型是在17种语言的文本上进行训练的XLM模型。预处理包括分词和字节对编码。详见 GitHub repo associated paper ,以获取有关训练数据和训练过程的更多细节。

    Conneau et al. (2020) 报告称,该模型具有16层、1280个隐藏状态、16个注意力头,并且前馈层的维度为1520。词汇表大小为200k,总参数数量为570M(见表7)。

    评估

    测试数据、因素和度量

    模型开发者通过XNLI跨语言分类任务对模型进行了评估(详见 XNLI data card 以获取有关XNLI的更多详细信息),使用测试准确性作为评估指标。有关测试数据、因素和度量的更多详细信息,请参阅 GitHub Repo

    结果

    对于xlm-mlm-17-1280,其在英语(en)、西班牙语(es)、德语(de)、阿拉伯语(ar)和中文(zh)的XNLI跨语言分类任务上的测试准确性为:

    Language en es de ar zh
    84.8 79.4 76.2 71.5 75

    详见 GitHub repo 获取更多详细信息。

    环境影响

    可以使用 Lacoste et al. (2019) 中介绍的 Machine Learning Impact calculator 来估计碳排放量。

    • 硬件类型:需要更多信息
    • 使用小时数:需要更多信息
    • 云提供商:需要更多信息
    • 计算区域:需要更多信息
    • 排放碳量:需要更多信息

    技术规格

    Conneau et al. (2020) 报告称,该模型具有16层、1280个隐藏状态、16个注意力头,并且前馈层的维度为1520。词汇表大小为200k,总参数数量为570M(见表7)。

    引用

    BibTeX:

    @article{lample2019cross,
      title={Cross-lingual language model pretraining},
      author={Lample, Guillaume and Conneau, Alexis},
      journal={arXiv preprint arXiv:1901.07291},
      year={2019}
    }
    

    APA:

    • Lample, G., & Conneau, A. (2019). Cross-lingual language model pretraining. arXiv preprint arXiv:1901.07291.

    模型卡作者

    本模型卡由Hugging Face团队编写。

    如何开始使用该模型

    需要更多信息。请参阅相关的 GitHub repo ipython notebook 获取示例。