英文

xlm-mlm-100-1280

目录

  • 模型详情
  • 用途
  • 偏见、风险和限制
  • 训练
  • 评估
  • 环境影响
  • 技术规格
  • 引用
  • 模型卡片作者
  • 如何开始使用模型
  • 模型详情

    xlm-mlm-100-1280是XLM模型,于 Cross-lingual Language Model Pretraining 年由Guillaume Lample和Alexis Conneau提出,使用100种语言的维基百科文本进行训练。该模型是使用掩码语言建模(MLM)目标进行预训练的变压器模型。

    模型描述

    用途

    直接使用

    该模型是语言模型,可用于掩码语言建模。

    下游应用

    了解有关此任务和潜在下游用途的更多信息,请参阅Hugging Face fill mask docs Hugging Face Multilingual Models for Inference 文档。也请参阅 associated paper

    超出范围的使用

    该模型不应用于故意为人们创造敌对或疏远情境。

    偏见、风险和限制

    已有大量研究探讨了语言模型的偏见和公平性问题(参见例如 Sheng et al. (2021) Bender et al. (2021) )。

    建议

    用户(直接和下游)应意识到模型的风险、偏见和限制。

    训练

    该模型是在100种语言的维基百科文本上训练的XLM模型。预处理包括使用字节对编码进行标记化。有关训练数据和训练过程的详细信息,请参阅 GitHub repo associated paper

    Conneau et al. (2020) 报告称,该模型具有16层、1280个隐藏状态、16个注意力头和前馈层的维度为1520。词汇表大小为200k,总参数数量为570M(详见表7)。

    评估

    测试数据、因素和指标

    模型开发者使用测试准确率作为指标,在XNLI跨语言分类任务(详见 XNLI data card 以获取有关XNLI的更多详细信息)上评估了模型。有关测试数据、因素和指标的详细信息,请参阅 GitHub Repo

    结果

    对于xlm-mlm-100-1280,英语(en)、西班牙语(es)、德语(de)、阿拉伯语(ar)、汉语(zh)和乌尔都语(ur)的XNLI跨语言分类任务的测试准确率为:

    Language en es de ar zh ur
    83.7 76.6 73.6 67.4 71.7 62.9

    有关详细信息,请参阅 GitHub repo

    环境影响

    可以使用 Machine Learning Impact calculator 中提供的方式来估计碳排放量。

    • 硬件类型:需要更多信息
    • 使用小时数:需要更多信息
    • 云提供商:需要更多信息
    • 计算区域:需要更多信息
    • 排放的碳量:需要更多信息

    技术规格

    Conneau et al. (2020) 报告称,该模型具有16层、1280个隐藏状态、16个注意力头和前馈层的维度为1520。词汇表大小为200k,总参数数量为570M(详见表7)。

    引用

    BibTeX:

    @article{lample2019cross,
      title={Cross-lingual language model pretraining},
      author={Lample, Guillaume and Conneau, Alexis},
      journal={arXiv preprint arXiv:1901.07291},
      year={2019}
    }
    

    APA:

    • Lample, G., & Conneau, A. (2019). Cross-lingual language model pretraining. arXiv preprint arXiv:1901.07291.

    模型卡片作者

    此模型卡片由Hugging Face团队撰写。

    如何开始使用该模型

    需要更多信息。有关示例,请参阅相关的 GitHub repo 中的 ipython notebook