英文

xlm-mlm-enfr-1024

目录

  • 模型详情
  • 用途
  • 偏见、风险和限制
  • 训练
  • 评估
  • 环境影响
  • 技术规格
  • 引用
  • 模型卡片作者
  • 如何开始使用该模型
  • 模型详情

    XLM模型是由Guillaume Lample和Alexis Conneau于 Cross-lingual Language Model Pretraining 提出的。xlm-mlm-enfr-1024是使用掩码语言建模(MLM)目标针对英法进行预训练的transformer模型。该模型使用语言嵌入来指定推理中使用的语言。更多详细信息请参见 Hugging Face Multilingual Models for Inference docs

    模型描述

    用途

    直接应用

    该模型是一个语言模型。可以用于掩码语言建模。

    下游应用

    要了解有关该任务和潜在下游应用的更多信息,请参见Hugging Face的 fill mask docs Hugging Face Multilingual Models for Inference 文档。

    不适用范围

    不应将该模型用于故意创建敌对或使人感到疏远的环境。

    偏见、风险和限制

    大量研究已经探讨了语言模型的偏见和公平性问题(参见 Sheng et al. (2021) Bender et al. (2021) 等)。

    建议

    用户(包括直接用户和下游用户)应意识到模型的风险、偏见和限制。

    训练

    模型开发者表示:

    在所有实验中,我们使用了Transformer架构,具有1024个隐藏单元、8个头部、GELU激活函数(Hendrycks和Gimpel,2016)、0.1的dropout率和学习的位置嵌入。我们使用Adam优化器(Kingma和Ba,2014)、线性warm-up(Vaswani等,2017)和学习率从10^-4到5.10^-4变化来训练模型。

    有关训练数据和训练过程的链接、引用和更多细节,请参见 associated paper

    模型开发者还写道:

    如果您使用这些模型,应使用相同的数据预处理/BPE编码对数据进行预处理。

    有关详细信息,请参见相关的 GitHub Repo

    评估

    测试数据、因素和度量

    模型开发者使用 WMT'14 English-French 数据集和 BLEU metric 进行了模型评估。有关测试数据、因素和度量的更多详细信息,请参阅 associated paper

    结果

    有关xlm-mlm-enfr-1024的结果,请参见 associated paper 的表1和表2。

    环境影响

    可以使用 Machine Learning Impact calculator 中提供的 Lacoste et al. (2019) 来估计碳排放。

    • 硬件类型:需要更多信息
    • 使用小时数:需要更多信息
    • 云服务提供商:需要更多信息
    • 计算区域:需要更多信息
    • 碳排放:需要更多信息

    技术规格

    模型开发者写道:

    我们使用PyTorch(Paszke等,2017)实现了所有模型,对于语言建模任务,使用64个Volta GPU进行训练,对于MT任务,使用8个GPU。我们使用float16操作来加速训练和减少模型的内存使用。

    有关详细信息,请参阅 associated paper

    引用

    BibTeX:

    @article{lample2019cross,
      title={Cross-lingual language model pretraining},
      author={Lample, Guillaume and Conneau, Alexis},
      journal={arXiv preprint arXiv:1901.07291},
      year={2019}
    }
    

    APA:

    • Lample, G., & Conneau, A. (2019). Cross-lingual language model pretraining. arXiv preprint arXiv:1901.07291.

    模型卡片作者

    本模型卡片由Hugging Face团队撰写。

    如何开始使用该模型。

    需要更多信息。该模型使用语言嵌入来指定推理中使用的语言。有关更多详细信息,请参阅 Hugging Face Multilingual Models for Inference docs