英文

xlm-mlm-ende-1024

内容目录

  • 模型详细信息
  • 用途
  • 偏见、风险和限制
  • 训练
  • 评估
  • 环境影响
  • 技术规格
  • 引用
  • 模型卡片作者
  • 如何开始使用模型
  • 模型详细信息

    XLM模型是由Guillaume Lample、Alexis Conneau于 Cross-lingual Language Model Pretraining 提出的。xlm-mlm-ende-1024是使用遮蔽语言建模(MLM)目标对英语-德语进行预训练的Transformer。此模型使用语言嵌入来指定推理时使用的语言。有关更多详细信息,请参阅 Hugging Face Multilingual Models for Inference docs

    模型描述

    用途

    直接用途

    该模型是一个语言模型。该模型可用于遮蔽语言建模。

    下游用途

    要了解更多关于此任务和潜在的下游用途,请参阅Hugging Face的 fill mask docs Hugging Face Multilingual Models for Inference 文档。

    超出范围的用途

    不应使用该模型有意创建对人们有敌意或疏远的环境。

    偏见、风险和限制

    针对语言模型的偏见和公平性问题进行了重要的研究(参见 Sheng et al. (2021) Bender et al. (2021) 等)。

    建议

    用户(包括直接用户和下游用户)应了解模型的风险、偏见和限制。

    训练

    模型开发者写道:

    在所有实验中,我们使用1024个隐藏单元、8个头部、GELU激活(Hendrycks和Gimpel,2016)、0.1的丢弃率以及学习得到的位置嵌入的Transformer架构。我们使用Adam优化器(Kingma和Ba,2014)、线性预热(Vaswani等,2017)和学习率在10^−4至5.10^−4之间变化来训练我们的模型。

    有关训练数据和训练过程的链接、引用和详细信息,请参阅 associated paper

    模型开发者还写道:

    如果您使用这些模型,应使用相同的数据预处理/ BPE代码预处理您的数据。

    有关更多详细信息,请参阅相关的 GitHub Repo

    评估

    测试数据、因素和度量

    模型开发者使用 WMT'16 English-German 数据集和 BLEU metric 进行了模型评估。有关测试数据、因素和度量的更多详细信息,请参阅 associated paper

    结果

    有关xlm-mlm-ende-1024的结果,请参阅 associated paper 的表1和表2。

    环境影响

    可以使用 Machine Learning Impact calculator Lacoste et al. (2019) 中提到的方法来估计碳排放量。

    • 硬件类型:需要更多信息
    • 使用时间:需要更多信息
    • 云服务提供商:需要更多信息
    • 计算地区:需要更多信息
    • 排放碳量:需要更多信息

    技术规格

    模型开发者写道:

    我们在PyTorch(Paszke等,2017)中实现了所有模型,并在64个Volta GPU上进行语言建模任务的训练,并在8个GPU上进行MT任务的训练。我们使用float16运算加快训练速度并减少模型内存使用量。

    有关详细信息,请参阅 associated paper

    引用

    BibTeX:

    @article{lample2019cross,
      title={Cross-lingual language model pretraining},
      author={Lample, Guillaume and Conneau, Alexis},
      journal={arXiv preprint arXiv:1901.07291},
      year={2019}
    }
    

    APA:

    • Lample, G., & Conneau, A.(2019)。Cross-lingual language model pretraining. arXiv preprint arXiv:1901.07291.

    模型卡片作者

    本模型卡由Hugging Face团队撰写。

    如何开始使用模型

    需要更多信息。该模型使用语言嵌入来指定推理时使用的语言。有关更多详细信息,请参阅 Hugging Face Multilingual Models for Inference docs