英文

xlm-mlm-tlm-xnli15-1024

目录

  • 模型详情
  • 应用
  • 偏见、风险和局限性
  • 训练详情
  • 评估
  • 环境影响
  • 技术规格
  • 引用
  • 模型卡片作者
  • 如何开始使用此模型
  • 模型详情

    XLM模型是由Guillaume Lample和Alexis Conneau于2019年提出的。xlm-mlm-tlm-xnli15-1024是一个基于掩码语言建模(MLM)和翻译语言建模(TLM)目标进行预训练的transformer模型,然后在英文NLI数据集上进行微调。模型开发者评估了模型在15种XNLI语言中进行正确预测的能力(有关XNLI的更多信息,请参见链接 XNLI data card )。

    模型描述

    应用

    直接使用

    该模型是一个语言模型,可用于跨语言文本分类。虽然该模型是基于英语文本数据进行微调的,但模型在其他14种语言中对句子进行分类的能力已经得到评估(请参见评估部分)。

    下游应用

    该模型可用于处理与不同语言的自然语言推理相关的下游任务。更多信息,请参见链接 associated paper

    不适用范围

    不能将该模型用于有意创建针对人员的敌对或疏离环境。

    偏见、风险和局限性

    已经进行了大量研究,探讨了语言模型的偏见和公平性问题(请参见链接 Sheng et al. (2021) 和链接 Bender et al. (2021) )。

    推荐事项

    用户(包括直接用户和下游用户)应该知晓该模型的风险、偏见和局限性。

    训练详情

    训练详情来自链接 associated paper ,请参阅论文以获得链接、引用和更多详情。另请参阅相关链接 GitHub Repo 以获得更多详情。

    训练数据

    模型开发者表示:

    我们使用WikiExtractor2从Wikipedia的dump数据中提取原始句子,并将其用作CLM和MLM目标的单语数据。对于TLM目标,我们仅使用涉及英语的平行数据,类似于Conneau等人(2018b)的做法。

    • 具体来说,我们使用MultiUN(Ziemski等人,2016)提供的法语、西班牙语、俄语、阿拉伯语和中文,以及IIT孟买语料库(Anoop等人,2018)提供的印地语。
    • 我们从OPUS 3网站Tiedemann(2012)提取以下语料库:德语、希腊语和保加利亚语的EUbookshop语料库,土耳其语、越南语和泰语的OpenSubtitles 2018,乌尔都语和斯瓦希里语的Tanzil,斯瓦希里语的GlobalVoices。
    • 对于中文、日语和泰语,我们分别使用了Chang等人(2008)的分词器、Kytea4分词器和PyThaiNLP5分词器。
    • 对于所有其他语言,我们使用Moses提供的分词器(Koehn等人,2007),必要时使用默认的英文分词器。

    在进行精调时,开发者使用了英文NLI数据集(请参见链接 XNLI data card )。

    训练过程

    预处理

    模型开发者表示:

    我们使用fastBPE来学习BPE码并将单词分割为子词单元。 BPE代码是在从所有语言中抽样的句子的连接上进行学习的,具体方法见第3.1节。

    速度、大小和时间

    模型开发者表示:

    我们使用具有1024隐藏层单元、8个头部、GELU激活函数(Hendrycks和Gimpel,2016)、0.1的dropout率和学习位置嵌入的Transformer架构。我们使用Adam优化器(Kingma和Ba,2014),进行线性预热(Vaswani等人,2017),并使用学习速率从10^-4到5.10^-4变化。

    对于CLM和MLM目标,我们使用256个标记的流和大小为64的小批量。与Devlin等人(2018)不同的是,一个小批量中的一个序列可以包含多个连续的句子,详见第3.2节。对于TLM目标,我们随机采样具有相似长度的句子来组成4000个标记的小批量。我们使用跨语言的平均困惑度作为训练的停止标准。对于机器翻译,我们仅使用6层,并创建包含2000个标记的小批量。

    进行XNLI微调时,我们使用大小为8或16的小批量,并将句子长度修剪为256个单词。我们使用80k个BPE分裂和95k的词汇表,在XNLI各语言的维基百科上训练一个12层的模型。我们使用Adam优化器的学习速率从5.10^-4到2.10^-4进行随机采样,并使用小评估版本对20000个随机样本进行评估。我们将transformer的最后一层的第一个隐藏状态作为随机初始化的最后线性分类器的输入,并微调所有参数。在我们的实验中,并不像使用最大池化或平均池化在最后一层效果好。

    我们使用PyTorch(Paszke等人,2017)实现了所有模型,并在64个Volta GPU上对语言建模任务进行训练,在8个GPU上对机器翻译任务进行训练。我们使用float16操作以加快训练速度,并减少模型的内存使用量。

    评估

    测试数据、因素和指标

    在将模型在英文NLI数据集上进行微调后,模型开发者使用XNLI数据集和测试准确度作为指标评估了模型在15种XNLI语言中进行正确预测的能力。具体结果请参见链接 associated paper

    结果

    Language en fr es de el bg ru tr ar vi th zh hi sw ur
    Accuracy 85.0 78.7 78.9 77.8 76.6 77.4 75.3 72.5 73.1 76.1 73.2 76.5 69.6 68.4 67.3

    环境影响

    可以使用链接 Machine Learning Impact calculator 中的方法来估计碳排放量,请参考链接 Lacoste et al. (2019)

    • 硬件类型:64个Volta GPU
    • 使用时间:需要更多信息
    • 云服务提供商:需要更多信息
    • 计算区域:需要更多信息
    • 排放的碳量:需要更多信息

    技术规格

    规格详情来自链接 associated paper ,请参阅论文以获得链接、引用和更多详情。另请参阅相关链接 GitHub Repo 以获得更多详情。

    模型架构和目标

    xlm-mlm-tlm-xnli15-1024是一个transformer模型,使用掩码语言建模(MLM)目标和翻译语言建模(TLM)目标进行预训练,然后在英文NLI数据集上进行微调。关于TLM目标,开发者表示:

    我们引入了一种新的翻译语言建模(TLM)目标,用于改善跨语言预训练。我们的TLM目标是MLM的扩展,我们在图1中展示的是将平行句子连接起来的例子。我们随机掩盖源句子和目标句子中的单词。为了预测英语句子中掩盖的单词,模型可以同时关注周围的英语单词或法语翻译,从而促进模型对英语和法语表示进行对齐。

    计算基础设施

    硬件和软件

    模型开发者表示:

    我们使用PyTorch(Paszke等人,2017)在64个Volta GPU上训练语言建模任务,在8个GPU上训练机器翻译任务。我们使用float16操作以加快训练速度,并减少模型的内存使用量。

    引用

    BibTeX:

    @article{lample2019cross,
      title={Cross-lingual language model pretraining},
      author={Lample, Guillaume and Conneau, Alexis},
      journal={arXiv preprint arXiv:1901.07291},
      year={2019}
    }
    

    APA:

    • Lample, G., & Conneau, A. (2019). Cross-lingual language model pretraining. arXiv preprint arXiv:1901.07291.

    模型卡片作者

    此模型卡片由Hugging Face团队撰写。

    如何开始使用该模型

    该模型使用语言嵌入来指定推理时使用的语言,请参阅链接 Hugging Face Multilingual Models for Inference docs 了解更多详情。