英文

xlm-v-base-language-id

这个模型是在 google/fleurs 数据集上对 facebook/xlm-v-base 模型进行微调得到的。它在评估集上取得了以下结果:

  • 损失:0.0241
  • 准确率:0.9930

用法

最简单的使用该模型的方法是通过文本分类流程:

from transformers import pipeline

model_id = "juliensimon/xlm-v-base-language-id"
p = pipeline("text-classification", model=model_id)
p("Hello world")
# [{'label': 'English', 'score': 0.9802148342132568}]

该模型也与 Optimum Intel 兼容。

例如,您可以使用Intel OpenVINO进行优化,并享受2倍的推理加速(或更多)。

from optimum.intel.openvino import OVModelForSequenceClassification
from transformers import AutoTokenizer, pipeline

model_id = "juliensimon/xlm-v-base-language-id"
ov_model = OVModelForSequenceClassification.from_pretrained(model_id)
tokenizer = AutoTokenizer.from_pretrained(model_id)
p = pipeline("text-classification", model=ov_model, tokenizer=tokenizer)
p("Hello world")
# [{'label': 'English', 'score': 0.9802149534225464}]

模型的OpenVINO版本可在存储库中找到。

预期用途和局限性

该模型可以准确地检测102种语言。您可以在 dataset 页面上找到语言列表。

训练和评估数据

该模型已经在完整的google/fleurs训练和验证集上进行了训练和评估。

训练过程

训练脚本已包含在存储库中。该模型在AWS的p3dn.24xlarge实例上进行了训练(8个NVIDIA V100 GPU)。

训练超参数

在训练过程中使用了以下超参数:

  • 学习率:3e-05
  • 训练批大小:128
  • 评估批大小:128
  • 种子:42
  • 梯度累积步数:4
  • 总训练批大小:512
  • 优化器:Adam,使用betas=(0.9,0.999)和epsilon=1e-08
  • lr_scheduler_type:linear
  • lr_scheduler_warmup_ratio:0.1
  • num_epochs:5
  • mixed_precision_training:Native AMP

训练结果

Training Loss Epoch Step Validation Loss Accuracy
0.6368 1.0 531 0.4593 0.9689
0.059 2.0 1062 0.0412 0.9899
0.0311 3.0 1593 0.0275 0.9918
0.0255 4.0 2124 0.0243 0.9928
0.017 5.0 2655 0.0241 0.9930

框架版本

  • Transformers 4.26.0
  • Pytorch 1.13.1
  • Datasets 2.8.0
  • Tokenizers 0.13.2