英文

RoBERTa基础模型 - 印地语

使用掩码语言建模(MLM)目标在印地语上进行的预训练模型。 A more interactive & comparison demo is available here

这是由 Hugging Face 组织且由Google赞助的TPU使用的 Flax/Jax Community Week 的一部分。

模型描述

RoBERTa Hindi是在大量印地语数据集(包括mc4、oscar和indic-nlp数据集)上预训练的transformers模型。

使用方法

您可以直接使用此模型通过管道进行掩码语言建模:

>>> from transformers import pipeline
>>> unmasker = pipeline('fill-mask', model='flax-community/roberta-hindi')
>>> unmasker("हम आपके सुखद <mask> की कामना करते हैं")
[{'score': 0.3310680091381073,
  'sequence': 'हम आपके सुखद सफर की कामना करते हैं',
  'token': 1349,
  'token_str': ' सफर'},
 {'score': 0.15317578613758087,
  'sequence': 'हम आपके सुखद पल की कामना करते हैं',
  'token': 848,
  'token_str': ' पल'},
 {'score': 0.07826550304889679,
  'sequence': 'हम आपके सुखद समय की कामना करते हैं',
  'token': 453,
  'token_str': ' समय'},
 {'score': 0.06304813921451569,
  'sequence': 'हम आपके सुखद पहल की कामना करते हैं',
  'token': 404,
  'token_str': ' पहल'},
 {'score': 0.058322224766016006,
  'sequence': 'हम आपके सुखद अवसर की कामना करते हैं',
  'token': 857,
  'token_str': ' अवसर'}]

训练数据

RoBERTa Hindi模型是在以下数据集的组合上进行预训练的:

训练过程

预处理

文本使用字节级的Byte-Pair Encoding(BPE)进行分词,词汇大小为50265。模型的输入接受512个连续标记的片段,这些片段可能横跨多个文档。一个新文档的开始由<s>标记,结束由</s>标记。

每个句子的掩码过程的详细信息如下:

  • 15%的标记被掩码。
  • 在80%的情况下,掩码标记被替换为<mask>。
  • 在10%的情况下,掩码标记被随机选择的标记(不同于替换后的标记)替换。
  • 在其余10%的情况下,掩码标记保持不变。与BERT不同,掩码是在预训练期间动态进行的(例如,它在每个时期都会更改,而不是固定的)。

预训练

该模型在Google Cloud Engine TPUv3-8机器上进行训练(具有335 GB的RAM,1000 GB的硬盘,96个CPU核心)。使用mC4、oscar和上述其他数据集的组合数据集的随机洗牌来训练模型。训练日志位于 wandb 中。

评估结果

RoBERTa Hindi在各种下游任务上进行了评估。结果如下所述。

Task Task Type IndicBERT HindiBERTa Indic Transformers Hindi BERT RoBERTa Hindi Guj San RoBERTa Hindi
BBC News Classification Genre Classification 76.44 66.86 77.6 64.9 73.67
WikiNER Token Classification - 90.68 95.09 89.61 92.76
IITP Product Reviews Sentiment Analysis 78.01 73.23 78.39 66.16 75.53
IITP Movie Reviews Sentiment Analysis 60.97 52.26 70.65 49.35 61.29

团队成员

致谢

非常感谢Hugging Face ?和Google Jax/Flax团队提供如此出色的社区周活动,特别感谢 Suraj Patil Patrick von Platen 在整个周活动期间的指导。