模型:
flax-community/roberta-hindi
使用掩码语言建模(MLM)目标在印地语上进行的预训练模型。 A more interactive & comparison demo is available here 。
这是由 Hugging Face 组织且由Google赞助的TPU使用的 Flax/Jax Community Week 的一部分。
RoBERTa Hindi是在大量印地语数据集(包括mc4、oscar和indic-nlp数据集)上预训练的transformers模型。
您可以直接使用此模型通过管道进行掩码语言建模:
>>> from transformers import pipeline >>> unmasker = pipeline('fill-mask', model='flax-community/roberta-hindi') >>> unmasker("हम आपके सुखद <mask> की कामना करते हैं") [{'score': 0.3310680091381073, 'sequence': 'हम आपके सुखद सफर की कामना करते हैं', 'token': 1349, 'token_str': ' सफर'}, {'score': 0.15317578613758087, 'sequence': 'हम आपके सुखद पल की कामना करते हैं', 'token': 848, 'token_str': ' पल'}, {'score': 0.07826550304889679, 'sequence': 'हम आपके सुखद समय की कामना करते हैं', 'token': 453, 'token_str': ' समय'}, {'score': 0.06304813921451569, 'sequence': 'हम आपके सुखद पहल की कामना करते हैं', 'token': 404, 'token_str': ' पहल'}, {'score': 0.058322224766016006, 'sequence': 'हम आपके सुखद अवसर की कामना करते हैं', 'token': 857, 'token_str': ' अवसर'}]
RoBERTa Hindi模型是在以下数据集的组合上进行预训练的:
文本使用字节级的Byte-Pair Encoding(BPE)进行分词,词汇大小为50265。模型的输入接受512个连续标记的片段,这些片段可能横跨多个文档。一个新文档的开始由<s>标记,结束由</s>标记。
每个句子的掩码过程的详细信息如下:
该模型在Google Cloud Engine TPUv3-8机器上进行训练(具有335 GB的RAM,1000 GB的硬盘,96个CPU核心)。使用mC4、oscar和上述其他数据集的组合数据集的随机洗牌来训练模型。训练日志位于 wandb 中。
RoBERTa Hindi在各种下游任务上进行了评估。结果如下所述。
Task | Task Type | IndicBERT | HindiBERTa | Indic Transformers Hindi BERT | RoBERTa Hindi Guj San | RoBERTa Hindi |
---|---|---|---|---|---|---|
BBC News Classification | Genre Classification | 76.44 | 66.86 | 77.6 | 64.9 | 73.67 |
WikiNER | Token Classification | - | 90.68 | 95.09 | 89.61 | 92.76 |
IITP Product Reviews | Sentiment Analysis | 78.01 | 73.23 | 78.39 | 66.16 | 75.53 |
IITP Movie Reviews | Sentiment Analysis | 60.97 | 52.26 | 70.65 | 49.35 | 61.29 |
非常感谢Hugging Face ?和Google Jax/Flax团队提供如此出色的社区周活动,特别感谢 Suraj Patil 和 Patrick von Platen 在整个周活动期间的指导。