模型:
indolem/indobert-base-uncased
IndoBERT 是 Bert 模型的印尼语版本。我们使用超过 2.2 亿个单词对模型进行训练,这些单词来自三个主要来源:
我们训练了 180 个周期(240 万个步骤),在开发集上的最终困惑度是 3.97(与英文的 BERT-base 类似)。
该 IndoBERT 模型被用来研究 IndoLEM-一个涵盖印尼语的七个任务的基准测试,涵盖了形态句法、语义和篇章等方面。
Task | Metric | Bi-LSTM | mBERT | MalayBERT | IndoBERT |
---|---|---|---|---|---|
POS Tagging | Acc | 95.4 | 96.8 | 96.8 | 96.8 |
NER UGM | F1 | 70.9 | 71.6 | 73.2 | 74.9 |
NER UI | F1 | 82.2 | 82.2 | 87.4 | 90.1 |
Dep. Parsing (UD-Indo-GSD) | UAS/LAS | 85.25/80.35 | 86.85/81.78 | 86.99/81.87 | 87.12 / 82.32 |
Dep. Parsing (UD-Indo-PUD) | UAS/LAS | 84.04/79.01 | 90.58 / 85.44 | 88.91/83.56 | 89.23/83.95 |
Sentiment Analysis | F1 | 71.62 | 76.58 | 82.02 | 84.13 |
Summarization | R1/R2/RL | 67.96/61.65/67.24 | 68.40/61.66/67.67 | 68.44/61.38/67.71 | 69.93 / 62.86 / 69.21 |
Next Tweet Prediction | Acc | 73.6 | 92.4 | 93.1 | 93.7 |
Tweet Ordering | Spearman corr. | 0.45 | 0.53 | 0.51 | 0.59 |
该论文已经发表在第 28 届 COLING 2020 上。有关基准测试的更多详细信息,请参阅 https://indolem.github.io 。
from transformers import AutoTokenizer, AutoModel tokenizer = AutoTokenizer.from_pretrained("indolem/indobert-base-uncased") model = AutoModel.from_pretrained("indolem/indobert-base-uncased")
如果您使用了我们的工作,请引用:
@inproceedings{koto2020indolem, title={IndoLEM and IndoBERT: A Benchmark Dataset and Pre-trained Language Model for Indonesian NLP}, author={Fajri Koto and Afshin Rahimi and Jey Han Lau and Timothy Baldwin}, booktitle={Proceedings of the 28th COLING}, year={2020} }