英文

关于

IndoBERT 是 Bert 模型的印尼语版本。我们使用超过 2.2 亿个单词对模型进行训练,这些单词来自三个主要来源:

  • 印尼维基百科(7400 万个单词)
  • Kompas、Tempo(Tala et al., 2003)和 Liputan6 的新闻文章(总共 5500 万个单词)
  • 印尼网络语料库(Medved 和 Suchomel,2017)(9000 万个单词)

我们训练了 180 个周期(240 万个步骤),在开发集上的最终困惑度是 3.97(与英文的 BERT-base 类似)。

该 IndoBERT 模型被用来研究 IndoLEM-一个涵盖印尼语的七个任务的基准测试,涵盖了形态句法、语义和篇章等方面。

Task Metric Bi-LSTM mBERT MalayBERT IndoBERT
POS Tagging Acc 95.4 96.8 96.8 96.8
NER UGM F1 70.9 71.6 73.2 74.9
NER UI F1 82.2 82.2 87.4 90.1
Dep. Parsing (UD-Indo-GSD) UAS/LAS 85.25/80.35 86.85/81.78 86.99/81.87 87.12 / 82.32
Dep. Parsing (UD-Indo-PUD) UAS/LAS 84.04/79.01 90.58 / 85.44 88.91/83.56 89.23/83.95
Sentiment Analysis F1 71.62 76.58 82.02 84.13
Summarization R1/R2/RL 67.96/61.65/67.24 68.40/61.66/67.67 68.44/61.38/67.71 69.93 / 62.86 / 69.21
Next Tweet Prediction Acc 73.6 92.4 93.1 93.7
Tweet Ordering Spearman corr. 0.45 0.53 0.51 0.59

该论文已经发表在第 28 届 COLING 2020 上。有关基准测试的更多详细信息,请参阅 https://indolem.github.io

如何使用

加载模型和分词器(已在 transformers==3.5.1 版本上进行测试)

from transformers import AutoTokenizer, AutoModel
tokenizer = AutoTokenizer.from_pretrained("indolem/indobert-base-uncased")
model = AutoModel.from_pretrained("indolem/indobert-base-uncased")

引用

如果您使用了我们的工作,请引用:

@inproceedings{koto2020indolem,
  title={IndoLEM and IndoBERT: A Benchmark Dataset and Pre-trained Language Model for Indonesian NLP},
  author={Fajri Koto and Afshin Rahimi and Jey Han Lau and Timothy Baldwin},
  booktitle={Proceedings of the 28th COLING},
  year={2020}
}