模型:

snunlp/KR-Medium

英文

KR-BERT-MEDIUM

KR-BERT-MEDIUM是首尔国立大学计算语言学实验室开发的预训练的韩语BERT模型。

它基于我们基于字符级的 KR-BERT 模型,使用了WordPiece标记器。

这个模型的名字带有后缀“MEDIUM”,是因为它的训练数据相对于KR-BERT的原始数据集更多。我们还有另一个额外的模型,KR-BERT-EXPANDED,其中训练数据更加广泛,扩展自KR-BERT-MEDIUM的数据集,所以使用了“MEDIUM”后缀。

词汇表、参数和数据

Mulitlingual BERT (Google) KorBERT (ETRI) KoBERT (SKT) KR-BERT character KR-BERT-MEDIUM
vocab size 119,547 30,797 8,002 16,424 20,000
parameter size 167,356,416 109,973,391 92,186,880 99,265,066 102,015,010
data size - (The Wikipedia data for 104 languages) 23GB 4.7B morphemes - (25M sentences, 233M words) 2.47GB 20M sentences, 233M words 12.37GB 91M sentences, 1.17B words

这个模型的训练数据是通过从KR-BERT的原始数据集、韩文维基百科和新闻文章中添加从国家法律信息中心和 Korean Comments dataset 中爬取的法律文本进行扩展。此数据扩展旨在收集比KR-BERT的数据更多样化的文本领域。总数据大小约为12.37GB,由9100万句子和11.7亿个单词组成。

用户生成的评论数据集预计具有NSMC和HSD任务数据集的类似风格属性。这样的文本包括缩写、创造词、表情符号、间距错误和拼写错误。因此,我们将包含此类在线属性的数据集添加到我们现有的正式数据集中,如新闻文章和维基百科文本,以构建用于KR-BERT-MEDIUM的训练数据。因此,KR-BERT-MEDIUM在情感分析方面的结果比其他模型更好,并且随着训练数据规模更大、更多样化的模型的使用,性能得到了提升。

该模型的词汇表大小为20,000,其标记是使用WordPiece标记器基于扩展的训练数据进行训练的。

KR-BERT-MEDIUM的训练步骤为2M步,最大长度为128,训练批次大小为64,学习率为1e-4,使用Google Cloud TPU v3-8训练模型的时间为22小时。

模型

TensorFlow
  • BERT标记器,基于字符的模型( download )
PyTorch
  • 您可以从Transformers库导入
# pytorch, transformers

from transformers import AutoTokenizer, AutoModel

tokenizer = AutoTokenizer.from_pretrained("snunlp/KR-Medium", do_lower_case=False)

model = AutoModel.from_pretrained("snunlp/KR-Medium")

要求

  • transformers == 4.0.0
  • tensorflow < 2.0

下游任务

tensorflow
  • 在下载我们的预训练模型后,将它们放入models目录中。
  • 设置输出目录(用于微调)
  • 选择任务名称:NSMC用于影评分类,HATE用于仇恨言论检测
# tensorflow
python3 run_classifier.py \
  --task_name={NSMC, HATE} \
  --do_train=true \
  --do_eval=true \
  --do_predict=true \
  --do_lower_case=False\
  --max_seq_length=128 \
  --train_batch_size=128 \
  --learning_rate=5e-05 \
  --num_train_epochs=5.0 \
  --output_dir={output_dir}

性能

TensorFlow,测试集性能

multilingual BERT KorBERT character KR-BERT character WordPiece KR-BERT-MEDIUM
NSMC (Acc) 86.82 89.81 89.74 90.29
Hate Speech (F1) 52.03 54.33 54.53 57.91

联系方式

nlp.snu@gmail.com