模型:
snunlp/KR-Medium
KR-BERT-MEDIUM是首尔国立大学计算语言学实验室开发的预训练的韩语BERT模型。
它基于我们基于字符级的 KR-BERT 模型,使用了WordPiece标记器。
这个模型的名字带有后缀“MEDIUM”,是因为它的训练数据相对于KR-BERT的原始数据集更多。我们还有另一个额外的模型,KR-BERT-EXPANDED,其中训练数据更加广泛,扩展自KR-BERT-MEDIUM的数据集,所以使用了“MEDIUM”后缀。
Mulitlingual BERT (Google) | KorBERT (ETRI) | KoBERT (SKT) | KR-BERT character | KR-BERT-MEDIUM | |
---|---|---|---|---|---|
vocab size | 119,547 | 30,797 | 8,002 | 16,424 | 20,000 |
parameter size | 167,356,416 | 109,973,391 | 92,186,880 | 99,265,066 | 102,015,010 |
data size | - (The Wikipedia data for 104 languages) | 23GB 4.7B morphemes | - (25M sentences, 233M words) | 2.47GB 20M sentences, 233M words | 12.37GB 91M sentences, 1.17B words |
这个模型的训练数据是通过从KR-BERT的原始数据集、韩文维基百科和新闻文章中添加从国家法律信息中心和 Korean Comments dataset 中爬取的法律文本进行扩展。此数据扩展旨在收集比KR-BERT的数据更多样化的文本领域。总数据大小约为12.37GB,由9100万句子和11.7亿个单词组成。
用户生成的评论数据集预计具有NSMC和HSD任务数据集的类似风格属性。这样的文本包括缩写、创造词、表情符号、间距错误和拼写错误。因此,我们将包含此类在线属性的数据集添加到我们现有的正式数据集中,如新闻文章和维基百科文本,以构建用于KR-BERT-MEDIUM的训练数据。因此,KR-BERT-MEDIUM在情感分析方面的结果比其他模型更好,并且随着训练数据规模更大、更多样化的模型的使用,性能得到了提升。
该模型的词汇表大小为20,000,其标记是使用WordPiece标记器基于扩展的训练数据进行训练的。
KR-BERT-MEDIUM的训练步骤为2M步,最大长度为128,训练批次大小为64,学习率为1e-4,使用Google Cloud TPU v3-8训练模型的时间为22小时。
# pytorch, transformers from transformers import AutoTokenizer, AutoModel tokenizer = AutoTokenizer.from_pretrained("snunlp/KR-Medium", do_lower_case=False) model = AutoModel.from_pretrained("snunlp/KR-Medium")
# tensorflow python3 run_classifier.py \ --task_name={NSMC, HATE} \ --do_train=true \ --do_eval=true \ --do_predict=true \ --do_lower_case=False\ --max_seq_length=128 \ --train_batch_size=128 \ --learning_rate=5e-05 \ --num_train_epochs=5.0 \ --output_dir={output_dir}
TensorFlow,测试集性能
multilingual BERT | KorBERT character | KR-BERT character WordPiece | KR-BERT-MEDIUM | |
---|---|---|---|---|
NSMC (Acc) | 86.82 | 89.81 | 89.74 | 90.29 |
Hate Speech (F1) | 52.03 | 54.33 | 54.53 | 57.91 |
nlp.snu@gmail.com