BERT用于越南文的训练数据集超过20 GB的新闻数据

应用于情感分析任务的编号为 AIViVN's comments dataset

该模型在公共排行榜上的得分为0.90268（冠军得分为0.90087），Bert4news用于ViNLPtoolkit的越南文工具包，用于分词和命名实体识别的工具包（编号为 https://github.com/bino282/ViNLP ）

我们使用word sentencepiece，采用基本的BERT标记化和与BERT基本相同的配置，其中小写为False。

您可以下载经过训练的模型：

tensorflow 。
pytorch 。

使用huggingface/transformers进行操作。

import torch
from transformers import BertTokenizer,BertModel
tokenizer= BertTokenizer.from_pretrained("NlpHUST/vibert4news-base-cased")
bert_model = BertModel.from_pretrained("NlpHUST/vibert4news-base-cased")

line = "Tôi là sinh viên trường Bách Khoa Hà Nội ."
input_id = tokenizer.encode(line,add_special_tokens = True)
att_mask = [int(token_id > 0) for token_id in input_id]
input_ids = torch.tensor([input_id])
att_masks = torch.tensor([att_mask])
with torch.no_grad():
    features = bert_model(input_ids,att_masks)

print(features)

基于BERT的越南文工具包

ViNLP是越南语的系统注释，它使用预训练模型 Bert4news 来对越南组件中的自然语言处理问题进行微调，并取得了很高的准确性，包括词分割、命名实体识别（NER）。

安装

git clone https://github.com/bino282/ViNLP.git
cd ViNLP
python setup.py develop build

测试分词

该模型在VLSP 2013数据集上达到F1得分：0.984。

Model	F1
BertVnTokenizer	98.40
DongDu	96.90
JvnSegmenter-Maxent	97.00
JvnSegmenter-CRFs	97.06
VnTokenizer	97.33
UETSegmenter	97.87
VnTokenizer	97.33
VnCoreNLP (i.e. RDRsegmenter)	97.90

from ViNLP import BertVnTokenizer
tokenizer = BertVnTokenizer()
sentences = tokenizer.split(["Tổng thống Donald Trump ký sắc lệnh cấm mọi giao dịch của Mỹ với ByteDance và Tecent - chủ sở hữu của 2 ứng dụng phổ biến TikTok và WeChat sau 45 ngày nữa."])
print(sentences[0])

Tổng_thống Donald_Trump ký sắc_lệnh cấm mọi giao_dịch của Mỹ với ByteDance và Tecent - chủ_sở_hữu của 2 ứng_dụng phổ_biến TikTok và WeChat sau 45 ngày nữa .

测试命名实体识别

该模型在包括嵌套实体在内的VLSP 2018所有命名实体上达到F1得分：0.786。

Model	F1
BertVnNer	78.60
VNER Attentive Neural Network	77.52
vietner CRF (ngrams + word shapes + cluster + w2v)	76.63
ZA-NER BiLSTM	74.70

from ViNLP import BertVnNer
bert_ner_model = BertVnNer()
sentence = "Theo SCMP, báo cáo của CSIS với tên gọi Định hình Tương lai Chính sách của Mỹ với Trung Quốc cũng cho thấy sự ủng hộ tương đối rộng rãi của các chuyên gia về việc cấm Huawei, tập đoàn viễn thông khổng lồ của Trung Quốc"
entities = bert_ner_model.annotate([sentence])
print(entities)

[{'ORGANIZATION': ['SCMP', 'CSIS', 'Huawei'], 'LOCATION': ['Mỹ', 'Trung Quốc']}]

使用基本配置进行训练。

python train_pytorch.py \\\\
  --model_path=bert4news.pytorch \\\\
  --max_len=200 \\\\
  --batch_size=16 \\\\
  --epochs=6 \\\\
  --lr=2e-5

联系信息

如需与该项目相关的个人交流，请联系Nha Nguyen Van（nha282@gmail.com）。

作者:

NLP HUST

数据集大小:

1 GB