模型:

snunlp/KR-FinBert-SC

英文

KR-FinBert和KR-FinBert-SC

在自然语言处理(NLP)领域取得了很多进展,众多研究表明使用小规模语料库进行领域适应,并利用有标签数据进行微调可以有效提高整体性能。我们通过在金融语料库上进一步预训练,并进行情感分析微调,提出了KR-FinBert用于金融领域。正如众多研究所示,通过适应性和进行下游任务,在实验中也能明显提高性能。

数据

该模型的训练数据扩展自来自韩文维基百科、通用新闻文章、国家法律信息中心爬取的法律文本以及 Korean Comments dataset 的文字。为了进行迁移学习,还添加了来自72家媒体来源(如《金融时报》、《韩国经济日报》等)的企业相关经济新闻文章和来自16家证券公司(如旗滕证券、三星证券等)的分析师报告。数据集包括了440,067个新闻标题及其内容和11,237份分析师报告。总数据规模约为13.22GB。对于mlm训练,我们将数据逐行拆分,总行数为6,379,315。KR-FinBert进行了5.5M步的训练,最大长度为512,训练批量大小为32,学习率为5e-5,使用NVIDIA TITAN XP训练模型花费了67.48小时。

下游任务

情感分类模型

使用50,000个带标签的数据进行下游任务性能评估。

Model Accuracy
KR-FinBert 0.963
KR-BERT-MEDIUM 0.958
KcBert-large 0.955
KcBert-base 0.953
KoBert 0.817

推理样例

Positive Negative
현대바이오, '폴리탁셀' 코로나19 치료 가능성에 19% 급등 영화관株 '코로나 빙하기' 언제 끝나나…"CJ CGV 올 4000억 손실 날수도"
이수화학, 3분기 영업익 176억…전년比 80%↑ C쇼크에 멈춘 흑자비행…대한항공 1분기 영업적자 566억
"GKL, 7년 만에 두 자릿수 매출성장 예상" '1000억대 횡령·배임' 최신원 회장 구속… SK네트웍스 "경영 공백 방지 최선"
위지윅스튜디오, 콘텐츠 활약에 사상 첫 매출 1000억원 돌파 부품 공급 차질에…기아차 광주공장 전면 가동 중단
삼성전자, 2년 만에 인도 스마트폰 시장 점유율 1위 '왕좌 탈환' 현대제철, 지난해 영업익 3,313억원···전년比 67.7% 감소

引用

@misc{kr-FinBert-SC,
  author = {Kim, Eunhee and Hyopil Shin},
  title = {KR-FinBert: Fine-tuning KR-FinBert for Sentiment Analysis},
  year = {2022},
  publisher = {GitHub},
  journal = {GitHub repository},
  howpublished = {\url{https://huggingface.co/snunlp/KR-FinBert-SC}}
}