模型:
snunlp/KR-FinBert-SC
在自然语言处理(NLP)领域取得了很多进展,众多研究表明使用小规模语料库进行领域适应,并利用有标签数据进行微调可以有效提高整体性能。我们通过在金融语料库上进一步预训练,并进行情感分析微调,提出了KR-FinBert用于金融领域。正如众多研究所示,通过适应性和进行下游任务,在实验中也能明显提高性能。
该模型的训练数据扩展自来自韩文维基百科、通用新闻文章、国家法律信息中心爬取的法律文本以及 Korean Comments dataset 的文字。为了进行迁移学习,还添加了来自72家媒体来源(如《金融时报》、《韩国经济日报》等)的企业相关经济新闻文章和来自16家证券公司(如旗滕证券、三星证券等)的分析师报告。数据集包括了440,067个新闻标题及其内容和11,237份分析师报告。总数据规模约为13.22GB。对于mlm训练,我们将数据逐行拆分,总行数为6,379,315。KR-FinBert进行了5.5M步的训练,最大长度为512,训练批量大小为32,学习率为5e-5,使用NVIDIA TITAN XP训练模型花费了67.48小时。
使用50,000个带标签的数据进行下游任务性能评估。
Model | Accuracy |
---|---|
KR-FinBert | 0.963 |
KR-BERT-MEDIUM | 0.958 |
KcBert-large | 0.955 |
KcBert-base | 0.953 |
KoBert | 0.817 |
Positive | Negative |
---|---|
현대바이오, '폴리탁셀' 코로나19 치료 가능성에 19% 급등 | 영화관株 '코로나 빙하기' 언제 끝나나…"CJ CGV 올 4000억 손실 날수도" |
이수화학, 3분기 영업익 176억…전년比 80%↑ | C쇼크에 멈춘 흑자비행…대한항공 1분기 영업적자 566억 |
"GKL, 7년 만에 두 자릿수 매출성장 예상" | '1000억대 횡령·배임' 최신원 회장 구속… SK네트웍스 "경영 공백 방지 최선" |
위지윅스튜디오, 콘텐츠 활약에 사상 첫 매출 1000억원 돌파 | 부품 공급 차질에…기아차 광주공장 전면 가동 중단 |
삼성전자, 2년 만에 인도 스마트폰 시장 점유율 1위 '왕좌 탈환' | 현대제철, 지난해 영업익 3,313억원···전년比 67.7% 감소 |
@misc{kr-FinBert-SC, author = {Kim, Eunhee and Hyopil Shin}, title = {KR-FinBert: Fine-tuning KR-FinBert for Sentiment Analysis}, year = {2022}, publisher = {GitHub}, journal = {GitHub repository}, howpublished = {\url{https://huggingface.co/snunlp/KR-FinBert-SC}} }