模型:

yiyanghkust/finbert-pretrain

英文

FinBERT是在金融沟通文本上预训练的BERT模型。其目的是增强金融自然语言处理的研究和实践。它是基于以下三个金融沟通语料库进行训练的,总共包含49亿个标记。

  • 企业报告10-K和10-Q:25亿个标记
  • 盈利电话会议记录:13亿个标记
  • 分析师报告:11亿个标记

如果您在学术工作中使用该模型,请引用以下论文:

Huang, Allen H., Hui Wang和Yi Yang. "FinBERT: A Large Language Model for Extracting Information from Financial Text." Contemporary Accounting Research (2022).

Yang, Yi, Mark Christopher Siy Uy和Allen Huang. "Finbert: A pretrained language model for financial communications." arXiv preprint arXiv:2006.08097 (2020).

FinBERT可以进一步针对下游任务进行微调。具体而言,我们已经为金融情感分析、ESG分类、前瞻性陈述分类等任务微调了FinBERT。请访问此处获取有关这些任务特定模型和FinBERT最新开发的更多详细信息。