英文

gpt-4-est-large

这是用于爱沙尼亚语的GPT模型。不是GPT-4 :-) 这是一个较大的1,230,321模型,从头开始训练,使用了22亿个单词(包括爱沙尼亚国家语料库、新闻抓取和通用抓取的数据)。

Colab demo

格式

在训练数据中,每个句子前面都有一个文本域标签,使用该模型时需要将其作为前缀添加到文本中:>general<、>web<、>news<、>doaj<和>wiki<(分别表示一般文本、网络爬取文本、新闻、文章摘要和维基百科文本)。使用前缀的示例:">web< Kas tead, et"。

模型详情

  • 层数:24
  • 头数:24
  • 嵌入大小:1536
  • 上下文大小:1024
  • 总大小:723.58M 参数

更多细节即将添加。

框架版本

  • Transformers 4.13.0.dev0
  • Pytorch 1.10.0+cu102
  • Datasets 1.15.1
  • Tokenizers 0.10.3