模型:
tartuNLP/gpt-4-est-large
这是用于爱沙尼亚语的GPT模型。不是GPT-4 :-) 这是一个较大的1,230,321模型,从头开始训练,使用了22亿个单词(包括爱沙尼亚国家语料库、新闻抓取和通用抓取的数据)。
在训练数据中,每个句子前面都有一个文本域标签,使用该模型时需要将其作为前缀添加到文本中:>general<、>web<、>news<、>doaj<和>wiki<(分别表示一般文本、网络爬取文本、新闻、文章摘要和维基百科文本)。使用前缀的示例:">web< Kas tead, et"。
更多细节即将添加。