模型:
tartuNLP/gpt-4-est-base
这是用于爱沙尼亚语的GPT。不是GPT-4 :-) 该模型是基于 GPT2 个训练样本进行训练的,训练数据包括22亿个词(爱沙尼亚国家语料库+新闻爬取+通用爬取),训练了3个周期。
对训练数据进行了文本领域标记,使用该模型时需要在前缀中添加对应的标记:>general<(通用文本)、>web<(网络爬取文本)、>news<(新闻)、>doaj<(文章摘要)和>wiki<(维基百科文本)。使用示例:">web< Kas tead, et"。
待添加更多详细信息。