模型:
skt/ko-gpt-trinity-1.2B-v0.5
Ko-GPT-Trinity 1.2B是一个使用SK telecom复制的GPT-3架构设计的transformer模型。Ko-GPT-Trinity指的是模型的类别,而1.2B表示该预训练模型的参数数量。
2021年5月
语言模型
12亿参数模型
Ko-GPT-Trinity 1.2B是在SK telecom创建的一个大规模策划数据集Ko-DAT上进行训练的。
该模型在Ko-DAT上进行了350亿令牌的训练,共计72000步。它以掩码自回归语言模型的形式进行训练,使用交叉熵损失。
该模型学习了韩语的内部表示,可以用于提取下游任务中有用的特征。该模型在生成从提示文本开始的文本方面表现出色,这也是预训练的目标。
Ko-GPT-Trinity是在Ko-DAT上训练的,这个数据集已知包含亵渎、下流、政治敏感以及具有侮辱性的语言。因此,Ko-GPT-Trinity可能会生成社会不可接受的文本。与所有语言模型一样,很难预测Ko-GPT-Trinity对特定提示的响应,可能会出现冒犯性内容,而不会有警告。
Ko-GPT-Trinity被训练为一个自回归语言模型。这意味着它的核心功能是接受一串文本并预测下一个标记。尽管语言模型被广泛用于除此之外的任务,但这是一个正在进行研究的活跃领域。已知的限制包括以下几点:
主要面向韩语:Ko-GPT-Trinity主要是在韩语文本上进行训练的,最适合分类、搜索、摘要或生成这种文本。Ko-GPT-Trinity默认情况下对于与其训练数据的数据分布不同的输入效果会更差,包括非韩语的语言以及那些在训练数据中没有很好代表性的特定方言。
可解释性和可预测性:对于如何解释或预测Ko-GPT-Trinity的行为的能力非常有限,这是大多数深度学习系统共有的限制,尤其是在这种规模的模型中。
对新输入的高方差:Ko-GPT-Trinity对于新输入的预测不一定很好。这可以从其性能的方差明显高于标准基准中人类表现的方差中观察到。
Model and Size | BoolQ | CoPA | WiC |
---|---|---|---|
Ko-GPT-Trinity 1.2B | 71.77 | 68.66 | 78.73 |
KoElectra-base | 65.17 | 67.56 | 77.27 |
KoBERT-base | 55.97 | 62.24 | 77.60 |
请联系 [Eric] ( eric.davis@sktair.com )