英文

T5-Efficient-BASE (Deep-Narrow version)

T5-Efficient-BASE是 Google's original T5 的一个变形,遵循 T5 model architecture 。它是一个仅预训练的检查点,并且是由Yi Tay、MostafaDehghani、Jinfeng Rao、William Fedus、Samira Abnar、Hyung Won Chung、Sharan Narang、Dani Yogatama、Ashish Vaswani、Donald Metzler在 Scale Efficiently: Insights from Pre-training and Fine-tuning Transformers 的论文中发布的。

简而言之,论文指出深窄模型架构对下游性能比其他参数相似的模型架构更有利。

引用论文的话:

在考虑其他维度的均匀缩放之前,我们通常推荐一个深窄策略,即在增加模型深度之前增加模型的深度。这主要是因为模型的深度在前几节中展示的Pareto前沿中产生了多大影响。具体而言,总体来说,一个小的(深而窄)模型与基本模型相比一般更有效率。同样,一个高的基本模型也可能比一个大模型更有效率。我们通常发现,不论规模大小,即使随着我们继续堆叠层,绝对性能可能会增加,但Pareto效率的相对增益会随着层数的增加而减小,收敛到32到36层。最后,我们注意到我们这里的效率概念与任何一个计算维度有关,即参数、浮点操作数或吞吐量(速度)。我们报告了所有三个关键效率指标(参数个数、FLOP和速度),并将该决策留给从业者决定要考虑哪个计算维度。

更准确地说,模型的深度定义为依次堆叠的变压器块的数量。因此,每个变压器块逐个处理一个单词嵌入序列。

详细的模型架构

这个模型检查点-t5-efficient-base-属于基本模型类型,没有变体。它有2.2293亿个参数,因此在完整精度(fp32)下需要约891.73 MB的内存,或者在半精度(fp16或bf16)下需要445.86 MB的内存。

原始T5模型架构的摘要可以在这里看到:

Model nl (el/dl) ff dm kv nh #Params
Tiny 4/4 1024 256 32 4 16M
Mini 4/4 1536 384 32 8 31M
Small 6/6 2048 512 32 8 60M
Base 12/12 3072 768 64 12 220M
Large 24/24 4096 1024 64 16 738M
Xl 24/24 16384 1024 128 32 3B
XXl 24/24 65536 1024 128 128 11B

使用了以下缩写:

Abbreviation Definition
nl Number of transformer blocks (depth)
dm Dimension of embedding vector (output vector of transformers block)
kv Dimension of key/value projection matrix
nh Number of attention heads
ff Dimension of intermediate vector within transformer block (size of feed-forward projection matrix)
el Number of transformer blocks in the encoder (encoder depth)
dl Number of transformer blocks in the decoder (decoder depth)
sh Signifies that attention heads are shared
skv Signifies that key-values projection matrices are tied

如果模型检查点没有指定el或dl,则编码器和解码器层的数量都对应于nl。

预训练

该检查点在 Colossal, Cleaned version of Common Crawl (C4) 上进行了524288步的预训练,使用了基于跨度的遮蔽语言建模(MLM)目标。

微调

注:该模型是一个预训练的检查点,必须进行微调以供实际使用。该检查点的预训练是用英语进行的,因此仅适用于英语NLP任务。您可以参考以下示例来了解如何微调模型: PyTorch: Tensorflow: JAX/Flax:

下游性能

待定:如果有表格可用,请添加

计算复杂度

待定:如果有表格可用,请添加

更多信息

强烈推荐读者仔细阅读原始论文 Scale Efficiently: Insights from Pre-training and Fine-tuning Transformers ,以更深入地了解该模型检查点。如下所述,包括sh或skv模型架构变体的检查点尚未在Transformers中移植,因为它们可能在实际使用中有限,并缺乏更详细的描述。这些检查点保留下来,因为它们可能在未来可能被移植。