开源社区最近推出了一款名为Eagle 7B的新型RNN模型,基于RWKV-v5架构。这款模型在1.1万亿个令牌上进行训练,并支持100多种语言。RWKV架构,也称为“旋转加权键值”,是循环神经网络(RNN)架构的一种变体,广泛应用于人工智能和自然语言处理领域。
Eagle 7B承诺在推理成本、环境效率和语言多样性方面成为领先的7B模型,降低推理成本,提供出色的性能。这款模型拥有75.2亿个参数,在多语言基准测试中表现出色,为同类模型设定了新的标准。它与更大规模的模型在英语语言评估中具有竞争力,而且作为一种“无注意力变换器”具有独特性,尽管针对特定用途可能需要进行额外的调整。
Eagle 7B在多语言性能方面表现出色,声称在覆盖23种语言的基准测试中取得了显著的结果。在英语性能方面也有显著提升,超过了其前身RWKV v4,并与顶级模型相竞争。这种模型在Apache 2.0许可下可用,可以从HuggingFace平台下载,适用于个人和商业用途。
Eagle 7B旨在实现更具包容性的AI技术,支持更广泛的语言范围,通过更可扩展的架构和更有效地利用数据来实现这一目标。这种模型挑战了变换器模型的主导地位,证明了使用可比数据量进行训练时,像RWKV这样的RNN可以实现优越的性能。
在RWKV模型中,旋转机制有助于更好地理解序列中元素的位置或顺序,而加权键值则使模型更高效地从序列中的先前元素中检索存储的信息。尽管对于RWKV与变换器相比的可扩展性仍存在疑问,但团队对它的潜力持乐观态度。
未来计划包括增加额外的训练、发布一篇关于Eagle 7B的深入论文,并开发一个2T模型。随着开源社区的不断发展和创新,我们期待更多卓越的模型和技术将推动人工智能领域的发展。