百川智能推出全球最长上下文窗口大模型Baichuan2-192K,领先Claude2

2023年10月31日 由 neo 发表 389 0

百川智能在10月30日发布了Baichuan2-192K大模型,它的上下文窗口长度达到了192K,是全球最长的。Baichuan2-192K能够处理约35万个汉字,是目前最优秀的长窗口大模型Claude2的4.4倍,更是GPT-4的14倍。

img_pic_381698634594

Baichuan2-192K在长窗口文本生成质量、长上下文理解以及长文本问答、摘要等方面的表现也全面领先Claude2,在Dureader、NarrativeQA、LSHT、TriviaQA等10项中英文长文本评测集上有7项取得SOTA。

百川智能通过算法和工程的极致优化,实现了窗口长度和模型性能之间的平衡,做到了窗口长度和模型性能的同步提升。算法方面,百川智能提出了一种针对RoPE和ALiBi动态位置编码的外推方案,该方案能够对不同长度的ALiBi位置编码进行不同程度的Attention-mask动态内插,在保证分辨率的同时增强了模型对长序列依赖的建模能力。工程方面,在自主开发的分布式训练框架基础上,百川智能整合了张量并行、流水并行、序列并行、重计算以及Offload功能等,独创了一套全面的4D并行分布式方案。该方案能够根据模型具体的负载情况,自动寻找最适合的分布式策略,极大降低了长窗口训练和推理过程中的显存占用。

百川智能已开放了Baichuan2-192K的API接口,并启动了API内测,开放给法律、媒体、金融等行业的核心合作伙伴。Baichuan2-192K能够一次性处理和分析数百页的材料,对于长篇文档关键信息提取与分析,长文档摘要、长文档审核、长篇文章或报告编写、复杂编程辅助等真实场景都有巨大的助力作用。

文章来源:https://www.donews.com/news/detail/1/3749317.html
欢迎关注ATYUN官方公众号
商务合作及内容投稿请联系邮箱:bd@atyun.com
评论 登录
写评论取消
回复取消