Salesforce发布基于8K输入序列长度训练的新LLM模型
2023年06月30日 由 daydream 发表
567066
0
美国SaaS巨头Salesforce最近推出了XGen-7B,这是一系列基于8K输入序列长度训练的7B大型语言模型(LLM)。这些模型是根据Apache 2.0许可证发布的。
在标准的NLP基准测试中,与其他开源LLM如Falcon,LLaMA,Redpajama和OpenLLaMA等相比,XGen取得了相当或更好的结果。
迄今为止,像上述那样的模型通常在最大长度为2K的标记序列上进行训练,这是对长序列建模的一个关键限制。
Salesforce在一篇博文中表示:“鉴于此,我们训练了一系列名为XGen的7B LLMs,采用标准的密集注意力机制,能够处理长达8K的序列长度,训练数据量达到了1.5T个标记。我们还对XGen模型进行了公共领域指导性数据的微调,创建了指导性微调版本(XGen-7B-inst)。”
最近,Salesforce还宣布在印度推出了适用于中小微企业(MSME)的Salesforce Starter。
Starter是一个易于使用的CRM套件,包括销售、服务和电子邮件推广工具,帮助企业快速入门,提供了提升客户体验、降低成本和推动收入增长所需的工具。
本月早些时候,Salesforce Ventures宣布扩大其生成式人工智能基金,将2.5亿美元基金增加到5亿美元,以持续支持AI初创企业生态系统,并推动负责任的生成式人工智能的发展。
来源:https://analyticsindiamag.com/salesforce-introduces-new-llms-trained-on-8k-input-sequence-length/