Writer的Palmyra LLM在企业级AI性能基准测试中崭露头角

2024年01月10日 由 daydream 发表 311 0

Writer是一家成立三年的旧金山初创公司,于2023年9月筹集到1亿美元资金,以将其专有的面向企业的大型语言模型推广至更多公司。尽管与OpenAI、Anthropic或Meta,甚至与如法国Mistral AI这样的热门LLM初创公司相比,Writer并不经常成为新闻头条的焦点。


但是,Writer内部开发的名为Palmyra的LLM,可能确实是在企业用例方面能够大有作为的小型AI模型。包括埃森哲、先锋集团、Hubspot和Pinterest在内的公司都是Writer的客户,它们使用该公司由Palmyra模型驱动的创意和生产力平台。


微信截图_20240110135029


斯坦福大学HAI的基础模型研究中心上个月增加了新的模型到其基准测试中,并开发了一种新的基准测试,称为HELM Lite,这包括了上下文学习功能。对LLM来说,上下文学习意味着在推断时通过在提示语中呈现的一小组示例学习新任务。


Writer的LLM在AI基准测试中表现“出乎意料”得好。


尽管GPT-4在新基准测试中名列前茅,但Palmyra的X V2和X V3模型“或许出乎意料”的表现出色,“尽管它们是较小型的模型”,斯坦福基础模型研究中心主任Percy Liang发帖称。


微信截图_20240110142919


在机器翻译领域,Palmyra的表现尤为突出——处于第一名。Writer首席执行官May Habib在LinkedIn上的一篇帖子中说:“Writer的Palmyra X表现甚至比经典基准测试还要好。我们不仅是MMLU基准测试中的顶尖模型,而且是整体在运行中的顶尖模型——仅次于被分析的GPT-4预览版。在翻译基准测试上——一个新的测试——我们排名第一。”


企业需要使用经济可行的模型来构建


在接受采访时,Habib称企业将很难以经济上可行的成本,在自己的环境中运行像GPT-4这样在1.2万亿token上进行训练的模型。“2024年的生成式AI用例现在实际上需要经济上有意义。”她说。


她还指出,企业正在基于GPT模型构建用例,然后“两三个月后提示就不再起作用,因为模型已经被提纯,因为他们自己的服务成本太高。”她指向斯坦福大学HAI的HELM Lite基准测试排行榜,并维持GPT-4(0613)是流量限制的,所以“它将被提纯”,而GPT-Turbo只是“一个预览版,我们不知道他们对这个模型的计划。”


Habib补充说,她相信斯坦福大学HAI的基准测试工作“最接近真实企业用例和真正的企业实践者”,而不是Hugging Face等平台的排行榜。“他们的场景更接近实际使用。”她说。


文章来源:https://venturebeat.com/ai/why-writers-palmyra-llm-is-the-little-ai-model-that-could-for-enterprises/
欢迎关注ATYUN官方公众号
商务合作及内容投稿请联系邮箱:bd@atyun.com
评论 登录
热门职位
Maluuba
20000~40000/月
Cisco
25000~30000/月 深圳市
PilotAILabs
30000~60000/年 深圳市
写评论取消
回复取消