Groq 近期在其平台上推出了一项革新性功能,允许用户直接对前沿的大型语言模型(LLMs)进行闪电般的查询与任务执行,这一消息引起了广泛关注。该功能上周悄然上线,其展现出的速度与智能性均远超先前的展示,为用户带来了前所未有的体验。
用户现在不仅可以通过键入查询,还能利用语音命令来快速获取结果。据测试,Groq 的响应速度高达每秒1256.54个标记,几乎实现了即时反馈,这一速度据称已超越了英伟达等公司的GPU芯片所能达到的水平。相较于4月份展示的每秒800个标记的速度,此次提升更为显著。
Groq 网站引擎默认采用了Meta开源的Llama3-8b-8192 LLM,同时为用户提供了包括更大规模的Llama3-70b、谷歌的Gemma系列及Mistral模型在内的多种选择,并计划未来支持更多模型。这一举措对于开发者和非开发者而言都意义重大,它展示了LLM聊天机器人在速度与灵活性上的巨大潜力。
Groq的首席执行官乔纳森·罗斯表示,随着用户亲身体验到在Groq快速引擎上操作LLM的便捷性,其使用频率将进一步攀升。以快速响应为基础,Groq平台已能轻松应对诸如即时生成并修改招聘启事、文章等多种任务。
例如,在一次演示中,Groq平台迅速对即将举行的VB Transform活动议程提出了优化建议,包括分类清晰度、会议描述详细度及演讲者简介的完善。当被要求推荐更多样化的演讲者时,平台即刻生成了一份表格,列出了推荐人选及其所属组织,用户还能实时调整表格内容,如添加联系信息列。
在另一项测试中,Groq平台迅速响应了创建演讲课程表格的请求,不仅满足了基本要求,还允许用户轻松进行拼写更正、添加额外列等操作,甚至支持多语言翻译。尽管偶尔需要多次调整才能完全满足需求,但这类问题更多归咎于LLM层面,而非处理效率问题。
Groq之所以备受瞩目,在于其承诺以更快、更经济的方式执行AI任务。这得益于其独特的语言处理单元(LPU),该单元在处理AI任务时较GPU更为高效,部分原因在于其线性运行方式。尽管GPU在模型训练阶段不可或缺,但在AI应用的实际部署阶段——“推理”环节,LPU以其高效低延迟的特性脱颖而出。
目前,Groq已免费为开发者提供LLM工作负载支持,并吸引了超过282,000名开发者的青睐。该平台为开发者提供了易于上手的控制台,同时支持OpenAI应用的快速迁移,仅需简单几步即可完成转换。
此外,Groq还引入了语音查询功能,利用OpenAI的Whisper Large V3模型将语音转换为文本,再作为LLM的输入提示。据Groq介绍,其技术在最坏情况下消耗的电力也仅为GPU的三分之一,多数工作负载下更是低至十分之一,这对于能源需求日益增长的AI领域而言,无疑是一个巨大的挑战与机遇。
乔纳森·罗斯在接受采访时透露,随着企业对AI应用部署需求的增加,Groq将加快向企业领域的拓展。他更是大胆预测,到明年,全球超过一半的推理计算将运行在Groq的芯片上。这一预测无疑为即将举行的VentureBeat Transform 2024大会增添了更多期待与看点。