Inflection推出Inflection-2.5模型,性能可与GPT-4相媲美

2024年03月08日 由 daydream 发表 265 0

初创公司Inflection AI由DeepMind联合创始人穆斯塔法·苏莱曼和LinkedIn联合创始人里德·霍夫曼联手打造,近日,该公司宣布推出了一款名为Inflection-2.5的新型基础模型。


微信截图_20240308104702


基于已有的成果来看,Inflection-2.5在性能上有了显著提升,比公司原有的Inflection-1模型表现更加出色,几乎能与OpenAI的GPT-4模型相抗衡,尤其在STEM学科领域。如今,这款模型已经应用于公司的Pi助手,旨在与ChatGPT和Gemini等竞品展开竞争,用户可以通过移动端和网页端对其进行测试。


此举标志着在快速发展的AI领域中,Inflection AI成为了挑战OpenAI统治地位的新势力,而OpenAI则始终坚持其为人类发展AI的理念。就在不久前,Anthropic发布了Claude 3 Opus,成为首个击败GPT-4的模型。


尽管Inflection-2.5在性能上有了很大提升,但仍旧稍逊于GPT-4。


自成立以来,Inflection AI一直致力于打造一款“善解人意、有用且安全”的AI,其表现比其他模型(包括GPT系列)更加个性化和口语化。该公司采用独特的共情微调技术,赋予Pi助手背后的模型独特的个性特征和卓越的情商(EQ)。


随着Inflection 2.5的升级推出,这家在2023年6月筹集了13亿美元融资的初创公司正在加强AI的智商方面,涵盖物理和数学等领域。在该公司发布的一篇博客文章中提到,用户在与由Inflection 2.5支持的Pi助手交谈时,可以讨论一系列话题,从分享爱好到编程,从检查生物试卷答案到起草商业计划。


微信截图_20240308102731


在基准测试性能方面,升级后的模型在各方面都显示出了比Inflection 1的显著改进,并接近GPT-4——尽管它仍然落后。


例如,在MMLU基准测试中,该测试衡量的是从高中到专业级别难度的任务表现,Inflection-2.5得分85.5,仅次于GPT-4的87.3。在STEM考试中,该模型的表现几乎与OpenAI模型一样好,在匈牙利数学考试中得分为63(GPT-4为68),在物理GRE考试中得分位于第85百分位,而GPT-4为第97百分位。


在GSM8K基准测试中,该测试包含8.5K个高质量的小学数学问题,Inflection模型得分86.3,而GPT-4得分92。在0-shot HumanEval测试中,该测试旨在评估代码生成能力,Inflection模型得分73.8,而GPT-4得分79.3。


尽管性能尚未超越GPT-4,但Inflection AI确实指出,这款“达到GPT-4水平94%性能”的模型在训练效率上远超OpenAI的大型语言模型(LLM)。


据该公司表示,Inflection-2.5在取得这些成果时,仅使用了GPT-4训练浮点运算量(计算量)的40%。


此外,与GPT-4一样,该模型还集成了实时网页搜索功能,为用户提供当前事件的最新信息。考虑到公司将Pi助手定位为面向大众的AI,这将是一个重要的升级。但值得注意的是,由于目前没有相关的基准测试,网页检索结果的质量可能会有所不同。


如何访问Inflection-2.5呢?


Inflection AI已经将新模型应用于其Pi聊天机器人。这意味着任何使用该助手的人都可以开始测试其功能。


该公司尚未分享用户如何从升级后的模型中受益,但表示这一变化对用户的情绪、参与度和留存率产生了重大影响,加速了聊天机器人的有机用户增长。


目前,这款可在Android、iOS、网页和桌面应用程序上使用的Pi聊天机器人,拥有每日100万活跃用户和每月600万活跃用户。该AI已交换超过40亿条消息,平均对话时长为33分钟。

文章来源:https://venturebeat.com/ai/inflection-ai-launches-new-model-for-pi-chatbot-nearly-matches-gpt-4/
欢迎关注ATYUN官方公众号
商务合作及内容投稿请联系邮箱:bd@atyun.com
评论 登录
热门职位
Maluuba
20000~40000/月
Cisco
25000~30000/月 深圳市
PilotAILabs
30000~60000/年 深圳市
写评论取消
回复取消