人工智能行业中备受欢迎的测试平台正在不断发展。聊天机器人竞技场,这个众包的基准测试平台,已成为AI模型的重要测试场地,今天宣布成立一家名为Arena Intelligence Inc.的新公司,品牌名称为LMArena。
始于2023年初,作为加州大学伯克利分校Sky Computing Lab的一个小型研究项目,现已发展成为AI评估的重要力量,每月吸引一百万访客在面对面的比赛中比较模型。该平台的排行榜已成为行业内模型质量的重要标志。
新公司将由项目的原始团队领导:Anastasios Angelopoulos和Wei-Lin Chiang——两人最近都是伯克利的博士后研究员,以及他们的顾问Ion Stoica,他是云计算领域的重量级人物,也是Databricks和Anyscale的联合创始人。虽然具体职位仍在调整中,但目标明确:扩大平台规模,解决长期存在的可用性问题,并根据社区反馈开发新功能。
该平台通过提供中立、用户驱动的模型能力评估,在AI生态系统中占据了独特的位置。包括OpenAI在内的许多主要AI开发者都使用聊天机器人竞技场来测试新模型,然后再进行更广泛的发布。这种中立性似乎是团队对公司未来愿景的核心。
“LMArena将忠于其最初的使命。它将继续作为一个中立、开放的平台,用于测试和评估AI模型”团队在他们的公告中写道。“我们的排行榜绝不会偏向(或反对)任何提供商,并将通过设计忠实地反映我们社区的偏好。”
为此,团队还在beta.lmarena.ai推出了网站的测试版,这是一个重建的平台,改善了速度、移动体验和投票清晰度——这是长期用户的常见投诉。登录、聊天记录和个性化排行榜等功能即将推出,还有新的实验空间,如WebDev Arena和RepoChat Arena。
公司尚未确定商业模式,虽然正在探索的一个选项是向提供商收取模型评估费用。Stoica确认他们打算筹集资金以支持增长,但拒绝透露筹资细节。
对于日常AI用户和对AI感兴趣的专业人士来说,该平台提供了一个难得的机会,可以直接比较领先系统,而不受市场宣传的影响——通过点击投票来判断哪些模型在实际场景中表现最佳。
随着资金流入新公司,问题仍然是Arena Intelligence能否在发展可持续业务的同时保持其学术中立性。目前,团队强调透明度和社区信任作为核心价值,认识到其信誉是最有价值的资产。