AI模型正在以惊人的速度推出,从谷歌等大型科技公司到OpenAI和Anthropic等初创公司都在积极参与。跟踪最新的模型可能会让人感到无所适从。
增加混乱的是,AI模型通常是基于行业基准进行宣传的。然而,这些技术指标往往揭示的信息有限关于真实的人和公司如何实际使用它们。
这里有一份自2024年以来发布的最先进AI模型的概述,详细介绍了如何使用它们及其最佳用途。
实际上有超过一百万个AI模型:例如,Hugging Face托管了超过140万个模型。因此,这份列表可能会遗漏一些在某些方面表现更好的模型。
2025年发布的AI模型
Gemini 2.5 Pro实验版是一个推理模型,擅长构建网页应用和代码代理根据谷歌的说法。它在一个流行的编码基准上表现不如Claude Sonnet 3.7。然而,该模型需要每月20美元的Gemini高级订阅。
OpenAI升级了其现有的GPT-4o模型以生成图像,而不仅仅是文本。这个增强版模型迅速因将图像转化为吉卜力工作室风格的动漫而走红,尽管存在明显的版权问题。访问GPT-4o至少需要每月20美元的ChatGPT Plus订阅。
图像生成初创公司Stability AI推出了一个模型据称可以从单个2D图像生成3D场景和相机角度。然而,它在处理包含更复杂元素的场景时仍然存在困难,比如人类和流动的水。该模型可在HuggingFace上用于非商业研究。
Cohere发布了一个多模态模型名为Aya Vision,据称在图像字幕和回答关于照片的问题方面是同类中最好的。与其他模型不同,它在非英语语言中也表现出色,Cohere声称。它可以在WhatsApp上免费使用。
OpenAI称Orion是他们迄今为止最大的模型,以其强大的“世界知识”和“情感智能”而闻名。然而,与更新的推理模型相比,它在某些基准上表现不佳。Orion可供OpenAI每月200美元计划的订阅者使用。
Anthropic称这是行业首个“混合”推理模型,因为它既可以快速给出答案,也可以在需要时深入思考。它还允许用户控制模型思考的时间长短,根据Anthropic的说法。Sonnet 3.7对所有Claude用户开放,但重度用户需要每月20美元的专业计划。
Grok 3是由Elon Musk创立的初创公司xAI的最新旗舰模型。它被声称在数学、科学和编码方面优于其他领先模型。该模型需要X Premium(每月50美元)。在一项研究发现Grok 2倾向于左翼后,Musk承诺将Grok调整得更“政治中立”,但尚不清楚是否已实现。
这是OpenAI的最新推理模型,专为STEM相关任务如编码、数学和科学而优化。它不是OpenAI最强大的模型,但由于其较小的体积,公司表示成本显著降低。它可以免费使用,但重度用户需要订阅。
OpenAI的深度研究是为进行深入研究而设计的,并提供清晰的引用。此服务仅适用于ChatGPT的每月200美元的专业订阅。OpenAI推荐它用于从科学到购物的各种研究,但要注意幻觉仍然是AI的问题。
Mistral已推出Le Chat的应用版本,一个多模态AI个人助手。Mistral声称Le Chat的响应速度比任何其他聊天机器人都快。它还有一个付费版本,提供来自法新社的最新新闻。《世界报》的测试发现Le Chat的表现令人印象深刻,尽管它比ChatGPT犯的错误更多。
OpenAI的操作员旨在成为一个可以独立完成任务的个人助理,比如帮助你购买杂货。它需要每月200美元的ChatGPT专业订阅。AI代理充满潜力,但仍处于实验阶段:一位《华盛顿邮报》的评论员表示操作员自行决定订购了一打鸡蛋,花费31美元,并用评论员的信用卡支付。
谷歌Gemini的备受期待的旗舰模型称其在编码和理解一般知识方面表现出色。它还拥有200万个标记的超长上下文窗口,帮助需要快速处理大量文本的用户。该服务至少需要每月19.99美元的Google One AI高级订阅。
2024年发布的AI模型
这个中国AI模型在硅谷引起轰动。DeepSeek的R1在编码和数学方面表现良好,其开源性质意味着任何人都可以在本地运行它。此外,它是免费的。然而,R1集成了中国政府的审查制度,并面临越来越多的禁令,因为可能会将用户数据发送回中国。
深度研究总结了谷歌的搜索结果,形成一个简单且引用充分的文档。该服务对学生和其他需要快速研究总结的人有帮助。然而,其质量远不如实际的同行评审论文。深度研究需要每月19.99美元的Google One AI高级订阅。
这是Meta的开源Llama AI模型的最新和最先进版本。Meta宣称这个版本是迄今为止最便宜和最有效的,特别是在数学、一般知识和指令遵循方面。它是免费和开源的。
Sora是一个模型,可以根据文本创建逼真的视频。虽然它可以生成整个场景而不仅仅是片段,OpenAI承认它经常生成“非现实的物理效果”。目前仅在ChatGPT的付费版本上可用,起价为Plus,每月20美元。
这个模型是少数能在某些行业基准上与OpenAI的o1竞争的模型之一,在数学和编码方面表现出色。讽刺的是,作为一个“推理模型”,它在常识推理方面还有“改进空间”,阿里巴巴表示。它还包含中国政府的审查制度,TechCrunch的测试显示。它是免费和开源的。
Claude的计算机使用旨在控制你的计算机以完成任务,如编码或预订机票,使其成为OpenAI操作员的前身。然而,计算机使用仍处于测试阶段。定价通过API:每百万个输入标记0.80美元,每百万个输出标记4美元。
Elon Musk的AI公司xAI推出了其旗舰Grok 2聊天机器人的增强版,它声称“速度提高了三倍”。免费用户在Grok上每两小时限制10个问题,而X的Premium和Premium+计划的订阅者享有更高的使用限制。xAI还推出了一个图像生成器Aurora,可以生成高度逼真的图像,包括一些图形或暴力内容。
OpenAI的o1系列旨在通过隐藏的推理功能来“思考”响应,从而产生更好的答案。该模型在编码、数学和安全性方面表现出色,OpenAI声称,但也存在试图欺骗人类的问题。使用o1需要订阅ChatGPT Plus,每月20美元。
Claude Sonnet 3.5是一个模型,Anthropic声称是同类中最好的。它因其编码能力而闻名,被认为是技术内部人士的首选聊天机器人。 该模型可以在Claude上免费访问,尽管重度用户需要每月20美元的专业订阅。虽然它可以理解图像,但不能生成图像。
OpenAI已宣称GPT 4o-mini是其迄今为止最实惠和最快的模型,得益于其小巧的体积。它旨在支持广泛的任务,如为客户服务聊天机器人提供动力。该模型在ChatGPT的免费层上可用。与更复杂的任务相比,它更适合高容量的简单任务。
Cohere的Command R+模型擅长增强生成(RAG)应用于企业的复杂检索。这意味着它在查找和引用特定信息方面表现出色。RAG的发明者实际上在Cohere工作。尽管如此,RAG仍然无法完全解决AI的幻觉问题。