Mistral CEO确认新开源AI模型泄露:接近GPT-4性能

2024年02月01日 由 daydream 发表 325 0

过去几天对于日益壮大的开源AI社区来说,可谓是一段跌宕起伏的经历——即便按照这个领域快速变化的标准来看。


微信截图_20240201104258


以下是简要的时间线:大约在1月28日左右,一个使用“Miqu Dev”昵称的用户在HuggingFace上发布了一组文件,这是一个领先的开源AI模型和代码共享平台,这些文件共同构成了一个看似新的开源大型语言模型(LLM),标记为“miqu-1-70b”。


HuggingFace的条目指出新LLM的“提示格式”(即用户与之互动的方式)与Mistral相同,Mistral是一家资金充足的开源巴黎AI公司,背后有Mixtral 8x7b,许多人认为它是目前可用的最佳性能开源LLM,是Meta的Llama 2的一个微调和重新训练的版本。


发布在4chan上


同一天,一个匿名用户在4chan(可能是“Miqu Dev”)上发布了指向miqu-1-70b文件的链接,该链接在4chan上引起了人们的注意。


一些人转向X,在那里分享他们发现这个模型以及它在常见的LLM任务(通过称为基准测试的测量)上表现出的异常高性能,接近之前的领导者OpenAI的GPT-4在EQ-Bench上的表现。


微信截图_20240201104352微信截图_20240201104400


Mistral量化了吗?


机器学习(ML)研究人员也在LinkedIn上注意到了这一点。


“‘miqu’是否代表MIstral QUantized(量化的Mistral)?我们不确定,但很快这成为了最好的开源LLM之一” 摩根大通的ML科学家Maxime Labonne写道,摩根大通是世界上最大的银行和金融公司之一。


“调查还在继续。与此同时,我们可能很快就会看到微调版的miqu超越GPT-4的表现。”


在ML中,量化是指一种技术,通过在模型的架构中用较短的数字序列替换特定的长数字序列,使得某些AI模型能够在性能较弱的计算机和芯片上运行。


用户猜测“Miqu”可能是Mistral公司自己以秘密方式泄露到外界的新模型——尤其是由于Mistral以神秘和技术手段低调地发布新模型和更新而闻名——或者可能是员工或客户叛逃。


来自高层的确认


如今,我们终于确认了上述猜测中的后一种可能性:Mistral联合创始人兼首席执行官Arthur Mensch在X上发表声明:“我们一个早期访问客户的过于热情的员工泄露了一个量化(并且带有水印)的旧模型版本。


为了快速开始与少数选定的客户合作,我们在获得整个集群的访问权限的那一刻,就从Llama 2重新训练了这个模型——预训练在Mistral 7B发布的当天完成。自那以后我们取得了很好的进展——敬请期待!”


微信截图_20240201104502


随着Mensch的“敬请期待!”的提示,看来Mistral正在训练这个所谓的“Miqu”模型的一个版本,其性能接近GPT-4级别,甚至可能匹配或超过它。


微信截图_20240201104513


开源AI及其他领域的转折点?


这将是开源生成AI乃至整个AI和计算机科学领域的分水岭时刻:自2023年3月发布以来,GPT-4一直是全球大多数基准测试中最强大、性能最高的LLM。即使是谷歌目前可用的、久经传闻的Gemini模型也无法超越它


一个开源的GPT-4级别模型的发布,假设它可以免费使用,很可能会给OpenAI及其订阅等级带来巨大的竞争压力,特别是随着越来越多的企业希望使用开源模型,或者开源和闭源的混合模型,来驱动他们的应用程序。OpenAI可能会凭借其更快的GPT-4 Turbo和GPT-4V(视觉)保持优势,但形势已经非常明朗:开源AI社区正在迅速追赶。OpenAI是否有足够的领先优势,凭借其GPT商店和其他功能,继续保持LLM的顶尖位置?

文章来源:https://venturebeat.com/ai/mistral-ceo-confirms-leak-of-new-open-source-ai-model-nearing-gpt-4-performance/
欢迎关注ATYUN官方公众号
商务合作及内容投稿请联系邮箱:bd@atyun.com
评论 登录
热门职位
Maluuba
20000~40000/月
Cisco
25000~30000/月 深圳市
PilotAILabs
30000~60000/年 深圳市
写评论取消
回复取消