Mistral AI发布首个模型Mistral 7B，超越Llama 2 13B

2023年09月28日由 daydream 发表 778 0

法国初创公司Mistral AI以其独特的Word Art标志和创记录的1.18亿美元种子轮融资引起广泛关注。该公司发布了其第一个大型语言AI模型Mistral 7B。

微信截图_20230928105118

这个73亿参数的模型超过了更大的竞争对手，包括Meta的Llama 2 13B（Meta较新款模型中较小的一个），据称是迄今为止最强大的同规模语言模型。

它可以处理英文任务，并同时提供自然编码能力，为企业提供多种选择的用例。

Mistral表示，该公司将以Apache 2.0许可证的形式开源这个新模型，允许任何人在没有限制的情况下对其进行调优和使用，包括用于企业案例。

认识Mistral 7B

Mistral AI成立于今年初，创始人来自Google DeepMind和Meta，致力于通过利用公开可用的数据和客户贡献的数据，为企业提供有用的AI。

现在，随着Mistral 7B的发布，该公司开始了这一使命，为团队提供了一个小型模型，可以进行低延迟的文本摘要、分类、文本补全和代码补全。

虽然该模型刚刚发布，但Mistral AI声明其已经超越了开源竞争对手。在覆盖各种任务的基准测试中，该模型很容易地超过了Llama 2 7B和13B。

例如，在覆盖数学、美国历史、计算机科学、法律等57个学科的大规模多任务语言理解（MMLU）测试中，新模型的准确率达到了60.1%，而Llama 2 7B和13B分别只有略高于44%和55%。

类似地，在涵盖常识推理和阅读理解的测试中，Mistral 7B的准确率分别达到69%和64%，优于两个Llama模型。唯一与Mistral7B匹敌的是Llama 2 13B在世界知识测试中的表现，Mistral声称这可能是由于模型的参数数量有限，限制了它能够压缩的知识量。

该公司在博文中写道：“为了准确比较，我们使用我们的评估流程重新评估了所有模型的所有指标。Mistral 7B在所有指标上明显优于Llama 2 13B，并且在许多基准测试中与Llama 34B持平。”

微信截图_20230928110538

至于编码任务，尽管Mistral称这个新模型“远优于”其他模型，基准测试结果显示它仍然无法超过经过微调的CodeLlama 7B。在0-shot Humaneval和3-shot MBPP（手动验证子集）测试中，Meta模型的准确率分别为31.1%和52.5%，而Mistral 7B的准确度接近，分别为30.5%和47.5%。

高性能的小型模型可能给企业带来好处

虽然这只是一个开始，但Mistral展示了一个小型模型在多个任务上提供高性能的能力，这可能对企业带来重大好处。

例如，在MMLU中，Mistral 7B展现出了比Llama 2大3倍的性能（230亿参数）。这将直接节省内存并提供成本效益，而不会影响最终输出。

该公司表示通过使用分组查询注意力（GQA）实现了更快的推理，并使用滑动窗口注意力（SWA）以较小的成本处理较长的序列。

该公司计划通过发布一个更大的模型来进一步完善这项工作，该模型能够进行更好的推理并使用多种语言，预计将在2024年首次亮相。

目前，Mistral 7B可以在任何地方部署（从本地到AWS、GCP或Azure云），使用公司的参考实现和vLLM推理服务器和Skypilot。

文章来源：https://venturebeat.com/ai/mistral-ai-europe-startup-releases-mistral-7b-model/

标签：

0 评论

欢迎关注ATYUN官方公众号

商务合作及内容投稿请联系邮箱:bd@atyun.com

上一篇 NExT-GPT：处理文本、图像、视频和音频的多模态大型语言模型

下一篇亚马逊AWS宣布全面推出Amazon Bedrock和系列AI产品及更新

评论登录

要发表评论，您必须先登录。

jonatasgrosman/wav2vec2-large-xlsr-53-english facebook/dino-vitb16 bert-base-uncased xlm-roberta-large xlm-roberta-base gpt2 microsoft/resnet-50 facebook/dino-vits8

AGENTIC AI如何塑造未来