Mistral推出Pixtral-12B：多模态AI模型

2024年09月14日由 alex 发表 367 0

人工智能正在迅速发展，其中最令人兴奋的前沿领域之一就是多模态人工智能。在这一领域，Mistral 历史上尚属首次。Mistral AI 最近推出了 Pixtral-12B，这是一个复杂的多模态模型，能够处理文本和图像输入。该模型具有革命性的应用潜力，从图像字幕到生成丰富的多模态内容。让我们来探讨一下 Pixtral-12B 的独特之处、它的功能以及它在塑造人工智能未来中的作用。

什么是 Pixtral-12B？

Pixtral-12B 是由 Mistral AI 设计的一个 120 亿参数的多模态模型。与只处理文本的模型不同，Pixtral-12B 可以处理视觉和文本输入，因此具有很强的通用性。它建立在 Mistral Nemo 12B 的基础上，是 Mistral 最先进的文本模型之一，并集成了 400M 视觉适配器。这种架构使 Pixtral 在图像字幕、视觉问题解答和多模态内容生成等任务中表现出色。

Mistral 一直走在人工智能开发的前沿，生产了 Mistral Large 和 Codestral 等用于复杂推理和代码生成的模型。随着 Pixtral-12B 的问世，他们在多模态人工智能领域有了更深入的探索，目标是实现更广泛的应用。

通过代码访问 Pixtral-12B：

#upgrade your mixtral library as it is released on latest version.
pip install --upgrade mistral_common

#Simple example
from vllm import LLM
from vllm.sampling_params import SamplingParams
pyt
model_name = "mistralai/Pixtral-12B-2409"
sampling_params = SamplingParams(max_tokens=8192)
llm = LLM(model=model_name, tokenizer_mode="mistral")
prompt = "Describe this image in one sentence."
image_url = "https://picsum.photos/id/237/200/300"
messages = [
    {
        "role": "user",
        "content": [{"type": "text", "text": prompt}, {"type": "image_url", "image_url": {"url": image_url}}]
    },
]
outputs = vllm_model.model.chat(messages, sampling_params=sampling_params)
print(outputs[0].outputs[0].text)

#Advance Example
from vllm import LLM
from vllm.sampling_params import SamplingParams
model_name = "mistralai/Pixtral-12B-2409"
max_img_per_msg = 5
max_tokens_per_img = 4096
sampling_params = SamplingParams(max_tokens=8192, temperature=0.7)
llm = LLM(model=model_name, tokenizer_mode="mistral", limit_mm_per_prompt={"image": max_img_per_msg}, max_num_batched_tokens=max_img_per_msg * max_tokens_per_img)
prompt = "Describe the following image."
url_1 = "https://huggingface.co/datasets/patrickvonplaten/random_img/resolve/main/yosemite.png"
url_2 = "https://picsum.photos/seed/picsum/200/300"
url_3 = "https://picsum.photos/id/32/512/512"
messages = [
    {
        "role": "user",
        "content": [{"type": "text", "text": prompt}, {"type": "image_url", "image_url": {"url": url_1}}, {"type": "image_url", "image_url": {"url": url_2}}],
    },
    {
        "role": "assistant",
        "content": "The images shows nature.",
    },
    {
        "role": "user",
        "content": "More details please and answer only in French!."
    },
    {
        "role": "user",
        "content": [{"type": "image_url", "image_url": {"url": url_3}}],
    }
]
outputs = llm.chat(messages=messages, sampling_params=sampling_params)
print(outputs[0].outputs[0].text)

Pixtral-12B 的主要功能

多模式处理： Pixtral-12B 的突出特点是能够同时处理文本和图像。这为更多交互式和复杂的人工智能应用打开了大门，例如文本到图像生成、图像描述和多模态对话。
增强的视觉功能：该模型集成了二维旋转位置嵌入（RoPE）技术，改进了处理图像中空间数据的方式，与仅依赖文本的模型相比，Pixtral 能更好地理解图像。
参数规模大： Pixtral-12B 拥有 120 亿个参数，在处理能力和效率之间取得了平衡。它旨在处理复杂的任务，而无需像 GPT-4 这样的大型模型那样开销巨大，因此成为研究人员和开发人员更高效的选择。
与 Mistral 生态系统集成： Pixtral 建立在 Mistral 备受赞誉的 Nemo 12B 模型基础之上，该模型以文本生成和推理能力著称。这意味着 Pixtral 可以利用 Nemo 的语言处理能力，即使在多模态场景中也能增强基于文本的响应。

应用和案例

Pixtral-12B 非常适合需要多模态交互的各种应用。一些潜在用途包括：

图像字幕：自动生成图像文本描述。
可视化问题解答：根据图像输入回答用户问题。
文本到图像生成：根据文字描述创建丰富的视觉效果。
物体计数和分类：分析图像中的特定对象、场景或模式，并输出结果。

这些功能使其在电子商务、媒体、教育和娱乐等行业大有用武之地，在这些行业中，人工智能可以自动完成内容创建、图像编辑和互动学习等任务。

Pixtral-12B 如何脱颖而出

虽然也有其他多模态模型，但 Pixtral-12B 因其相对较小的参数规模而脱颖而出，在不牺牲性能的前提下，提供了更快的推理时间和更低的计算成本。Mistral 强调向研究人员和学者提供 Pixtral，允许通过 GitHub 和 Hugging Face 等平台免费访问该模型。不过，商业用户需要付费许可。

与 GPT-4 等主要竞争对手相比，Pixtral 凭借其紧密集成的文本和视觉架构，有望在特定的视觉语言任务中大放异彩。与缺乏强大视觉能力的传统语言模型相比，它在图像密集型场景中的表现可能更具优势。

Pixtral-12B 的未来

Mistral AI 对 Pixtral-12B 有着宏伟的计划。虽然该模型已经可供下载和测试，但公司正致力于将其集成到自己的平台 Le Platforme 和 Le Chat 中，以便更轻松地部署和使用。这一生态系统将为希望利用多模态人工智能力量的广大开发人员、研究人员和企业客户提供支持。

Pixtral 12B 架构和规格

该模型以 Mistral 基于文本的 Nemo 12B 为基础，集成了 4 亿个参数的视觉适配器。
视觉适配器采用 GeLU 激活技术，视觉编码器采用二维旋转位置嵌入（RoPE）技术。
Pixtral 12B 可处理最大 1024x1024 像素的图像，并将其分割成 16x16 像素的斑块。
其词汇中包含 131,072 个独特的标记，可实现细微的语言理解和生成。

主要功能包括

文本骨干： Mistral Nemo 12B
视觉适配器 400M 参数
词汇量：131,072 个标记符
三个新的特殊标记：“img”、“img_break”、"img_end
bfloat16 格式的模型权重
总下载量：24GB

实现和访问

Mistral 在 Hugging Face Hub 上提供了模型权重。
开发人员可以通过 mistral_common python 软件包运行 Pixtral 12B，该软件包现在支持用户信息中的图片输入和文本输入。
可通过 pip 运行以下命令安装该软件包
pip install - upgrade mistral_common
这种集成允许在文本处理管道中无缝整合图像数据，从而有可能实现可视化问题解答和图像字幕等应用。
按照 Mistral 之前的传统，该模型也通过点对点洪流网络发布。

结论

Pixtral-12B 代表着多模态人工智能领域的一次重大飞跃。通过无缝融合文本和视觉处理，它为各行各业的众多应用打开了大门。Mistral 致力于开放研究，这意味着社区将能够在未来几年内对这一模型进行实验、改进和扩展。

随着人工智能的不断发展，像 Pixtral-12B 这样的多模态模型将站在创新的最前沿，带来更加直观、互动和强大的人工智能体验。

文章来源：https://ai.gopubby.com/mistral-just-released-pixtral-12b-their-first-multi-model-4962fa9c6edc

标签：

人工智能

0 评论

欢迎关注ATYUN官方公众号

商务合作及内容投稿请联系邮箱:bd@atyun.com

上一篇大型动作模型 (LAM) 的出现及其对AI代理的影响

下一篇从知识图谱到向量：RAG系统的双向与单向探索

评论登录

要发表评论，您必须先登录。

jonatasgrosman/wav2vec2-large-xlsr-53-english facebook/dino-vitb16 bert-base-uncased xlm-roberta-large xlm-roberta-base gpt2 microsoft/resnet-50 facebook/dino-vits8

AGENTIC AI如何塑造未来