Mistral推出Pixtral-12B:多模态AI模型

2024年09月14日 由 alex 发表 169 0

人工智能正在迅速发展,其中最令人兴奋的前沿领域之一就是多模态人工智能。在这一领域,Mistral 历史上尚属首次。Mistral AI 最近推出了 Pixtral-12B,这是一个复杂的多模态模型,能够处理文本和图像输入。该模型具有革命性的应用潜力,从图像字幕到生成丰富的多模态内容。让我们来探讨一下 Pixtral-12B 的独特之处、它的功能以及它在塑造人工智能未来中的作用。


13


什么是 Pixtral-12B?

Pixtral-12B 是由 Mistral AI 设计的一个 120 亿参数的多模态模型。与只处理文本的模型不同,Pixtral-12B 可以处理视觉和文本输入,因此具有很强的通用性。它建立在 Mistral Nemo 12B 的基础上,是 Mistral 最先进的文本模型之一,并集成了 400M 视觉适配器。这种架构使 Pixtral 在图像字幕、视觉问题解答和多模态内容生成等任务中表现出色。


Mistral 一直走在人工智能开发的前沿,生产了 Mistral Large 和 Codestral 等用于复杂推理和代码生成的模型。随着 Pixtral-12B 的问世,他们在多模态人工智能领域有了更深入的探索,目标是实现更广泛的应用。


通过代码访问 Pixtral-12B:


#upgrade your mixtral library as it is released on latest version.
pip install --upgrade mistral_common


#Simple example
from vllm import LLM
from vllm.sampling_params import SamplingParams
pyt
model_name = "mistralai/Pixtral-12B-2409"
sampling_params = SamplingParams(max_tokens=8192)
llm = LLM(model=model_name, tokenizer_mode="mistral")
prompt = "Describe this image in one sentence."
image_url = "https://picsum.photos/id/237/200/300"
messages = [
    {
        "role": "user",
        "content": [{"type": "text", "text": prompt}, {"type": "image_url", "image_url": {"url": image_url}}]
    },
]
outputs = vllm_model.model.chat(messages, sampling_params=sampling_params)
print(outputs[0].outputs[0].text)


#Advance Example
from vllm import LLM
from vllm.sampling_params import SamplingParams
model_name = "mistralai/Pixtral-12B-2409"
max_img_per_msg = 5
max_tokens_per_img = 4096
sampling_params = SamplingParams(max_tokens=8192, temperature=0.7)
llm = LLM(model=model_name, tokenizer_mode="mistral", limit_mm_per_prompt={"image": max_img_per_msg}, max_num_batched_tokens=max_img_per_msg * max_tokens_per_img)
prompt = "Describe the following image."
url_1 = "https://huggingface.co/datasets/patrickvonplaten/random_img/resolve/main/yosemite.png"
url_2 = "https://picsum.photos/seed/picsum/200/300"
url_3 = "https://picsum.photos/id/32/512/512"
messages = [
    {
        "role": "user",
        "content": [{"type": "text", "text": prompt}, {"type": "image_url", "image_url": {"url": url_1}}, {"type": "image_url", "image_url": {"url": url_2}}],
    },
    {
        "role": "assistant",
        "content": "The images shows nature.",
    },
    {
        "role": "user",
        "content": "More details please and answer only in French!."
    },
    {
        "role": "user",
        "content": [{"type": "image_url", "image_url": {"url": url_3}}],
    }
]
outputs = llm.chat(messages=messages, sampling_params=sampling_params)
print(outputs[0].outputs[0].text)


Pixtral-12B 的主要功能

  1. 多模式处理: Pixtral-12B 的突出特点是能够同时处理文本和图像。这为更多交互式和复杂的人工智能应用打开了大门,例如文本到图像生成、图像描述和多模态对话。
  2. 增强的视觉功能: 该模型集成了二维旋转位置嵌入(RoPE)技术,改进了处理图像中空间数据的方式,与仅依赖文本的模型相比,Pixtral 能更好地理解图像。
  3. 参数规模大: Pixtral-12B 拥有 120 亿个参数,在处理能力和效率之间取得了平衡。它旨在处理复杂的任务,而无需像 GPT-4 这样的大型模型那样开销巨大,因此成为研究人员和开发人员更高效的选择。
  4. 与 Mistral 生态系统集成: Pixtral 建立在 Mistral 备受赞誉的 Nemo 12B 模型基础之上,该模型以文本生成和推理能力著称。这意味着 Pixtral 可以利用 Nemo 的语言处理能力,即使在多模态场景中也能增强基于文本的响应。


应用和案例

Pixtral-12B 非常适合需要多模态交互的各种应用。一些潜在用途包括:

  • 图像字幕: 自动生成图像文本描述。
  • 可视化问题解答: 根据图像输入回答用户问题。
  • 文本到图像生成: 根据文字描述创建丰富的视觉效果。
  • 物体计数和分类: 分析图像中的特定对象、场景或模式,并输出结果。


这些功能使其在电子商务、媒体、教育和娱乐等行业大有用武之地,在这些行业中,人工智能可以自动完成内容创建、图像编辑和互动学习等任务。


Pixtral-12B 如何脱颖而出

虽然也有其他多模态模型,但 Pixtral-12B 因其相对较小的参数规模而脱颖而出,在不牺牲性能的前提下,提供了更快的推理时间和更低的计算成本。Mistral 强调向研究人员和学者提供 Pixtral,允许通过 GitHub 和 Hugging Face 等平台免费访问该模型。不过,商业用户需要付费许可。


与 GPT-4 等主要竞争对手相比,Pixtral 凭借其紧密集成的文本和视觉架构,有望在特定的视觉语言任务中大放异彩。与缺乏强大视觉能力的传统语言模型相比,它在图像密集型场景中的表现可能更具优势。


Pixtral-12B 的未来

Mistral AI 对 Pixtral-12B 有着宏伟的计划。虽然该模型已经可供下载和测试,但公司正致力于将其集成到自己的平台 Le Platforme 和 Le Chat 中,以便更轻松地部署和使用。这一生态系统将为希望利用多模态人工智能力量的广大开发人员、研究人员和企业客户提供支持。


Pixtral 12B 架构和规格

  • 该模型以 Mistral 基于文本的 Nemo 12B 为基础,集成了 4 亿个参数的视觉适配器。
  • 视觉适配器采用 GeLU 激活技术,视觉编码器采用二维旋转位置嵌入(RoPE)技术。
  • Pixtral 12B 可处理最大 1024x1024 像素的图像,并将其分割成 16x16 像素的斑块。
  • 其词汇中包含 131,072 个独特的标记,可实现细微的语言理解和生成。


主要功能包括

  • 文本骨干: Mistral Nemo 12B
  • 视觉适配器 400M 参数
  • 词汇量:131,072 个标记符
  • 三个新的特殊标记:“img”、“img_break”、"img_end
  • bfloat16 格式的模型权重
  • 总下载量:24GB


实现和访问

  • Mistral 在 Hugging Face Hub 上提供了模型权重。
  • 开发人员可以通过 mistral_common python 软件包运行 Pixtral 12B,该软件包现在支持用户信息中的图片输入和文本输入。
  • 可通过 pip 运行以下命令安装该软件包
  • pip install - upgrade mistral_common
  • 这种集成允许在文本处理管道中无缝整合图像数据,从而有可能实现可视化问题解答和图像字幕等应用。
  • 按照 Mistral 之前的传统,该模型也通过点对点洪流网络发布。


结论

Pixtral-12B 代表着多模态人工智能领域的一次重大飞跃。通过无缝融合文本和视觉处理,它为各行各业的众多应用打开了大门。Mistral 致力于开放研究,这意味着社区将能够在未来几年内对这一模型进行实验、改进和扩展。


随着人工智能的不断发展,像 Pixtral-12B 这样的多模态模型将站在创新的最前沿,带来更加直观、互动和强大的人工智能体验。

文章来源:https://ai.gopubby.com/mistral-just-released-pixtral-12b-their-first-multi-model-4962fa9c6edc
欢迎关注ATYUN官方公众号
商务合作及内容投稿请联系邮箱:bd@atyun.com
评论 登录
热门职位
Maluuba
20000~40000/月
Cisco
25000~30000/月 深圳市
PilotAILabs
30000~60000/年 深圳市
写评论取消
回复取消