Mistral发布Pixtral 12B模型，融合图像与文本处理能力

2024年09月12日由 daydream 发表 350 0

法国人工智能初创企业Mistral近日发布了一款名为Pixtral 12B的新模型，该模型首次实现了图像与文本的同时处理能力。目前，关于Pixtral 12B的具体细节尚不完全清晰，但随着更多开发者的试用，预计将有更多信息浮出水面。

微信截图_20240912102203

Pixtral 12B基于Mistral先前发布的文本模型Nemo 12B构建，并新增了一个包含4亿参数的视觉适配器。这一新模型允许用户通过URL或直接以base64编码方式输入图像，结合文本输入，执行如图像描述生成和对象计数等任务。

该模型的视觉编码器能够处理分辨率为1024x1024像素的图像，通过将其分割为16x16像素的区块进行处理，从而在处理高分辨率图像时展现出灵活性。Pixtral 12B对文本和视觉数据的综合处理能力，拓宽了其应用场景，包括但不限于图像分类和基于视觉输入的问答系统。

技术特点方面，Pixtral 12B在视觉编码器中采用了2D RoPE（Rotary Position Embeddings）技术，增强了模型对图像中空间关系的理解能力。其他关键参数包括：

总参数量：120亿，分布在40层中。
视觉适配器参数量：4亿，使用GeLU激活函数处理图像数据。
图像输入方式：支持URL和base64编码两种方式。
词汇量：扩展至131,072个标记。
特殊标记：新增三个特殊标记用于图像处理。

目前，Mistral仅通过磁力链接提供了Pixtral 12B模型权重的torrent下载（GitHub），而具体的技术细节和许可条款尚不完全明确。尽管Mistral的部分模型已采用Apache 2.0许可发布，但Pixtral 12B是否遵循相同许可尚未得到确认。据推测，该模型可能免费供研究和学术用途，而商业应用则需购买相应许可。

文章来源：https://www.maginative.com/article/mistral-ai-unveils-pixtral-12b-a-multimodal-ai-model-for-text-and-image-processing/

标签：

0 评论

欢迎关注ATYUN官方公众号

商务合作及内容投稿请联系邮箱:bd@atyun.com

上一篇检索增强生成（RAG）的新突破：OP-RAG

下一篇中科院研发新型AI模型LLaMA-Omni，或将重塑数字助手交互方式

评论登录

要发表评论，您必须先登录。

jonatasgrosman/wav2vec2-large-xlsr-53-english facebook/dino-vitb16 bert-base-uncased xlm-roberta-large xlm-roberta-base gpt2 microsoft/resnet-50 facebook/dino-vits8

AGENTIC AI如何塑造未来