Mistral发布Pixtral 12B模型,融合图像与文本处理能力

2024年09月12日 由 daydream 发表 230 0

法国人工智能初创企业Mistral近日发布了一款名为Pixtral 12B的新模型,该模型首次实现了图像与文本的同时处理能力。目前,关于Pixtral 12B的具体细节尚不完全清晰,但随着更多开发者的试用,预计将有更多信息浮出水面。


微信截图_20240912102203


Pixtral 12B基于Mistral先前发布的文本模型Nemo 12B构建,并新增了一个包含4亿参数的视觉适配器。这一新模型允许用户通过URL或直接以base64编码方式输入图像,结合文本输入,执行如图像描述生成和对象计数等任务。


该模型的视觉编码器能够处理分辨率为1024x1024像素的图像,通过将其分割为16x16像素的区块进行处理,从而在处理高分辨率图像时展现出灵活性。Pixtral 12B对文本和视觉数据的综合处理能力,拓宽了其应用场景,包括但不限于图像分类和基于视觉输入的问答系统。


技术特点方面,Pixtral 12B在视觉编码器中采用了2D RoPE(Rotary Position Embeddings)技术,增强了模型对图像中空间关系的理解能力。其他关键参数包括:


  • 总参数量:120亿,分布在40层中。
  • 视觉适配器参数量:4亿,使用GeLU激活函数处理图像数据。
  • 图像输入方式:支持URL和base64编码两种方式。
  • 词汇量:扩展至131,072个标记。
  • 特殊标记:新增三个特殊标记用于图像处理。


目前,Mistral仅通过磁力链接提供了Pixtral 12B模型权重的torrent下载(GitHub),而具体的技术细节和许可条款尚不完全明确。尽管Mistral的部分模型已采用Apache 2.0许可发布,但Pixtral 12B是否遵循相同许可尚未得到确认。据推测,该模型可能免费供研究和学术用途,而商业应用则需购买相应许可。


文章来源:https://www.maginative.com/article/mistral-ai-unveils-pixtral-12b-a-multimodal-ai-model-for-text-and-image-processing/
欢迎关注ATYUN官方公众号
商务合作及内容投稿请联系邮箱:bd@atyun.com
评论 登录
写评论取消
回复取消