法国人工智能初创企业Mistral近日发布了一款名为Pixtral 12B的新模型,该模型首次实现了图像与文本的同时处理能力。目前,关于Pixtral 12B的具体细节尚不完全清晰,但随着更多开发者的试用,预计将有更多信息浮出水面。
Pixtral 12B基于Mistral先前发布的文本模型Nemo 12B构建,并新增了一个包含4亿参数的视觉适配器。这一新模型允许用户通过URL或直接以base64编码方式输入图像,结合文本输入,执行如图像描述生成和对象计数等任务。
该模型的视觉编码器能够处理分辨率为1024x1024像素的图像,通过将其分割为16x16像素的区块进行处理,从而在处理高分辨率图像时展现出灵活性。Pixtral 12B对文本和视觉数据的综合处理能力,拓宽了其应用场景,包括但不限于图像分类和基于视觉输入的问答系统。
技术特点方面,Pixtral 12B在视觉编码器中采用了2D RoPE(Rotary Position Embeddings)技术,增强了模型对图像中空间关系的理解能力。其他关键参数包括:
目前,Mistral仅通过磁力链接提供了Pixtral 12B模型权重的torrent下载(GitHub),而具体的技术细节和许可条款尚不完全明确。尽管Mistral的部分模型已采用Apache 2.0许可发布,但Pixtral 12B是否遵循相同许可尚未得到确认。据推测,该模型可能免费供研究和学术用途,而商业应用则需购买相应许可。