人工智能正在迅速发展,其中最令人兴奋的前沿领域之一就是多模态人工智能。在这一领域,Mistral 历史上尚属首次。Mistral AI 最近推出了 Pixtral-12B,这是一个复杂的多模态模型,能够处理文本和图像输入。该模型具有革命性的应用潜力,从图像字幕到生成丰富的多模态内容。让我们来探讨一下 Pixtral-12B 的独特之处、它的功能以及它在塑造人工智能未来中的作用。
什么是 Pixtral-12B?
Pixtral-12B 是由 Mistral AI 设计的一个 120 亿参数的多模态模型。与只处理文本的模型不同,Pixtral-12B 可以处理视觉和文本输入,因此具有很强的通用性。它建立在 Mistral Nemo 12B 的基础上,是 Mistral 最先进的文本模型之一,并集成了 400M 视觉适配器。这种架构使 Pixtral 在图像字幕、视觉问题解答和多模态内容生成等任务中表现出色。
Mistral 一直走在人工智能开发的前沿,生产了 Mistral Large 和 Codestral 等用于复杂推理和代码生成的模型。随着 Pixtral-12B 的问世,他们在多模态人工智能领域有了更深入的探索,目标是实现更广泛的应用。
通过代码访问 Pixtral-12B:
#upgrade your mixtral library as it is released on latest version.
pip install --upgrade mistral_common
#Simple example
from vllm import LLM
from vllm.sampling_params import SamplingParams
pyt
model_name = "mistralai/Pixtral-12B-2409"
sampling_params = SamplingParams(max_tokens=8192)
llm = LLM(model=model_name, tokenizer_mode="mistral")
prompt = "Describe this image in one sentence."
image_url = "https://picsum.photos/id/237/200/300"
messages = [
{
"role": "user",
"content": [{"type": "text", "text": prompt}, {"type": "image_url", "image_url": {"url": image_url}}]
},
]
outputs = vllm_model.model.chat(messages, sampling_params=sampling_params)
print(outputs[0].outputs[0].text)
#Advance Example
from vllm import LLM
from vllm.sampling_params import SamplingParams
model_name = "mistralai/Pixtral-12B-2409"
max_img_per_msg = 5
max_tokens_per_img = 4096
sampling_params = SamplingParams(max_tokens=8192, temperature=0.7)
llm = LLM(model=model_name, tokenizer_mode="mistral", limit_mm_per_prompt={"image": max_img_per_msg}, max_num_batched_tokens=max_img_per_msg * max_tokens_per_img)
prompt = "Describe the following image."
url_1 = "https://huggingface.co/datasets/patrickvonplaten/random_img/resolve/main/yosemite.png"
url_2 = "https://picsum.photos/seed/picsum/200/300"
url_3 = "https://picsum.photos/id/32/512/512"
messages = [
{
"role": "user",
"content": [{"type": "text", "text": prompt}, {"type": "image_url", "image_url": {"url": url_1}}, {"type": "image_url", "image_url": {"url": url_2}}],
},
{
"role": "assistant",
"content": "The images shows nature.",
},
{
"role": "user",
"content": "More details please and answer only in French!."
},
{
"role": "user",
"content": [{"type": "image_url", "image_url": {"url": url_3}}],
}
]
outputs = llm.chat(messages=messages, sampling_params=sampling_params)
print(outputs[0].outputs[0].text)
Pixtral-12B 的主要功能
应用和案例
Pixtral-12B 非常适合需要多模态交互的各种应用。一些潜在用途包括:
这些功能使其在电子商务、媒体、教育和娱乐等行业大有用武之地,在这些行业中,人工智能可以自动完成内容创建、图像编辑和互动学习等任务。
Pixtral-12B 如何脱颖而出
虽然也有其他多模态模型,但 Pixtral-12B 因其相对较小的参数规模而脱颖而出,在不牺牲性能的前提下,提供了更快的推理时间和更低的计算成本。Mistral 强调向研究人员和学者提供 Pixtral,允许通过 GitHub 和 Hugging Face 等平台免费访问该模型。不过,商业用户需要付费许可。
与 GPT-4 等主要竞争对手相比,Pixtral 凭借其紧密集成的文本和视觉架构,有望在特定的视觉语言任务中大放异彩。与缺乏强大视觉能力的传统语言模型相比,它在图像密集型场景中的表现可能更具优势。
Pixtral-12B 的未来
Mistral AI 对 Pixtral-12B 有着宏伟的计划。虽然该模型已经可供下载和测试,但公司正致力于将其集成到自己的平台 Le Platforme 和 Le Chat 中,以便更轻松地部署和使用。这一生态系统将为希望利用多模态人工智能力量的广大开发人员、研究人员和企业客户提供支持。
Pixtral 12B 架构和规格
主要功能包括
实现和访问
结论
Pixtral-12B 代表着多模态人工智能领域的一次重大飞跃。通过无缝融合文本和视觉处理,它为各行各业的众多应用打开了大门。Mistral 致力于开放研究,这意味着社区将能够在未来几年内对这一模型进行实验、改进和扩展。
随着人工智能的不断发展,像 Pixtral-12B 这样的多模态模型将站在创新的最前沿,带来更加直观、互动和强大的人工智能体验。