近日,Hugging Face公司开源了一款名为SmolVLM-256M的新型视觉语言模型,该模型在其类别中拥有最低的参数数量。
SmolVLM-256M因其小巧的体积,能够在具有相对有限处理能力的设备上运行,如消费级笔记本电脑。此外,它还支持WebGPU技术,这使得该模型有可能在浏览器中运行。WebGPU允许基于AI的Web应用程序利用用户计算机中的图形处理单元。
SmolVLM-256M能够处理多种涉及视觉数据的任务,包括回答关于扫描文档的问题、描述视频内容以及解释图表。Hugging Face还开发了一个该模型的版本,能够基于用户提示定制其输出。
在技术层面,SmolVLM-256M包含2.56亿个参数,远少于最先进的基础模型中的数百亿个参数。模型参数越少,所需硬件资源就越少,这也是SmolVLM-256M能够在笔记本电脑等设备上运行的原因。
SmolVLM-256M是Hugging Face发布的一系列开源视觉语言模型中的最新款。与该公司早期的模型相比,SmolVLM-256M的主要改进之一是采用了新的编码器。这个软件模块负责将AI处理的文件转换为编码,这些编码是神经网络更容易处理的数学结构。
SmolVLM-256M的编码器基于名为SigLIP base patch-16/512的开源AI算法,后者则源自OpenAI于2021年发布的一个图像处理模型。该编码器包含9300万个参数,不到Hugging Face上一代编码器参数数量的四分之一,这有助于减小SmolVLM-256M的硬件占用。
值得注意的是,较小的编码器能够以更高的分辨率处理图像,根据苹果和谷歌的研究,这通常可以在不增加参数数量的情况下提高视觉理解能力。
为了训练这款AI,Hugging Face使用了一个改进后的数据集,该数据集之前曾用于开发其上一代视觉语言模型。为了提升SmolVLM-256M的推理能力,Hugging Face在数据集中加入了一系列手写数学表达式,还进行了其他改进,旨在提高模型对文档的理解和图像描述能力。
在一项内部评估中,Hugging Face将SmolVLM-256M与18个月前发布的拥有80亿参数的多模态模型进行了比较。在超过六个基准测试中,前者取得了更高的分数。在名为MathVista的基准测试中,该模型处理几何问题的得分提高了10%以上。
除了SmolVLM-256M外,Hugging Face还推出了一个功能更强大的算法,名为SmolVLM-500M,其包含5亿个参数。它以部分硬件效率为代价,换取了更高的输出质量。据Hugging Face表示,SmolVLM-500M在遵循用户指令方面也表现得更好。
目前,Hugging Face已将这两款模型的源代码上传至其同名的AI项目托管平台。