近日,上海人工智能实验室携手清华大学、香港中文大学和商汤科技等机构,正式开源了新一代的书生·视觉大模型(InternVL)。
据了解,这款名为InternVL-6B的视觉编码器模型拥有高达60亿的参数量,标志着在视觉大模型领域的一次重大突破。该模型首次采用了对比-生成融合的渐进式对齐技术,实现了在互联网级别数据上视觉大模型与语言大模型的精细对齐。这意味着,InternVL-6B不仅能够处理复杂图片中的细微视觉信息,还能完成图生文任务。
更令人瞩目的是,InternVL-6B还具备解读复杂页面信息的能力,甚至能够解决其中的数理问题。这一功能的实现,无疑进一步扩大了其在各个领域的实际应用范围。
上海AI实验室在视觉大模型的研发上一直走在前沿。2021年,他们发布了书生1.0,成为国内首个广泛覆盖多种视觉任务的大模型。该模型仅需一个基模型,便能全面覆盖分类、目标检测、语义分割、深度估计四大视觉核心任务。
而在2022年,他们再次更新发布了视觉大模型InternImage。这一模型构建了以动态稀疏卷积为核心操作的视觉大模型新架构,开创了非Transformer的大模型架构新途径。在12类视觉任务中,InternImage展现出了卓越的性能表现。
可以预见,随着视觉大模型的持续发展和应用,其在各个领域的潜力将得到进一步释放。