上海AI实验室发布新一代书生·视觉大模型,视觉核心任务开源领先

2024年01月30日 由 neo 发表 387 0

近日,上海人工智能实验室携手清华大学、香港中文大学和商汤科技等机构,正式开源了新一代的书生·视觉大模型(InternVL)。

d0ee0dd0-3653-4dce-9f29-ecda2a17eeef

据了解,这款名为InternVL-6B的视觉编码器模型拥有高达60亿的参数量,标志着在视觉大模型领域的一次重大突破。该模型首次采用了对比-生成融合的渐进式对齐技术,实现了在互联网级别数据上视觉大模型与语言大模型的精细对齐。这意味着,InternVL-6B不仅能够处理复杂图片中的细微视觉信息,还能完成图生文任务。

更令人瞩目的是,InternVL-6B还具备解读复杂页面信息的能力,甚至能够解决其中的数理问题。这一功能的实现,无疑进一步扩大了其在各个领域的实际应用范围。

上海AI实验室在视觉大模型的研发上一直走在前沿。2021年,他们发布了书生1.0,成为国内首个广泛覆盖多种视觉任务的大模型。该模型仅需一个基模型,便能全面覆盖分类、目标检测、语义分割、深度估计四大视觉核心任务。

而在2022年,他们再次更新发布了视觉大模型InternImage。这一模型构建了以动态稀疏卷积为核心操作的视觉大模型新架构,开创了非Transformer的大模型架构新途径。在12类视觉任务中,InternImage展现出了卓越的性能表现。

可以预见,随着视觉大模型的持续发展和应用,其在各个领域的潜力将得到进一步释放。

文章来源:https://tech.ifeng.com/c/8WlVQ72sQlW
欢迎关注ATYUN官方公众号
商务合作及内容投稿请联系邮箱:bd@atyun.com
评论 登录
写评论取消
回复取消