上海AI实验室发布新一代书生·视觉大模型，视觉核心任务开源领先 | ATYUN.COM 官网-人工智能教程资讯全方位服务平台

登录注册

资讯

学习

基础知识理论实践学习教程

企业招聘

下载

模型数据集

AI工具箱

企业服务

EVA 智能HR 视频AI

ChatGPT 人工智能应用人工智能未来计算机视觉

热门新闻

行业人工智能

为什么数据污染对LLM来说是一个大问题

机器人康奈尔大学

康奈尔大学推出新的社交机器人，更柔软，更人性化

行业人工智能

所以，能动手就别吵吵了

常用工具

字节跳动旗下团队推出的免费AI英语写作助手

Stable Diffusion

StabilityAI推出的文本到图像生成AI

GitHub AI编程工具

Adobe最新推出的AI图片生成工具

AI艺术和创意辅助平台

您尚未登录账户

请先登录您的atyun账户，方可使用该功能

仅限企业账户使用

该功能仅限企业账号使用，开通企业账号可享受更多服务，是否现在注册企业账号？

立即注册企业账号

暂不需要

您的企业账号申请正在审核中

审核通过后即可使用此功能，请耐心等待~

上海AI实验室发布新一代书生·视觉大模型，视觉核心任务开源领先

2024年01月30日由 neo 发表 626 0

近日，上海人工智能实验室携手清华大学、香港中文大学和商汤科技等机构，正式开源了新一代的书生·视觉大模型（InternVL）。

d0ee0dd0-3653-4dce-9f29-ecda2a17eeef

据了解，这款名为InternVL-6B的视觉编码器模型拥有高达60亿的参数量，标志着在视觉大模型领域的一次重大突破。该模型首次采用了对比-生成融合的渐进式对齐技术，实现了在互联网级别数据上视觉大模型与语言大模型的精细对齐。这意味着，InternVL-6B不仅能够处理复杂图片中的细微视觉信息，还能完成图生文任务。

更令人瞩目的是，InternVL-6B还具备解读复杂页面信息的能力，甚至能够解决其中的数理问题。这一功能的实现，无疑进一步扩大了其在各个领域的实际应用范围。

上海AI实验室在视觉大模型的研发上一直走在前沿。2021年，他们发布了书生1.0，成为国内首个广泛覆盖多种视觉任务的大模型。该模型仅需一个基模型，便能全面覆盖分类、目标检测、语义分割、深度估计四大视觉核心任务。

而在2022年，他们再次更新发布了视觉大模型InternImage。这一模型构建了以动态稀疏卷积为核心操作的视觉大模型新架构，开创了非Transformer的大模型架构新途径。在12类视觉任务中，InternImage展现出了卓越的性能表现。

可以预见，随着视觉大模型的持续发展和应用，其在各个领域的潜力将得到进一步释放。

文章来源：https://tech.ifeng.com/c/8WlVQ72sQlW

标签：

人工智能

0 评论

欢迎关注ATYUN官方公众号

商务合作及内容投稿请联系邮箱:bd@atyun.com

上一篇 Meta推出新版Code Llama：更强大、更准确的代码生成AI

下一篇科大讯飞发布星火认知大模型V3.5：多项能力超越GPT-4 Turbo

评论登录

要发表评论，您必须先登录。

jonatasgrosman/wav2vec2-large-xlsr-53-english facebook/dino-vitb16 bert-base-uncased xlm-roberta-large xlm-roberta-base gpt2 microsoft/resnet-50 facebook/dino-vits8

AGENTIC AI如何塑造未来

每个人都应该知道的48个AI术语

openwebtext glue shunk031/JGLUE piqa wikitext sciq EleutherAI/lambada_openai facebook/flores

AI热点

行业学习机器学习人工智能公司板人工智能未来机器人视觉识别

AI工具

更多工具 »

字节跳动旗下团队推出的免费AI英语写作助手

Stable Diffusion

StabilityAI推出的文本到图像生成AI

GitHub AI编程工具

Adobe最新推出的AI图片生成工具

AI艺术和创意辅助平台

热门企业

更多企业 »

热门职位

更多职位 »

深度学习软件工程师

Maluuba

20000~40000/月

Unity技术经理

Cisco

25000~30000/月深圳市

高级数据分析工程师

PilotAILabs

30000~60000/年深圳市

广告

写评论取消

回复取消