Google Gemini AI打破视觉处理规则，多流处理新时代来临

2025年01月15日由 daydream 发表 2810 0

近期，Google的Gemini人工智能系统在一项关键技术上取得了显著进展：它能够同时处理多个视觉流，包括实时视频和静态图像。这一成就并非通过Google的主流平台公布，而是源自一款名为“AnyChat”的实验性应用。

微信截图_20250115105808

Gemini的这一能力得益于其先进的神经网络架构，使得AnyChat能够充分利用该架构，在不牺牲性能的前提下处理多个视觉输入。尽管Gemini的API已具备这种功能，但Google的官方应用尚未向终端用户开放此特性。

相比之下，许多其他AI平台，包括ChatGPT，在处理单个视觉流时就会遇到资源限制。例如，当ChatGPT处理视频流时，无法同时上传并处理图像。而Gemini通过AnyChat展现出的多流处理能力，打破了这一限制。

AnyChat通过获得Gemini API的特殊权限，实现了这一突破。这些权限使AnyChat能够访问Google官方平台尚未提供的功能。利用这些权限，AnyChat优化了Gemini的注意力机制，使其能够同时跟踪和分析多个视觉输入，同时保持对话的连贯性。

AnyChat的成功并非偶然，其开发者与Gemini的技术架构紧密合作，拓展了其能力边界。通过这一实验性方法，AnyChat实现了同时处理实时视频和静态图像的功能，打破了“单流障碍”。

Gemini的这一新能力具有广泛的应用前景。在医疗领域，专业人员可以同时向AI展示患者的实时症状和历史诊断扫描，以获得更全面的分析。工程师可以比较实时设备性能与技术图纸，获得即时反馈。质量控制团队可以以前所未有的准确性和效率，将生产线输出与参考标准进行对比。

在教育领域，学生可以使用Gemini实时分析教科书，同时解决实践问题，从而获得情境感知支持，弥合静态与动态学习环境之间的鸿沟。艺术家和设计师可以同时展示多个视觉输入，开辟新的创意协作和反馈渠道。

目前，AnyChat仍作为一个实验性开发者平台存在，其成功证明了多流AI视觉不再是遥不可及的愿景，而是已经实现的现实，准备迎接大规模应用。

AnyChat的出现也引发了一些问题。为何Gemini的官方推出未包含此功能？这是疏忽、资源分配的故意选择，还是表明更小、更灵活的开发者正在推动下一波创新？

随着AI竞赛的加速，AnyChat的经验表明：最重要的进步可能并非总是来自科技巨头的庞大研究实验室，而是来自那些看到现有技术潜力并敢于进一步推动的独立开发者。

Gemini的突破性架构现已证明能够处理多流，这为新一代AI应用奠定了基础。Google是否会将此功能融入其官方平台尚不确定。但有一点是明确的：AI能够做到的事情与其官方提供的功能之间的差距，现在变得更加有趣。

文章来源：https://venturebeat.com/ai/google-gemini-ai-just-shattered-the-rules-of-visual-processing-heres-what-that-means-for-you/

标签：

Google Gemini

0 评论

欢迎关注ATYUN官方公众号

商务合作及内容投稿请联系邮箱:bd@atyun.com

上一篇 Nvidia投资MetAI，加速工业AI与数字孪生技术发展

下一篇 OpenAI的AI推理模型有时会用中文“思考”，但没人真正知道原因

评论登录

要发表评论，您必须先登录。

jonatasgrosman/wav2vec2-large-xlsr-53-english facebook/dino-vitb16 bert-base-uncased xlm-roberta-large xlm-roberta-base gpt2 microsoft/resnet-50 facebook/dino-vits8

AGENTIC AI如何塑造未来

每个人都应该知道的48个AI术语

openwebtext glue shunk031/JGLUE piqa wikitext sciq EleutherAI/lambada_openai facebook/flores

AI热点

行业学习机器学习人工智能公司板人工智能未来机器人视觉识别

AI工具

更多工具 »

火山写作

字节跳动旗下团队推出的免费AI英语写作助手

Stable Diffusion

StabilityAI推出的文本到图像生成AI

GitHub Copilot

GitHub AI编程工具

Adobe Firefly

Adobe最新推出的AI图片生成工具

文心一格

AI艺术和创意辅助平台

本周热门

热门企业

热门职位

Maluuba

20000~40000/月

Unity技术经理

Cisco

25000~30000/月深圳市

高级数据分析工程师

PilotAILabs

30000~60000/年深圳市