Gemini Pro vs GPT-4V:这次谷歌取得胜利了吗?

2023年12月29日 由 samoyed 发表 240 0

在强调GPT-4V在基准测试场景中的令人印象深刻的能力时,认识到Gemini Pro拥有着与其相似的水平至关重要。


尽管谷歌发布了其竞争对手Gemini Pro,但有说法称它未能达到与OpenAI的GPT-4相同水平的预期。围绕Gemini和GPT-4V哪一个全面优越的讨论仍在继续。虽然很多意见倾向于GPT-4V,但重要的是要承认谷歌的Gemini Pro并未落后太多。


Gemini-Pro-vs-GPT4-V-Has-Google-Killed-it-This-Time-1300x731


来自香港和上海的研究人员最近发表的一篇研究论文,题为“Gemini Pro与GPT-4V:通过定性案例对视觉-语言模型的初步比较和结合”,比较了两种模型的视觉能力,结果相当有趣。


Gemini在特定推理任务中表现出卓越的性能,特别是在逻辑推理和事实准确性方面。这表明Gemini是一个完成需要强大理解力和分析能力任务的适当选择。因此,认识到两种模型的优势是必要的。


GPT-4V与Gemini


该研究表明,GPT-4V在回应中表现出精确性和简洁性,展现了其在情境理解方面的显著优势。另一方面,Gemini Pro擅长提供详细和广泛的答案,并结合相关图像和链接,突出其丰富内容生成的能力。在工业应用场景中,两种模型都展现了其能力,尽管有细微差异。


Gemini仅限于一次输入单个图像,但GPT-4V(视觉)能够连续摄入多个图像。虽然两种模型在基本图像识别任务中展现了可比的熟练程度,GPT-4视觉在现实世界物体定位中表现出色,特别是在抽象图像定位方面。


两种模型都在图像中文本提取方面表现良好,但Gemini在读取表格信息方面超过了GPT-4视觉。两种模型在高级推理任务中都表现出常识理解能力,Gemini在某些智力测试中略微落后。值得注意的是,两种模型在情感理解和表达方面都表现出色。


在特定任务要求之间GPT-4和Gemini优劣取决于具体情况。GPT-4在多模态和提示任务中更加受到青睐,Gemini则被用于代码相关的努力或优先考虑计算效率的场景。


Gemini通过测试了吗?


当谷歌在发布时通过演示视频展示了Gemini Ultra的多模态能力时,每个人都惊呆了。然而,后来发现视频是经过舞台布置的。


谷歌上传的六分钟视频引导我们通过各种示例,其中Gemini参与流畅的对话,回答查询并参与如与人玩剪刀石头布等活动。


在演示中,一切看上去都是实时发生的,Gemini可以迅速响应。相反,YouTube视频的描述是,“为了这次演示的目的,减少了延迟,Gemini输出已简化以便简洁。”但Gemini Pro的性能并非如此。


在强调GPT-4V在基准测试场景中的令人印象深刻的能力时,认识到Gemini Pro与其并行的优势至关重要。Gemini通过其提供简洁直接反应的能力来脱颖而出,这在需要事实准确性和快速信息检索的任务中提供了明显优势。


Gemini在代码相关任务中脱颖而出,在代码生成、理解、翻译和错误检测方面表现出娴熟的技能,成为开发人员的首选。它还拥有通用的推理能力,并以其可扩展性和效率而备受赞誉。


然而,两种模型都有弱点,包括在空间意识、不可靠的OCR、推理的不一致性以及对提示的敏感性方面的缺陷。尽管Gemini Ultra将于明年发布,如果你优先考虑实用性、效率和更广泛的可访问性,Pro可能是更好的选择。

文章来源:https://analyticsindiamag.com/gemini-pro-vs-gpt-4v-has-google-killed-it-this-time/
欢迎关注ATYUN官方公众号
商务合作及内容投稿请联系邮箱:bd@atyun.com
评论 登录
写评论取消
回复取消