我们之前曾问过这个问题“多模态GPT-4发生了什么?”六个月后,谷歌的Gemini似乎迫使OpenAI认真考虑加快发布具有多模态功能的GPT-4。据报道,谷歌将很快推出Gemini,OpenAI必须做好准备。
OpenAI目前正在将GPT-4与多模态功能集成,这与谷歌与Gemini的计划非常相似。根据最近的报告,该集成模型预计命名为GPT-Vision。Gemini和GPT-Vision预计将于今年秋季进入市场,并可能相互竞争。
虽然Sam Altman早些时候已经明确表示人们不应该期望GPT-5或GPT-4.5然而,根据Information的文章,OpenAI可能会继GPT-Vision之后,推出一个更强大的多模态模型,代号为Gobi,与GPT-4不同,Gobi从一开始就被设计为多模态。
许多人热切期待着OpenAI可能会在他们的首次开发者大会上推出多模态GPT-4。OpenAI开发日定于11月6日在旧金山举行。
OpenAI没有推出多模态功能,可能不是因为无法开发这些功能。ChatGPT创建者正在与一家名为Be My Eyes的公司开发一款应用程序。这个应用程序可以向盲人用户描述图像,帮助他们解读周围环境,以便他们能够更独立地与世界互动。
在此次合作中,OpenAI认识到,在现阶段向GPT-4添加多模态功能可能为时过早,因为图像的集成可能会引发隐私问题。此外,还有误解面部特征的风险,例如性别或情绪状态,这可能导致生成有害或不合适的回复。
与此同时,OpenAI已经有所准备。几个月前有报道称OpenAI正在开发Dall E-3。用户MattVidPro泄露的早期样本显示,该模型的表现要比其他图像生成器(包括通常被视为最佳的Midjourney)好得多。
有趣的是,在最近的采访中,谷歌首席执行官Sundar Pichai在被问及Gemini与ChatGPT相比有何优势时回答说:“如今,你有独立的文本和图像等生成模型。有了Gemini,这些模型就会融合。”这意味着,我们对Gemini的最大期望是它能够根据用户提示生成文本和图像。
如果OpenAI结合了Dall E-3和ChatGPT Plus的功能,那么与Gemini相比会更加优秀。
为了超越GPT-4,Gemini正在YouTube视频上接受训练,这将是第一个通过视频而不仅仅是文本(或GPT-4的文本加图像)进行训练的多模态模型。此外,Demis Hassabis最近声称DeepMind的工程师正在为Gemini使用AlphaGo的技术。
另一方面,谷歌的Bard并没有给人留下强烈的印象,在生成文本方面不如ChatGPT。因此,寄希望于Gemini能扭转谷歌的命运是一个巨大的赌注。
OpenAI的产品发布流程与谷歌不同。谷歌,是市场上一家历史悠久、声誉良好的公司,在世界各地拥有43亿的用户,推出任何产品之前都要深思熟虑。他们必须确保产品完整无缺,没有任何漏洞。
而OpenAI已经发布过产品,尽管它们还并不完善,并且需要消费者的评论来帮助他们做出必要的改变。
以GPT-4为例。当OpenAI最初推出它时,他们提到它将是多模态的。然而,事实并非如此。此外,OpenAI公开承认GPT-4的局限性,并表示它仍然不完全可靠,经常会产生不准确的信息并导致推理错误。
Pichai在最近的采访中表达了类似的观点,ChatGPT产品的成功向谷歌证明了LLM技术非常适合市场。
他表示,“感谢OpenAI推出ChatGPT,它显示了产品与市场的契合,人们已经准备好理解和使用这项技术”。
可以肯定地说,随着谷歌和OpenAI努力在多模态战争中占据领先地位,今年秋季肯定会变得更加有趣。