OpenAI 一直在向其客户展示一个新的多模态 AI 模型,该模型既能与你对话又能识别物体,据《信息》杂志的一份新报告称。该媒体援引未具名人士的话称,这可能是该公司计划在周一展示的内容的一部分。
据报道,这个新模型在图像和音频的解读上比其现有的单独转录和文本转语音模型更快、更准确。它显然可以帮助客服人员“更好地理解来电者的语气或他们是否在讽刺”,并且“理论上”,该模型还可以帮助学生解决数学问题或翻译现实世界中的标志,《信息》杂志写道。
该媒体的消息来源称,该模型在“回答某些类型的问题”方面能胜过 GPT-4 Turbo,但仍然有可能自信地给出错误答案。
据开发者 Ananay Arora 称,OpenAI 可能也在准备将 ChatGPT 的新功能用于打电话。Arora 发布了与电话相关的代码截图。他还发现了 OpenAI 为实时音频和视频通信预留服务器的证据。
如果下周公布的不是这些,那么它们都不会是 GPT-5。CEO Sam Altman 已经明确否认即将公布的公告与应该“明显优于”GPT-4 的模型有任何关系。《信息》杂志报道称,GPT-5 可能在年底前公开发布。
Altman 还表示,公司不会宣布一款新的 AI 搜索引擎。但如果《信息》杂志报道的是即将公布的内容,那么这仍然可能会让谷歌的 I/O 开发者大会黯然失色。谷歌一直在测试使用 AI 打电话。其传闻中的项目之一是名为“Pixie”的多模态 Google Assistant 替代品,它可以通过设备的摄像头查看物体,并执行诸如提供购买地点的方向或提供使用说明等操作。
无论 OpenAI 计划公布什么,它都计划于周一上午 10 点(太平洋时间)/ 下午 1 点(东部时间)在其网站上通过直播进行公布。