OpenAI 首席执行官在谈到 Meta 智能眼镜时表示:“在脸上佩戴计算机涉及许多复杂的社会和人际问题。”
在OpenAI与苹果最受期待的合作即将达成之际,OpenAI 首席执行官 Sam Altman 近日盛赞这家总部位于库比蒂诺的科技巨头的技术实力,他表示:“iPhone 是人类有史以来最伟大的技术发明”,而且“门槛相当高”,很难被超越。
Altman一直是苹果的忠实粉丝。
最近,OpenAI 聘请了 iPhone 的知名设计师 Jony Ive,来探讨新的 AI 硬件。“我们一直在讨论各种想法,”Altman 在最近一期《All-In Podcast》播客节目中说道,他谈到了在智能手机上运行大型语言模型的可能性,以及当它实现时是否经济实惠。
“几乎每个人都愿意为手机付费,”Altman 补充说,便宜并不是答案。“即使能制造出更便宜的设备,我认为携带或使用第二个设备的障碍相当高,”他补充道,暗示智能手机在短时间内不会过时。
这与 Meta 首席人工智能科学家 Yann LeCun 的观点相反,他认为在未来 10-15 年内,智能手机将变得过时,人们将使用增强现实眼镜和手环与智能助手进行交互。
但是,Altman 不这么认为。
Altman 提到对 Meta 智能眼镜的担忧,表示:“在脸上佩戴计算机涉及许多复杂的社会和人际问题。”
随着 Apple 即将与 OpenAI 达成合作,将 ChatGPT 集成到 iOS 18 中,作为增强其设备 AI 能力的战略的一部分,Altman 的观点也发生了变化。
此外,OpenAI 计划在今天宣布一些重大消息,该公司可能会发布一款 AI 语音助手,并同时推出 GPT-4 Lite、GPT-4-Auto 和 GPT-4-Auto Lite 系列模型。这些新模型将能够使用声音和文本与人进行交谈,同时还能够识别物体和图像。
“如果你能完善语音交互,那就会感觉像是使用计算机的一种全新方式,”Altman调侃道。
Altman还表示,OpenAI目前正在开发一个AI助手,旨在像资深AI员工一样工作。用户可以将任务委派给这个助手,包括管理电子邮件。
OpenAI最近推出了一个Voice Engine模型,该模型可以从文本输入和仅15秒的音频样本中生成自然的声音。Voice Engine项目始于2022年底,最初专注于为OpenAI的文本到语音API、ChatGPT Voice和Read Aloud功能提供预设声音。
LLM与语音交互
OpenAI并非孤军奋战。今年早些时候,Hume AI发布了移情语音接口(Empathic Voice Interface,简称EVI),该接口能够像人类一样进行对话,基于用户的语调理解和表达情感。它能够解读微妙的语音变化并产生移情反应,因此许多人将其称为下一个“ChatGPT时刻”。
Hume AI的创始人Alan Cowen表示:“我们相信语音界面很快就会成为我们与AI交互的默认方式。语音比打字快四倍,解放了眼睛和双手,并且在音调、节奏和音色中携带了更多信息。”
该公司的EVI API标志着首个情感智能语音AI API的诞生。它现已推出,能够接收实时音频输入,并提供带有语音表达指标的生成音频和转录文字。