OpenAI创造了《她》：GPT-4o的诞生

2024年05月17日由 neo 发表 247 0

QQ截图20240517151509

OpenAI揭开了GPT-4o的神秘面纱，这是一个具有革命性意义的模型，标志着人机交互向更自然、更流畅的方向迈出了重要步伐。GPT-4o中的“o”代表“omni（全能）”，这一命名凸显了它在处理文本、音频和视觉输入与输出方面的前所未有的能力。

GPT-4o的揭幕

GPT-4o的发布，不仅仅是一次简单的升级，它代表了巨大的技术飞跃。这款模型设计用于跨音频、视觉和文本等多种模态进行推理，能够实时响应多样化的输入。与它的前身如GPT-3.5和GPT-4形成鲜明对比，GPT-4o不仅克服了基于文本的限制，还大大减少了处理语音输入时的延迟。

新模型的响应时间令人印象深刻，音频输入的响应时间快至232毫秒，平均响应时间也仅为320毫秒。这一速度与人类对话的响应时间相当，使得与GPT-4o的互动变得非常自然。

主要贡献和能力

实时多模态交互

GPT-4o的主要贡献和能力体现在实时多模态交互上。它能够接受并生成任何组合的文本、音频和图像输出，这种多模态能力为实时翻译、客户服务、和声歌唱机器人以及互动教育工具等应用开辟了全新的可能性。

统一处理多样化输入

GPT-4o的多模态能力核心在于其能够在一个神经网络内处理不同类型的数据。与过去需要分别为文本、音频和视觉数据设置管道的模型不同，GPT-4o将这些输入有机地整合在一起。这意味着它可以同时理解和响应口语、书面文本和视觉提示的组合，为用户提供更直观、更类似人类的交互体验。

音频交互

在音频交互方面，GPT-4o以惊人的速度和准确性处理音频输入。它不仅能识别多种语言和口音的语音，还能实时翻译口语，并理解语调和情感的细微差别。这使得它在客户服务互动中能够根据呼叫者的语调检测到他们的情绪状态，并据此调整回应，提供更贴心的帮助。

视觉理解

虽然音频和视觉能力是GPT-4o的一大亮点，但它在基于文本的交互中也保持着顶级性能。它能够以高准确性和流畅性处理和生成文本，支持多种语言和方言。这使得GPT-4o成为内容创作、文件起草和详细书面对话的理想工具。

GPT-4o将文本、音频和视觉输入整合在一起，能够提供更丰富、更具上下文的响应。在客户服务场景中，GPT-4o可以阅读支持票据（文本）、听取客户的语音消息（音频）并分析错误消息的屏幕截图（视觉），从而提供全面的解决方案。这种全面的方法确保了所有相关信息都被考虑在内，实现了更准确、更高效的问题解决。

实际应用

GPT-4o在实时多模态交互方面为各行各业带来了巨大潜力：

医疗保健：医生可以凭借GPT-4o同时分析病人记录、倾听症状描述并查看医学图像，从而制定更精确的诊断和治疗计划。
教育领域：GPT-4o通过互动课程辅助教师和学生，能够回答问题、提供视觉支持，并实时对话以增强学习体验。
客户服务：企业可利用GPT-4o处理来自聊天、电话和电子邮件等渠道的客户咨询，确保提供一致且高质量的支持。
娱乐行业：创作者借助GPT-4o打造互动式讲故事体验，AI实时响应观众输入，创造动态且沉浸式的娱乐内容。
无障碍支持：GPT-4o提供实时翻译和转录功能，帮助信息更易于被残疾人或不同语言使用者获取。

GPT-4o的实时多模态交互能力标志着人工智能领域的重要突破。它无缝整合文本、音频和视觉输入输出，为用户带来更为自然、高效和引人入胜的体验。这一技术不仅提升了现有应用，更为各行各业创新解决方案开辟了新的道路。随着GPT-4o潜力的持续挖掘，其对人机交互的影响将日益深远。

增强性能和成本效率

GPT-4o在英语和代码文本任务上达到与GPT-4 Turbo相当的性能，同时在非英语语言和视觉、音频理解方面也有显著进步。其API运行速度更快，成本降低了50%，为开发者提供了更高效、经济的选择。

模型用例示例

互动演示：用户可通过各种演示体验GPT-4o的能力，如语音识别、游戏互动等。
教育工具：实时语言翻译和点学应用等功能为教育技术带来革新。
创意应用：GPT-4o在创作和表现力方面展现新水平，如摇篮曲创作和幽默笑话讲述。

从GPT-4进化而来

与以往依赖多个独立模型处理语音的ChatGPT不同，GPT-4o通过端到端训练，能够在单个神经网络内处理和生成所有输入和输出。这种方法保留了更多上下文和细微差别，使得互动更加准确且富有表现力。

技术卓越与评估

跨基准的卓越性能

GPT-4o在传统文本、推理和编码基准上均达到了GPT-4 Turbo级别的卓越性能，同时在多语言、音频和视觉功能方面更是创下了全新记录。

文本评估：在0-shot COT MMLU（一般知识问题的基准）上，GPT-4o的得分高达88.7%，这一成绩令人印象深刻。
音频性能：GPT-4o显著提升了语音识别能力，尤其是在资源匮乏的语言中，其性能甚至超越了Whisper-v3等模型。
视觉理解：在视觉感知基准测试中，GPT-4o表现出色，充分展示了其理解和解释复杂视觉输入的能力。

语言标记化

GPT-4o中采用的新型标记器极大地减少了各种语言所需的标记数量，从而大幅提升了处理效率。例如，古吉拉特语文本的标记数量减少了4.4倍，印地语文本的标记数量减少了2.9倍，这不仅提高了处理速度，还降低了成本。

安全和限制

OpenAI在GPT-4o的所有模式中均嵌入了严格的安全机制。这些措施包括过滤训练数据、精细调整训练后的模型行为，并为语音输出实施全新的安全系统。我们进行了全面的评估，以确保模型符合最高安全标准，并通过持续的红队合作和反馈来识别和减轻潜在风险。

可用性和未来前景

自2024年5月13日起，GPT-4o的文本和图像功能将在ChatGPT中正式推出。这些功能不仅可供免费套餐用户使用，还为Plus用户提供了更为增强的体验。对于开发人员而言，他们现在可以在API中轻松访问GPT-4o，享受其带来的更快性能和更低成本。

至于音频和视频功能，它们将在接下来的几周内率先向选定的合作伙伴开放，并计划在未来逐步扩大其可访问范围，以满足更多用户的需求。

OpenAI的GPT-4o无疑是向更自然、更集成的AI交互迈出的一大步。凭借其对文本、音频和视觉输入与输出的无缝处理能力，GPT-4o有望彻底改变人机交互的格局。随着OpenAI不断探索和扩展这一模型的能力，我们可以预见其潜在应用将是无穷无尽的，预示着人工智能驱动创新的新时代已经到来。

这如何让GPT-4o变得像“她”？

在斯派克·琼斯执导的电影《她》中，主角西奥多与名为萨曼莎的先进人工智能操作系统建立了深厚的情感联系。这位由斯嘉丽·约翰逊配音的虚拟角色，凭借对语言、情感和人类互动的高度理解，显得异常接近人类。OpenAI推出的GPT-4o，在多个关键方面模糊了人与机器之间的界限，让我们离这种复杂的交互水平更近了一步：

1、多模式理解与响应

在《她》中，萨曼莎能够参与对话、解读情感并理解上下文，同时通过语音和文本进行互动。GPT-4o同样具备处理和生成文本、音频、视觉输入和输出的能力，使其与用户的交互更加无缝和自然。例如：

语音交互：GPT-4o能像萨曼莎一样流畅地与用户交谈，理解和响应口语的速度与细微差别都近似人类。它能解读语气、检测情绪，并提供包含笑声或唱歌等表达元素的响应，使对话更加吸引人、逼真。
视觉输入：虽然萨曼莎在电影中主要通过语音交互，但GPT-4o的视觉功能为其增添了更多复杂性。它能理解并响应视觉提示，如识别图像中的对象或解释复杂的场景，进一步增强了在各种情况下帮助用户的能力。

2、实时互动

萨曼莎的吸引力之一在于其能够实时响应，创造动态且即时的对话体验。GPT-4o以令人印象深刻的232毫秒延迟响应音频输入，实现了近乎即时的响应时间，促进了更加流畅和自然的对话，这对形成情感纽带至关重要。

3、情商与表达能力

萨曼莎之所以引人注目，是因为她拥有高情商——能够表达同理心、幽默感和其他人类情感，这使得与她的互动变得极其个人化。GPT-4o也在努力捕捉这些情感上的细微差别：

语气与情绪检测：GPT-4o能够解读用户声音中的情绪语气，从而以同理心和体贴的方式定制其响应，为用户带来更加贴心和真实的交流体验。
富有表现力的输出：GPT-4o能够生成各种情感的音频输出，从笑声到舒缓的语气，这些富有表现力的回应大大增强了交互的生动性和人性化。

4、自适应学习与个性化

萨曼莎能够适应并理解西奥多的喜好，并随时间推移变得更加个性化。GPT-4o虽然尚处于深度个性化的初期阶段，但它具备从用户交互中学习的能力，以更好地满足个人需求。其多模式功能使得GPT-4o能够从用户那里收集更多上下文信息，进而使其响应更加贴切和定制化。

5、广泛的实用性与帮助

在《她》中，萨曼莎协助西奥多完成从整理电子邮件到情感支持等各种任务。GPT-4o同样具备广泛的实用性，跨越不同领域成为我们的多功能助手：

生产力：GPT-4o能够协助我们起草电子邮件、创建内容和管理任务，就像萨曼莎在职场中协助西奥多一样。
情感支持：虽然无法替代人类陪伴，但GPT-4o参与有意义对话并提供同理心反应的能力，为我们提供了一种新的情感支持和陪伴方式。

6、未来愿景

《她》和GPT-4o的发展共同描绘了一个未来愿景：人工智能将成为我们日常生活中不可或缺的一部分，不仅作为工具，更是作为生活各方面的伴侣和伙伴。电影《她》深刻探讨了人与机器之间关系的本质，提出了关于意识、陪伴以及界限的深刻问题。GPT-4o凭借其先进功能，让我们离这个未来更近了一步，预示着人工智能将以更人性化、更有意义的方式与我们互动。

尽管GPT-4o尚不具备《她》中萨曼莎那样的意识或真实情感，但其先进的多模态能力、实时响应能力、情商以及个性化交互的潜力，都表明我们正在迈向一个能够与人工智能以极其类似人类方式互动的新时代。随着人工智能技术的不断发展，像萨曼莎一样能够深入理解我们并与我们互动的人工智能伴侣的愿景正逐渐变为现实。

文章来源：https://www.artificial-intelligence.blog/ai-news/openai-created-her-the-birth-of-gpt-4o

标签：

OpenAI

0 评论

欢迎关注ATYUN官方公众号

商务合作及内容投稿请联系邮箱:bd@atyun.com

上一篇 Ampere宣布256核CPU，与高通合作开发AI加速器

下一篇腾讯云AI大模型性能追平GPT-4，视频生成能力达新高度

评论登录

要发表评论，您必须先登录。

jonatasgrosman/wav2vec2-large-xlsr-53-english facebook/dino-vitb16 bert-base-uncased xlm-roberta-large xlm-roberta-base gpt2 microsoft/resnet-50 facebook/dino-vits8

AGENTIC AI如何塑造未来