OpenAI于周二在旧金山举办了2024年度开发者大会(DevDay 2024)。与去年高调的活动相比,今年的大会显得更为低调,且未进行直播。会上,OpenAI发布了四项旨在提升开发者体验的新工具。
首先,OpenAI推出了Realtime API的公共测试版,该API支持付费开发者创建低延迟、多模态的应用程序。通过这一新工具,开发者可以轻松实现自然语音对话,支持六种预设声音,与ChatGPT的高级语音模式类似。Realtime API简化了语音应用程序的构建流程,无需再组合多个模型进行转录、推理和文本到语音的转换,旨在保留情感细节并减少对话延迟。
其次,OpenAI现在允许开发者使用图像和文本对GPT-4o进行微调,以提高其视觉理解能力。这一功能为改进视觉搜索、自动驾驶车辆中的对象检测以及医学图像分析等领域带来了新的可能性。早期采用者已经报告了显著的改进,如东南亚食品配送和拼车公司Grab在使用仅100个训练示例后,车道计数准确性提高了20%,限速标志定位提高了13%。
此外,OpenAI还引入了Prompt Caching功能,该功能类似于Anthropic提供的服务,可以对模型最近处理过的输入自动提供折扣。这一特性适用于GPT-4o、GPT-4o mini、o1-preview和o1-mini的最新版本及其微调变体。缓存的提示相比未缓存的提示享有50%的折扣,对于在应用程序中使用重复性上下文的开发者来说,这可能带来显著的成本节约。缓存通常在5-10分钟不活动后清除,并总是在缓存最后一次使用后的一个小时内移除。
最后,OpenAI推出了Model Distillation工具,该工具简化了使用较大、功能更强大的模型(如GPT-4o和o1-preview)输出来微调成本效益高的模型的过程。这一集成的工作流包括Stored Completions和Evals,允许开发者在OpenAI平台上捕获输入-输出对、微调模型和评估性能。这种方法使开发者能够针对特定任务改进较小的模型(如GPT-4o mini),以较低的成本实现与较大模型相当的性能。
总的来说,OpenAI DevDay 2024标志着该公司向更专注、以开发者为中心的创新方向转变。尽管今年的活动没有往年的声势浩大,但所发布的新工具展示了OpenAI在提高AI可访问性和效率方面的承诺。