OpenAI将更新ChatGPT：支持图片和语音输入

2023年09月26日由 daydream 发表 528 0

ChatGPT在2022年底的登场可能让谷歌的高层感到有些不安。这个新兴的聊天机器人以一种没有广告、令人愉悦的方式为人们回答问题，对谷歌的搜索业务构成了明显的威胁。然而，由于它对互联网的访问有限，以及谷歌对该行业的控制，对大多数人来说，它仍然只是一个有趣的玩意儿。现在，由OpenAI运营的ChatGPT通过将语音和图片查询整合到其受欢迎的聊天机器人中，再次向谷歌发起挑战。

hero-image.fill.size_994x559.v1695662454

据报道，OpenAI宣布即将推出ChatGPT的一个新版本，让用户可以通过语音向机器人提问。该服务会将语音转换为文本，传递给ChatGPT，然后将答案转换为音频并读给用户听。公司表示，用户可以选择五种“类似人类的音频”声音选项。未来可能会提供更多声音选项，但目前这只是公司在语音转文本方面的起点。

另外，用户还可以上传照片来提问，尽管这看起来有些危险，但也许ChatGPT已经有了某种检测的内置功能。这也引发了关于它对人物照片会做何评论的疑问。OpenAI表示，他们限制了ChatGPT对人物评论的能力，但显然还存在一些灰色地带。例如，用户可以上传一张过去总统的照片并询问有关他们的遗产，或者上传一个模糊的邻居照片。

微信截图_20230926102946

OpenAI表示，他们开发这一功能是为了让用户上传图片，并向机器人提问以帮助其改进所提供的答案。在上述示例中，用户上传了一张自行车的照片并询问ChatGPT如何降低座位高度。机器人会回复具体指导，并在随后再上传座位高度调节机构的照片以获取更多指导。目前，谷歌Lens也提供了类似的服务，但缺乏进一步优化查询的能力。

OpenAI表示，这些功能将首先在付费用户中推出，两周后将对免费用户开放。但这些功能也引发了新的隐私、准确性以及机器人是否会像其他类似服务偶尔“产生幻觉”一样的担忧。

文章来源：https://www.extremetech.com/computing/chatgpt-to-begin-allowing-photo-and-voice-based-queries

标签：

0 评论

欢迎关注ATYUN官方公众号

商务合作及内容投稿请联系邮箱:bd@atyun.com

上一篇有声书迈入新篇章：AI语音技术赋予书籍自然音质

下一篇 Spotify推出AI音频翻译功能，让播客人轻松多语言传播

评论登录

要发表评论，您必须先登录。

jonatasgrosman/wav2vec2-large-xlsr-53-english facebook/dino-vitb16 bert-base-uncased xlm-roberta-large xlm-roberta-base gpt2 microsoft/resnet-50 facebook/dino-vits8

AGENTIC AI如何塑造未来