ChatGPT大更新！能看能听也能说，多模态功能即将上线

智源社区3年前 (2023)发布智源社区

702 0 0

ChatGPT 又更新了：语音和图像交互即将面世。

昨晚，OpenAI 在一篇最新的博客中表示，ChatGPT 将推出新的语音和图像功能。用户不仅可以在文本框中输入提示，还可以通过语音或图像与 ChatGPT 交流。据 OpenAI 称，新功能将在未来两周内向 ChatGPT 付费用户推出，不久之后会推广到其他用户。

ChatGPT 新增语音和图像功能

据介绍，用户只需轻轻点击一个按钮，然后提出问题，便可以与 ChatGPT 进行语音交流。ChatGPT 将迅速将这些口述的问题转换成文本，并将其输入至大型语言模型中。随后，ChatGPT 会将这些答案再次转化为语音来回答问题。这一体验类似于与 Alexa 或谷歌助手对话，但 OpenAI 致力于不断改进底层技术，提高回答问题的质量。

语音转文本的任务由 OpenAI 的 Whisper 模型提供支持。同时，该公司正在引入一款全新的文本转语音模型，据称可以通过仅几秒钟的语音样本生成与人类相似的音频。用户还可以从 5 个不同的选项中选择 ChatGPT 的声音。此外，OpenAI 正在与 Spotify 合作，将播客内容翻译成其他语言，同时保留播客主持人的声音。

图片搜索功能类似于 Google Lens。用户只需拍摄感兴趣的照片，ChatGPT 就可以解读照片中的信息并提供相应的答案。此外，用户还可以利用应用内的绘图工具，以更清晰的方式表达问题，或者直接通过图片或文本提出问题。这正是 ChatGPT 独特的特性所带来的帮助，用户可以与机器人进行互动，逐步完善答案，而无需首先进行搜索并在得到错误答案后再次搜索。

图像理解得到了多模态 GPT-3.5 和 GPT-4 的支持。这些模型将其语言推理技能应用于各种图像，包括照片、屏幕截图，以及包含文本和图像的文档。

构建安全有益的通用人工智能

值得注意的是，OpenAI 在博客中表示其目标是构建安全有益的通用人工智能（AGI）。新增的语音和图像功能可能会带来一些风险，但 OpenAI 正在采取措施缓解这些风险。

新的语音技术能够在短短几秒钟的真实语音片段中生成逼真的合成语音，但这一技术存在潜在危险，例如恶意行为者可能会滥用这项技术，冒充公众人物或实施欺诈。

出于对这些风险的关注，OpenAI 决定将这项技术应用于特定的用例，例如语音聊天，该功能是由专业配音演员亲自录制。此外，OpenAI 也与其他合作伙伴以类似的方式合作。例如上文提到，Spotify 正在积极利用这项技术推出了语音翻译功能，使播客能够利用自己的声音将节目翻译成其他语言。

此外，基于视觉的模型也提出了新的挑战，例如对人类幻觉的识别以及对高风险领域图像的解释依赖于模型的能力。在进行更广泛的部署之前，OpenAI 与其红队成员共同测试了该模型在极端主义和科学领域等方面的潜在风险，并对一系列不同的 Alpha 测试人员进行了评估。通过这项研究，OpenAI 对一些关键细节进行了调整，确保负责任地应用这项技术。

参考链接：

https://openai.com/blog/chatgpt-can-now-see-hear-and-speak

｜点击关注我 ? 记得标星｜