OpenAI 推出具有实时语音和视觉推理功能的全新 ChatGPT-4o 模型

jacoo · 发表于 2024-8-26 10:22:08

OpenAI推出了具有实时语音和视觉功能的新模型。

该模型是在该公司举办的一次现场直播活动中发布的，它能够无时差地响应语言和视觉提示。

首席技术官米拉-穆拉蒂（Mira Murati）说，GPT-4o 将免费提供，因为它比公司以前的机型更高效，而 GPT-4o 的援助用户将比免费版有更大的容量限制。

15b7a39df9db1253f29ea7849e01404b.webp.png

15b7a39df9db1253f29ea7849e01404b.webp.png

在现场直播中，该模型能够使用 iPhone 摄像头解决显示给它的数学方程式，还能朗读文本并根据口头提示调整语音风格。

该模型还能与台上的主持人进行对话，包括提供呼吸技巧建议以减轻压力和评估呼吸声。不过，在演示过程中，有迹象表明模型似乎误解了一些提示和提示，主持人不得不重复或重新措辞问题，以获得正确的回应。

“穆拉提说："GPT-4o 提供了 GPT-4 级别的智能，但它的速度更快，而且在文本、视觉和音频方面的能力都有所提高。

“过去几年来，我们一直致力于提高这些模型的智能，它们已经相当不错了。但在易用性方面，这是我们第一次向前迈出一大步。

“我们正着眼于我们与机器之间互动的未来，我们认为 GPT 4o 正在真正将范式转变为未来的协作模式，这种互动将变得更加自然、更加简单。

ChatGPT 在 2022 年底推出后，成为有史以来最快达到 1 亿月活跃用户的应用程序。人们认为，赋予 ChatGPT 类似搜索引擎的特质，使其能够以实时、最新的信息响应提示，将使 OpenAI 在竞争中占据优势。现场直播中基于手机的演示也可被视为鼓励更多智能手机用户使用 ChatGPT 的战略转变的一部分。

OpenAI 发布消息的时间被认为是一个战术性举措，因为它被安排在了谷歌年度开发者大会的前一天，在这次大会上，这家搜索引擎巨头预计将展示自己与人工智能相关的新功能。

《How AI Ate the World 》一书的作者克里斯-斯托克尔-沃克（Chris Stokel-Walker）告诉《Standard》： “OpenAI的声明将被某些人视为革命性的，当然，其使用案例也令人印象深刻--但它们凸显出，我们仍然被'人工智能'中的'人工'概念所迷惑。

人工智能长期存在的问题--这些模型只是模式匹配，并不能真正独立思考--已经被流畅的语音和视频界面所掩盖，这将使那些至今仍在坚持的人更容易采用这项技术。

但这也让人们更有可能忘记，他们并不是在与一个有生命的人互动--如果我们继续相信它的输出是绝对的、可验证的真理，这可能会带来影响。”

账号		自动登录	找回密码
密码			快速注册

[资讯] OpenAI 推出具有实时语音和视觉推理功能的全新 ChatGPT-4o 模型

相关帖子

浏览过的版块