|
OpenAI推出了具有实时语音和视觉功能的新模型。
该模型是在该公司举办的一次现场直播活动中发布的,它能够无时差地响应语言和视觉提示。
首席技术官米拉-穆拉蒂(Mira Murati)说,GPT-4o 将免费提供,因为它比公司以前的机型更高效,而 GPT-4o 的援助用户将比免费版有更大的容量限制。
在现场直播中,该模型能够使用 iPhone 摄像头解决显示给它的数学方程式,还能朗读文本并根据口头提示调整语音风格。
该模型还能与台上的主持人进行对话,包括提供呼吸技巧建议以减轻压力和评估呼吸声。不过,在演示过程中,有迹象表明模型似乎误解了一些提示和提示,主持人不得不重复或重新措辞问题,以获得正确的回应。
“穆拉提说:"GPT-4o 提供了 GPT-4 级别的智能,但它的速度更快,而且在文本、视觉和音频方面的能力都有所提高。
“过去几年来,我们一直致力于提高这些模型的智能,它们已经相当不错了。但在易用性方面,这是我们第一次向前迈出一大步。
“我们正着眼于我们与机器之间互动的未来,我们认为 GPT 4o 正在真正将范式转变为未来的协作模式,这种互动将变得更加自然、更加简单。
ChatGPT 在 2022 年底推出后,成为有史以来最快达到 1 亿月活跃用户的应用程序。人们认为,赋予 ChatGPT 类似搜索引擎的特质,使其能够以实时、最新的信息响应提示,将使 OpenAI 在竞争中占据优势。现场直播中基于手机的演示也可被视为鼓励更多智能手机用户使用 ChatGPT 的战略转变的一部分。
OpenAI 发布消息的时间被认为是一个战术性举措,因为它被安排在了谷歌年度开发者大会的前一天,在这次大会上,这家搜索引擎巨头预计将展示自己与人工智能相关的新功能。
《How AI Ate the World 》一书的作者克里斯-斯托克尔-沃克(Chris Stokel-Walker)告诉《Standard》: “OpenAI的声明将被某些人视为革命性的,当然,其使用案例也令人印象深刻--但它们凸显出,我们仍然被'人工智能'中的'人工'概念所迷惑。
人工智能长期存在的问题--这些模型只是模式匹配,并不能真正独立思考--已经被流畅的语音和视频界面所掩盖,这将使那些至今仍在坚持的人更容易采用这项技术。
但这也让人们更有可能忘记,他们并不是在与一个有生命的人互动--如果我们继续相信它的输出是绝对的、可验证的真理,这可能会带来影响。”
|
|