OpenAI 为应用程序编程接口 (API) 推出高级音频模型

sonicbits · 发表于 2025-3-24 16:00:16

OpenAI 在其应用程序编程接口 (API) 中推出了新的音频模型，提高了语音转文本和文本转语音 (TTS) 功能的性能。这家总部位于旧金山的 AI 公司推出了三种创新模型，旨在帮助开发人员创建具有复杂工作流程的应用程序。这些进步有望简化客户支持操作并改善整体用户体验。

OpenAI-Unveils-Advanced-Audio-Models-for-Developers.webp (1).png

OpenAI-Unveils-Advanced-Audio-Models-for-Developers.webp (1).png

OpenAI 在最近的一篇博客文章中概述了其新的 API 专用音频模型的功能。该公司强调了其开发 AI 代理的历史，包括 Operator、Deep Research 和包含内置工具的 Responses API。然而，OpenAI 指出，这些代理的全部潜力只有在它们直观地操作并在文本以外的各种媒介上进行交互时才能实现。

新推出的模型包括用于语音转文本任务的 GPT-4o-transcribe 和 GPT-4o-mini-transcribe，以及用于文本转语音应用程序的 GPT-4o-mini-tts。OpenAI 声称这些模型的性能超过了其 2022 年发布的前几代 Whisper 模型。与前代模型不同，新模型不是开源的，这可能会影响某些开发人员的可访问性。

具体来说，GPT-4o-transcribe 模型在“词错误率”（WER）方面表现出了更好的性能，这是通过少样本学习通用语音表示评估 (FLEURS) 基准进行的评估，该基准评估了 100 种语言的多语言语音。OpenAI 将这些增强归功于有针对性的训练技术，包括强化学习和使用高质量音频数据集进行广泛的中期训练。

适用于多种应用的强大功能
新的语音转文本模型旨在在具有挑战性的环境中表现出色，即使在口音浓重、背景噪音大和语速变化的情况下也能有效捕捉音频。此功能对于需要高精度转录的应用（例如客户服务和内容创建）至关重要。

同样，GPT-4o-mini-tts 模型也取得了重大进展，允许自定义语调、语调和情感表达。此功能使开发人员能够创建适用于各种任务的应用程序，从客户支持到创意讲故事。但需要注意的是，该模型目前仅提供人工和预设的声音。

价格与供货
OpenAI 在其 API 定价页面上详细介绍了其新音频模型的定价结构。基于 GPT-4o 的音频模型定价为每百万输入代币 40 美元，每百万输出代币 80 美元。相比之下，基于 GPT-4o mini 的音频模型定价较低，每百万输入代币 10 美元，每百万输出代币 20 美元。

现在，开发人员可以通过 API 访问所有音频模型。此外，OpenAI 还推出了与其 Agents 软件开发工具包 (SDK) 的集成，以帮助用户构建语音代理，从而进一步扩展其 AI 产品的功能。

账号		自动登录	找回密码
密码			快速注册

[资讯] OpenAI 为应用程序编程接口 (API) 推出高级音频模型

相关帖子

浏览过的版块