OpenAI 在其 API 中推出新的语音智能功能

OpenAI 周四表示，其 API 现在将包括许多新的语音智能功能，旨在帮助开发人员创建可以与用户对话、转录和翻译对话的应用程序。该公司的新 GPT‑Realtime‑2 是另一种语音模型，旨在创建可以与用户交谈的逼真声音模拟。然而，与它的前身 (GPT-Realtime-1.5) 不同，它是根据 GPT-5 级推理构建的，OpenAI 表示，创建 GPT-5 级推理是为了处理用户更复杂的请求。该公司还推出了 GPT‑Realtime‑Translate，顾名思义，它旨在提供实时翻译服务，以对话方式与用户“保持同步”。该功能包括 70 多种输入语言（即它可以理解的语言）和 13 种输出语言（它向说话者中继的语言）。最后，该公司还推出了新的转录功能 GPT-Realtime-Whisper，它为用户提供了在交互发生时捕获的实时语音到文本功能。该公司表示：“我们推出的模型将实时音频从简单的呼叫和响应转变为可以实际工作的语音界面：聆听、推理、翻译、转录，并在对话展开时采取行动。” 这些更新对谁有好处？想要扩大客户服务能力的公司是一个明显的目标。不过，OpenAI 还指出，其新功能将在教育、媒体、活动和创作者平台等广泛领域提供帮助。尽管从企业的角度来看这些工具似乎很有用，但它们也可能被滥用。该公司表示，它已经建立了防护栏，以防止其新功能被滥用来制造垃圾邮件、欺诈或其他形式的在线滥用行为。 OpenAI 表示，系统中已嵌入某些触发器，因此“如果检测到对话违反了我们的有害内容准则，则可以停止对话”。所有新的语音模型都包含在 OpenAI 的 Realtime API 中。 Translate 和 Whisper 按分钟计费，而 GPT-Realtime-2 按代币消耗计费。

原文

OpenAI launches new voice intelligence features in its API

The new features could be handy for customer service systems, but OpenAI says they have applications that work across a variety of other fields, including education and creator platforms.

来源

TechCrunch OpenAI launches new voice intelligence features in its API