ViWANT
8 5 月 2026, 周五

媲美 GPT-5 的语音模型来了!OpenAI 一口气推三款,开发者已经能用

前言
你还在用键盘和AI聊天?当别人已经开始用语音实时订票、跨语言对话时,差距就拉开了。OpenAI新推出的语音模型反应快到能边听边思考,甚至主动说“我查一下”。实测显示复杂任务处理准确率飙升至96.6%,但真正决定体验的,不是速度,而是那个让系统永不沉默的关键机制——它到底如何应对突发中断?

OpenAI 最近一口气推出了三款即时语音模型——GPT-Realtime-2、GPT-Realtime-Translate 和 GPT-Realtime-Whisper。目标是让语音助手的反应更快、更聪明,同时具备边听边翻译、边录边转录的能力。

你可能已经用过 ChatGPT 或 Google Gemini 的语音模式,但之前的语音 AI 在推理能力上一直比不上纯文本模型。原因在于,真正的语音助手不仅要“听懂字”,还得能实时理解意图、记住上下文、灵活应对打断,并给出恰当的回应。OpenAI 表示,新模型正是为了解决这些痛点而设计。

三大创新语音模式

OpenAI 设计了三种可以组合使用的互动方式:

  • 语音转行动(Voice-to-Action):用户口述需求,系统自主推理并调用工具完成任务,比如订票、查天气。

  • 系统转语音(Systems-to-Voice):软件将数据转换成语音提示。例如旅游 App 主动告知用户“您的登机口已变更”。

  • 语音转语音(Voice-to-Voice):实时跨语言对话。德国电信已在客服场景中测试该功能。

官方表示,这些能力将很快整合进 ChatGPT 的语音模式,语音将真正成为主要交互界面。

GPT-Realtime-2:语音界的 GPT-5 级推理能力

本次发布的核心是 GPT-Realtime-2。OpenAI 称其推理能力已达到可媲美 GPT-5 的水平。该模型专为即时语音互动设计,能够一边对话一边思考、调用工具,并处理对话中断的情况。

技术亮点包括:

  • 上下文窗口从 32,000 扩展到 128,000 token,能承载更长的复杂对话。

  • 支持并行调用多个工具,并用“让我查一下”等短句告知用户正在处理中。

  • 即便遇到问题也不会沉默,会主动说“我现在遇到了一些问题”。

  • 对专有名词、人名、医学术语的识别更精准,语气控制更灵活。

开发者可设置五种推理强度,默认为“低”,以保证简单请求的低延迟;复杂任务则可调用更多计算资源。在基准测试 Big Bench Audio 中,高设定下的准确率从上一代 GPT-Realtime-1.5 的 81.4% 提升至 96.6%,提升显著。

即时翻译与转录模型同步上线

GPT-Realtime-Translate 是一款独立的实时翻译模型,支持超过 70 种输入语言和 13 种输出语言。它能在保持语义完整性的同时,跟随说话者的语速,并应对上下文切换、地域口音和专业术语。适用场景包括客服、跨境销售、教育和媒体等。

GPT-Realtime-Whisper 是一款低延迟的串流转录模型,可实时转录语音内容,适用于会议、课堂和广播的即时字幕。企业可利用它在对话中自动生成笔记与摘要,或构建具备连续语音理解能力的语音助手。

定价与可用性

三款模型已通过 Realtime API 开放,并可在 Playground 中测试。定价如下:

  • GPT-Realtime-2:每百万语音输入 token 32 美元

  • GPT-Realtime-Translate:每分钟 0.034 美元

  • GPT-Realtime-Whisper:每分钟 0.017 美元