OpenAI 發布了三款全新的 API 語音模型,正式宣告語音 AI 從單純的對話互動,跨入能夠實際執行商業任務的介面層級。本次釋出的 GPT-Realtime-2、GPT-Realtime-Translate 以及 GPT-Realtime-Whisper,分別針對語音推理、即時多語系翻譯與低延遲轉錄提供了明確的解決方案。

語音介面的進化:從對話到執行
過去的語音產品開發往往受限於模型理解力與記憶容量的不足。當使用者在對話中改變需求,或是發出多步驟指令時,系統經常無法順暢應對。全新的語音模型徹底改變了這個痛點,具備了更優異的上下文追蹤能力,能在對話進行的同時呼叫外部工具,並根據當下的系統狀態給出最合適的回應。
這項技術進展將催生幾種主要的應用模式。首先是「語音轉行動」,系統能理解需求並自動執行任務,例如房地產助理能根據買家的預算與偏好篩選物件並自動安排看屋時間。其次是「系統轉語音」,軟體能主動將即時數據轉化為語音指引,例如旅遊應用程式即時通知航班變更並規劃新路線。最後則是「語音轉語音」,讓不同語言的對話能無縫接軌,打破跨國協作的溝通障礙。

GPT-Realtime-2 :帶來頂尖推理能力的語音核心
本次更新的核心 GPT-Realtime-2 是一款專為即時互動打造的模型。它不僅處理基礎問答,更具備了同等頂級語言模型的推理能力,能夠處理更加複雜的請求,並自然地推進業務流程。
強化代理工作流與系統整合
在系統架構的層面,GPT-Realtime-2 最顯著的升級在於將上下文長度擴展至 128K。若開發者結合 Model Context Protocol 等標準化工具介面,這項擴充將大幅提升模型在處理長篇對話與複雜代理工作流(Agentic Workflows)時的穩定性。此外,模型現在支援平行工具呼叫,在後端執行搜尋或比對資料時,能主動對使用者發出「讓我為您查詢」等過渡語句,讓整體的數位互動更貼近真實人類客服的流暢表現。
更精準的情緒與專業領域掌控
在企業級應用中,語氣的拿捏與專業領域詞彙的準確度往往決定了產品的成敗。GPT-Realtime-2 針對醫療保健、專有名詞等專業詞彙進行了深度強化。同時,系統開發者可以更精細地控制模型的語氣,無論是面對挫折時的同理安撫,或是任務完成時的明快確認,都能表現得恰如其分。開發團隊甚至能根據系統負載與需求,調整模型的推理深度,在低延遲與運算成本之間取得最佳的商業平衡。
跨越語言與延遲的雙重突破
除了具備強大推理能力的核心模型,OpenAI 也同步推出了針對企業跨國業務與高頻互動需求量身打造的兩種工具。
GPT-Realtime-Translate:無縫接軌的即時翻譯
這款全新的即時翻譯模型支援超過 70 種語言輸入與 13 種語言輸出。它的強大之處在於能夠緊跟說話者的語速,並在保留原意的情況下處理自然口語、上下文切換以及地區性發音的差異。對於重視全球化佈局的企業而言,這意味著能以更低的建置成本提供多語系的即時語音客服支援,有效提升服務的涵蓋範圍。
GPT-Realtime-Whisper:超低延遲的語音轉錄
為解決傳統語音轉文字的延遲痛點,GPT-Realtime-Whisper 提供了全新架構的串流轉錄功能。它能在使用者說話的同時即時生成文字,為會議記錄、無障礙字幕以及高頻率客服通話提供更迅速的數位化基礎,進而縮短後續資料處理的時間。
導入建議與成本評估
在計費方面,GPT-Realtime-2 的定價為每百萬輸入 Token 收費 32 美元(若為快取輸入則為 0.40 美元),輸出為 64 美元。即時翻譯與轉錄模型則分別以每分鐘 0.034 美元與 0.017 美元計價。對於積極規劃升級 AI 系統架構的企業,建議可優先評估現有的純文字客服或排程流程,透過這些全新 API 進行語音化概念驗證。這不僅能減少團隊的重覆性工作,更能透過強大的代理能力,將傳統系統轉型為具備高投資報酬率的智慧語音助理。
| 模型 / 功能名稱 | 輸入計費 (Input) | 輸出計費 (Output) | 備註 |
| GPT-Realtime-2 | $32.00 / 1M Tokens | $64.00 / 1M Tokens | 快取輸入僅收 $0.40 / 1M |
| GPT-Realtime-Translate | $0.034 / 每分鐘 | – | 支援 70+ 種語言輸入 |
| GPT-Realtime-Whisper | $0.017 / 每分鐘 | – | 極低延遲串流轉錄 |





