OpenAI 推出全新即時語音 API GPT-Realtime-2，具備GPT-5 同等推理能力，引領語音助理進入工作流自動化新世代

問題 1 / 5

OpenAI 本次發布了哪三款全新的 API 語音模型？它們各自的功能定位為何？

Q: OpenAI 本次發布了哪三款全新的 API 語音模型？它們各自的功能定位為何？

OpenAI 本次發布的三款模型分別為 GPT-Realtime-2、GPT-Realtime-Translate 以及 GPT-Realtime-Whisper。這三款模型的推出，標誌著語音 AI 從單純的對話互動，正式跨入能夠實際執行商業任務的「介面層級」。在功能定位上，GPT-Realtime-2 是整個語音核心，專為即時互動打造，具備頂尖的推理能力，能處理複雜請求並自然地推進業務流程。GPT-Realtime-Translate 則專攻即時多語系翻譯，支援超過 70 種語言輸入與 13 種語言輸出，其強大之處在於能緊跟語速，並處理自然口語、上下文切換及地區性發音差異。GPT-Realtime-Whisper 則提供超低延遲的語音轉錄功能，採用全新架構的串流技術，能在使用者說話的同時即時生成文字，為會議記錄與無障礙字幕提供數位化基礎。這些模型共同解決了過去語音產品受限於模型理解力與記憶容量不足的痛點，讓系統能順暢應對多步驟指令。

Q: GPT-Realtime-2 在系統架構與代理工作流（Agentic Workflows）方面有哪些顯著的技術升級？

GPT-Realtime-2 在系統架構上最顯著的升級在於將上下文長度擴展至 128K。這項擴充大幅提升了模型在處理長篇對話時的穩定性，對於複雜的代理工作流（Agentic Workflows）至關重要。開發者可以結合 Model Context Protocol 等標準化工具介面，進一步強化系統整合的效能。此外，該模型現在支援平行工具呼叫。這項技術讓模型在後端執行搜尋或比對資料的同時，能主動對使用者發出如「讓我為您查詢」等過渡性語句。這種設計模擬了真實人類客服的流暢表現，消除了運算過程中的尷尬沉默。模型還具備優異的上下文追蹤能力，能在對話進行中呼叫外部工具，並根據當下的系統狀態給出最合適的回應。開發團隊甚至能根據系統負載與需求，調整模型的推理深度，讓企業在低延遲要求與運算成本之間取得最佳的商業平衡，確保數位互動既高效又具備高度的穩定性。

Q: 文章中提到的三種主要語音應用模式分別是什麼？請舉例說明其運作方式。

隨著技術進展，文章歸納出三種主要的語音應用模式：語音轉行動（Voice to Action）：系統能理解使用者的需求並自動執行具體任務。例如，房地產助理能根據買家的預算與偏好篩選物件，並自動安排看屋時間，將語音指令直接轉化為商務行動。系統轉語音（System to Voice）：軟體能主動將即時數據轉化為語音指引。例如，旅遊應用程式能即時監測航班變更，並主動發出語音通知，同時為使用者規劃新的交通路線。語音轉語音（Voice to Voice）：此模式旨在打破跨國溝通障礙。它讓不同語言的對話能無縫接軌，透過即時翻譯模型處理自然口語與地區性發音，使跨國協作更加順暢。這些模式展示了語音介面如何從被動的問答工具，演進為具備主動執行力與數據處理能力的智慧代理。這不僅減少了團隊的重覆性工作，更能將傳統系統轉型為具備高投資報酬率的智慧語音助理，實現更深層的人機協作。

Q: 在企業級應用中，GPT-Realtime-2 如何處理專業領域詞彙與情緒掌控？

在企業級應用環境中，語氣的精準度與專業詞彙的準確性是產品成敗的關鍵。GPT-Realtime-2 針對醫療保健等專業領域的專有名詞進行了深度強化，確保在處理高度專業化的資訊時不會出錯。這對於需要精確資訊的行業而言，提供了更強的技術保障。在情緒掌控方面，系統開發者現在可以更精細地控制模型的語氣。模型能根據對話情境表現出適當的情緒反應，例如在使用者面對挫折或問題時提供同理安撫，或在任務順利完成時給予明快確認。這種情緒調節能力讓 AI 的互動更貼近真實人類，提升了使用者的信任感。此外，模型具備優異的推理能力，能處理比基礎問答更複雜的請求。開發團隊可以根據業務需求調整推理深度，這意味著在處理簡單任務時可以追求極低延遲，而在處理複雜業務流程時則投入更多推理資源，從而在專業表現與運算成本之間達成精準的掌控。

Q: 這三款新模型的計費標準為何？對於積極規劃升級 AI 架構的企業有何建議？

根據文章內容，這三款模型的計費結構如下：GPT-Realtime-2：每百萬輸入 Token 收費 32 美元，若使用快取輸入（Cached Input）則僅收 0.40 美元；輸出 Token 則為每百萬 64 美元。GPT-Realtime-Translate：以時間計費，每分鐘為 0.034 美元。GPT-Realtime-Whisper：同樣以時間計費，每分鐘為 0.017 美元。對於積極規劃升級 AI 系統架構的企業，文章建議優先評估現有的純文字客服或排程流程。企業可以透過這些全新的 API 進行語音化概念驗證（POC）。這項策略不僅能有效減少團隊的重覆性工作，更能利用模型強大的代理能力與 128K 的長上下文支持，將傳統的數位系統轉型為具備高投資報酬率的智慧語音助理。特別是針對重視全球化佈局的企業，利用 GPT-Realtime-Translate 能以更低的建置成本提供多語系即時語音支持，有效擴大服務的涵蓋範圍並縮短資料處理的時間。

AI 根據文章內容回答

OpenAI 本次發布的三款模型分別為 GPT-Realtime-2、GPT-Realtime-Translate 以及 GPT-Realtime-Whisper。這三款模型的推出，標誌著語音 AI 從單純的對話互動，正式跨入能夠實際執行商業任務的「介面層級」。

在功能定位上，GPT-Realtime-2 是整個語音核心，專為即時互動打造，具備頂尖的推理能力，能處理複雜請求並自然地推進業務流程。GPT-Realtime-Translate 則專攻即時多語系翻譯，支援超過 70 種語言輸入與 13 種語言輸出，其強大之處在於能緊跟語速，並處理自然口語、上下文切換及地區性發音差異。GPT-Realtime-Whisper 則提供超低延遲的語音轉錄功能，採用全新架構的串流技術，能在使用者說話的同時即時生成文字，為會議記錄與無障礙字幕提供數位化基礎。這些模型共同解決了過去語音產品受限於模型理解力與記憶容量不足的痛點，讓系統能順暢應對多步驟指令。

其他問題

Q2 GPT-Realtime-2 在系統架構與代理工作流（Agentic Workflows）方面有哪些顯著的技術升級？ Q3 文章中提到的三種主要語音應用模式分別是什麼？請舉例說明其運作方式。 Q4 在企業級應用中，GPT-Realtime-2 如何處理專業領域詞彙與情緒掌控？ Q5 這三款新模型的計費標準為何？對於積極規劃升級 AI 架構的企業有何建議？