OpenAI 推出全新即時語音 API GPT-Realtime-2，具備GPT-5 同等推理能力，引領語音助理進入工作流自動化新世代

Q: OpenAI 本次發布了哪三款全新的 API 語音模型？它們各自的功能定位為何？

OpenAI 本次發布的三款模型分別為 GPT-Realtime-2、GPT-Realtime-Translate 以及 GPT-Realtime-Whisper。這三款模型的推出，標誌著語音 AI 從單純的對話互動，正式跨入能夠實際執行商業任務的「介面層級」。在功能定位上，GPT-Realtime-2 是整個語音核心，專為即時互動打造，具備頂尖的推理能力，能處理複雜請求並自然地推進業務流程。GPT-Realtime-Translate 則專攻即時多語系翻譯，支援超過 70 種語言輸入與 13 種語言輸出，其強大之處在於能緊跟語速，並處理自然口語、上下文切換及地區性發音差異。GPT-Realtime-Whisper 則提供超低延遲的語音轉錄功能，採用全新架構的串流技術，能在使用者說話的同時即時生成文字，為會議記錄與無障礙字幕提供數位化基礎。這些模型共同解決了過去語音產品受限於模型理解力與記憶容量不足的痛點，讓系統能順暢應對多步驟指令。

Q: GPT-Realtime-2 在系統架構與代理工作流（Agentic Workflows）方面有哪些顯著的技術升級？

GPT-Realtime-2 在系統架構上最顯著的升級在於將上下文長度擴展至 128K。這項擴充大幅提升了模型在處理長篇對話時的穩定性，對於複雜的代理工作流（Agentic Workflows）至關重要。開發者可以結合 Model Context Protocol 等標準化工具介面，進一步強化系統整合的效能。此外，該模型現在支援平行工具呼叫。這項技術讓模型在後端執行搜尋或比對資料的同時，能主動對使用者發出如「讓我為您查詢」等過渡性語句。這種設計模擬了真實人類客服的流暢表現，消除了運算過程中的尷尬沉默。模型還具備優異的上下文追蹤能力，能在對話進行中呼叫外部工具，並根據當下的系統狀態給出最合適的回應。開發團隊甚至能根據系統負載與需求，調整模型的推理深度，讓企業在低延遲要求與運算成本之間取得最佳的商業平衡，確保數位互動既高效又具備高度的穩定性。

Q: 文章中提到的三種主要語音應用模式分別是什麼？請舉例說明其運作方式。

隨著技術進展，文章歸納出三種主要的語音應用模式：語音轉行動（Voice to Action）：系統能理解使用者的需求並自動執行具體任務。例如，房地產助理能根據買家的預算與偏好篩選物件，並自動安排看屋時間，將語音指令直接轉化為商務行動。系統轉語音（System to Voice）：軟體能主動將即時數據轉化為語音指引。例如，旅遊應用程式能即時監測航班變更，並主動發出語音通知，同時為使用者規劃新的交通路線。語音轉語音（Voice to Voice）：此模式旨在打破跨國溝通障礙。它讓不同語言的對話能無縫接軌，透過即時翻譯模型處理自然口語與地區性發音，使跨國協作更加順暢。這些模式展示了語音介面如何從被動的問答工具，演進為具備主動執行力與數據處理能力的智慧代理。這不僅減少了團隊的重覆性工作，更能將傳統系統轉型為具備高投資報酬率的智慧語音助理，實現更深層的人機協作。

Q: 在企業級應用中，GPT-Realtime-2 如何處理專業領域詞彙與情緒掌控？

在企業級應用環境中，語氣的精準度與專業詞彙的準確性是產品成敗的關鍵。GPT-Realtime-2 針對醫療保健等專業領域的專有名詞進行了深度強化，確保在處理高度專業化的資訊時不會出錯。這對於需要精確資訊的行業而言，提供了更強的技術保障。在情緒掌控方面，系統開發者現在可以更精細地控制模型的語氣。模型能根據對話情境表現出適當的情緒反應，例如在使用者面對挫折或問題時提供同理安撫，或在任務順利完成時給予明快確認。這種情緒調節能力讓 AI 的互動更貼近真實人類，提升了使用者的信任感。此外，模型具備優異的推理能力，能處理比基礎問答更複雜的請求。開發團隊可以根據業務需求調整推理深度，這意味著在處理簡單任務時可以追求極低延遲，而在處理複雜業務流程時則投入更多推理資源，從而在專業表現與運算成本之間達成精準的掌控。

Q: 這三款新模型的計費標準為何？對於積極規劃升級 AI 架構的企業有何建議？

根據文章內容，這三款模型的計費結構如下：GPT-Realtime-2：每百萬輸入 Token 收費 32 美元，若使用快取輸入（Cached Input）則僅收 0.40 美元；輸出 Token 則為每百萬 64 美元。GPT-Realtime-Translate：以時間計費，每分鐘為 0.034 美元。GPT-Realtime-Whisper：同樣以時間計費，每分鐘為 0.017 美元。對於積極規劃升級 AI 系統架構的企業，文章建議優先評估現有的純文字客服或排程流程。企業可以透過這些全新的 API 進行語音化概念驗證（POC）。這項策略不僅能有效減少團隊的重覆性工作，更能利用模型強大的代理能力與 128K 的長上下文支持，將傳統的數位系統轉型為具備高投資報酬率的智慧語音助理。特別是針對重視全球化佈局的企業，利用 GPT-Realtime-Translate 能以更低的建置成本提供多語系即時語音支持，有效擴大服務的涵蓋範圍並縮短資料處理的時間。

OpenAI 發布了三款全新的 API 語音模型，正式宣告語音 AI 從單純的對話互動，跨入能夠實際執行商業任務的介面層級。本次釋出的 GPT-Realtime-2、GPT-Realtime-Translate 以及 GPT-Realtime-Whisper，分別針對語音推理、即時多語系翻譯與低延遲轉錄提供了明確的解決方案。

OpenAI 推出全新即時語音 API GPT-Realtime-2，具備GPT-5 同等推理能力，引領語音助理進入工作流自動化新世代 image-3-1-1500x711

語音介面的進化：從對話到執行

過去的語音產品開發往往受限於模型理解力與記憶容量的不足。當使用者在對話中改變需求，或是發出多步驟指令時，系統經常無法順暢應對。全新的語音模型徹底改變了這個痛點，具備了更優異的上下文追蹤能力，能在對話進行的同時呼叫外部工具，並根據當下的系統狀態給出最合適的回應。

這項技術進展將催生幾種主要的應用模式。首先是「語音轉行動」，系統能理解需求並自動執行任務，例如房地產助理能根據買家的預算與偏好篩選物件並自動安排看屋時間。其次是「系統轉語音」，軟體能主動將即時數據轉化為語音指引，例如旅遊應用程式即時通知航班變更並規劃新路線。最後則是「語音轉語音」，讓不同語言的對話能無縫接軌，打破跨國協作的溝通障礙。

OpenAI 推出全新即時語音 API GPT-Realtime-2，具備GPT-5 同等推理能力，引領語音助理進入工作流自動化新世代 image-3-2

GPT-Realtime-2 ：帶來頂尖推理能力的語音核心

本次更新的核心 GPT-Realtime-2 是一款專為即時互動打造的模型。它不僅處理基礎問答，更具備了同等頂級語言模型的推理能力，能夠處理更加複雜的請求，並自然地推進業務流程。

強化代理工作流與系統整合

在系統架構的層面，GPT-Realtime-2 最顯著的升級在於將上下文長度擴展至 128K。若開發者結合 Model Context Protocol 等標準化工具介面，這項擴充將大幅提升模型在處理長篇對話與複雜代理工作流（Agentic Workflows）時的穩定性。此外，模型現在支援平行工具呼叫，在後端執行搜尋或比對資料時，能主動對使用者發出「讓我為您查詢」等過渡語句，讓整體的數位互動更貼近真實人類客服的流暢表現。

更精準的情緒與專業領域掌控

在企業級應用中，語氣的拿捏與專業領域詞彙的準確度往往決定了產品的成敗。GPT-Realtime-2 針對醫療保健、專有名詞等專業詞彙進行了深度強化。同時，系統開發者可以更精細地控制模型的語氣，無論是面對挫折時的同理安撫，或是任務完成時的明快確認，都能表現得恰如其分。開發團隊甚至能根據系統負載與需求，調整模型的推理深度，在低延遲與運算成本之間取得最佳的商業平衡。
跨越語言與延遲的雙重突破

除了具備強大推理能力的核心模型，OpenAI 也同步推出了針對企業跨國業務與高頻互動需求量身打造的兩種工具。

GPT-Realtime-Translate：無縫接軌的即時翻譯

這款全新的即時翻譯模型支援超過 70 種語言輸入與 13 種語言輸出。它的強大之處在於能夠緊跟說話者的語速，並在保留原意的情況下處理自然口語、上下文切換以及地區性發音的差異。對於重視全球化佈局的企業而言，這意味著能以更低的建置成本提供多語系的即時語音客服支援，有效提升服務的涵蓋範圍。

GPT-Realtime-Whisper：超低延遲的語音轉錄

為解決傳統語音轉文字的延遲痛點，GPT-Realtime-Whisper 提供了全新架構的串流轉錄功能。它能在使用者說話的同時即時生成文字，為會議記錄、無障礙字幕以及高頻率客服通話提供更迅速的數位化基礎，進而縮短後續資料處理的時間。

導入建議與成本評估

在計費方面，GPT-Realtime-2 的定價為每百萬輸入 Token 收費 32 美元（若為快取輸入則為 0.40 美元），輸出為 64 美元。即時翻譯與轉錄模型則分別以每分鐘 0.034 美元與 0.017 美元計價。對於積極規劃升級 AI 系統架構的企業，建議可優先評估現有的純文字客服或排程流程，透過這些全新 API 進行語音化概念驗證。這不僅能減少團隊的重覆性工作，更能透過強大的代理能力，將傳統系統轉型為具備高投資報酬率的智慧語音助理。

模型 / 功能名稱	輸入計費 (Input)	輸出計費 (Output)	備註
GPT-Realtime-2	$32.00 / 1M Tokens	$64.00 / 1M Tokens	快取輸入僅收 $0.40 / 1M
GPT-Realtime-Translate	$0.034 / 每分鐘	–	支援 70+ 種語言輸入
GPT-Realtime-Whisper	$0.017 / 每分鐘	–	極低延遲串流轉錄