無痛上字幕！AI 字幕產生工具 WhisperDesktop (支援AMD GPU)

手哥 HANDBRO

2 年前

不管是演講、訪談或拍影片，上字幕都是相當花時間的工作，雖然有些剪輯軟體提供自動上字幕的功能，不過識別效果、資料 (你的聲音)安全都性不是非常理想。這篇文章和大家分享 WhisperDesktop，它使用最新的 Whisper 語音識別 AI 技術，可以快速、精準地幫你製作影片字幕，而且還能直接在你的電腦完成轉換，不受檔案大小、時間長度限制，而且支援 AMD 的 GPU 喔！

推薦使用 WhisperDesktop 的理由：

✅ 使用最新的 Whisper AI 模型，轉換正確率更高
✅ 單機就能用，不須聯網，不會產生任何費用
✅ 相容性高，實測 5 年前筆電也能跑
✅ 支援 AMD GPU (免設定)

使用 WhisperDesktop 高效率產生字幕

Step 1. 下載 WhisperDesktop

WhisperDesktop 是一個開放原始碼的軟體，可以從 github 下載使用。

點這邊下載 WhisperDesktop (版本 1.11)

Step 2. 下載語音識別 AI 模型檔 (model)

接著我們前往 Hugging Face 下載 AI 模型檔，稍後程式會使用這個模型檔進行運算。這邊建議下載 ggml-medium.bin (1.5GB)可以獲得最好的轉換品質；如果電腦效能較差，也可以改用 ggml-small.bin (488MB) 替代，轉換品質相近，但會省下很多運算時間。

Whisper AI 模型下載頁

Step 3. 打開 WhisperDesktop，選擇模型檔

接著打開步驟 1 下載的壓縮檔，執行「WhisperDesktop.exe」，接著在畫面上點選右邊的【…】按鈕選擇剛剛下載的模型檔。接著確認「Model Implementation」選擇「GPU」就可以按【OK】準備進入重頭戲。

Step 4. 設定轉換相關參數

接著要進行影音轉文字的相關設定，以下依序說明：

Language：影音檔使用的語言，如果是中文影音就直接 Chinese。如果要將字幕翻譯成英文可以勾選右邊的【Translate】。
選擇要轉換的影音檔：可以使用 mp3 或 mp4、avi 這類聲音或影片檔。
選擇要輸出的格式：轉換逐字稿可選「Text file」或「Text with timestamps」(有時間標記)，影片字幕則選擇「SubRip subtitile」。

接著按下【Transcribe】就可以開始進行語音識別和轉換囉！

WhisperDesktop 轉換效能測試

WhisperDesktop 對硬體的要求非常低，基本上只要支援 DirectX 11 的顯示卡都可以運作。有多低？好手使用 2017 年購入的筆電也可以無痛使用！

不過不同的硬體效能，當然也會影響轉檔速度，以下好手就實際以兩個影片進行轉換測試

	影片長度	轉檔時間
電腦 A (AMD Ryzen 7 3700X + NVIDIA RTX 3070 Ti)	7分25秒	57秒
電腦 B (Intel Core i7 8550U + UHD Graphic 620)	2分03秒	24分23秒 (ggml-medium) 7分05秒 (ggml-small)
電腦 C (Intel Core i9-13900KF + AMD RTX 6600XT)	17分49秒	2分39秒 (ggml-medium) 52秒 (ggml-small)

從以上結果可以發現：顯示卡的效能決定了一切！雖然電腦 B 只有陽春的顯卡，但 2 分鐘的影片也只需要 7 分鐘就能完成轉換。如果你聽打的速度比它慢，省下來的時間就是你的！

WhisperDesktop 與其他轉字幕功能比較

以下我們整理了目前常用的幾種字幕轉換 (產生) 工具的比較，你可以根據自己的需求，選擇最適合自己的工具。

	WhisperDesktop	威力導演	剪映	pyTranscriber
轉換速度	尚可~快 (依電腦性能)	快 (依電腦性能)	快	快
正確性	高	普通	尚可	尚可
語句分段正確性	高	高	高	普通
費用	免費	NT 166 起/月	免費	免費
資料安全	高	尚可	上傳至中國伺服器	上傳至 Google 伺服器
離線使用	可	須聯網	須聯網	須聯網
硬體要求	顯示卡效能越高越好	無	無	無

總結

Whisper 是 OpenAI 推出的語音辨識模型，未來還會隨著官方訓練成果的成長，進一步提高轉換的正確性 (雖然現在正確性已經很)，如果你使用的電腦是用來剪片的話，通常效能一定可以讓你順順的用 WhisperDesktop 轉換字幕，因此好手建議可以優先把它當作轉換字幕的首選工具，幫你省下更多抓錯及上字幕的時間！