硬是要學

又快又準!影片字幕產生工具 WhisperDesktop (支援多種語言)

不管是演講、訪談或 YouTuber 拍影片,上字幕都是相當花時間的工作。雖然有些剪輯軟體如:剪映、威力導演都提供自動上字幕的功能,不過識別效果、資料 (你的聲音)安全都不是非常理想。這篇文章和大家分享 WhisperDesktop,它使用最新的 Whisper 語音識別 AI 技術,可以快速、精準地幫你製作影片字幕,而且還能直接在你的電腦完成轉換,不受檔案大小、時間長度限制,也不用擔心資料外洩唷!

推薦使用 WhisperDesktop 的理由:

✅ 使用最新的 Whisper AI 模型,轉換正確率更高
✅ 單機就能用,不須聯網,不會產生任何費用
✅ 相容性高,實測 5 年前筆電也能跑

使用 WhisperDesktop 高效率產生字幕

Step 1. 下載 WhisperDesktop

WhisperDesktop 是一個開放原始碼的軟體,可以從 github 下載使用。

點這邊下載 WhisperDesktop (版本 1.11)

Step 2. 下載語音識別 AI 模型檔 (model)

接著我們前往 Hugging Face 下載 AI 模型檔,稍後程式會使用這個模型檔進行運算。 這邊建議下載 ggml-medium.bin (1.5GB)可以獲得最好的轉換品質;如果電腦效能較差,也可以改用 ggml-small.bin (488MB) 替代,轉換品質相近,但會省下很多運算時間。

Whisper AI 模型下載頁

Step 3. 打開 WhisperDesktop,選擇模型檔

接著打開步驟 1 下載的壓縮檔,執行 「WhisperDesktop.exe」,接著在畫面上點選右邊的【…】按鈕選擇剛剛下載的模型檔。接著確認「Model Implementation」選擇 「GPU」就可以按【OK】準備進入重頭戲。

Step 4. 設定轉換相關參數

接著要進行影音轉文字的相關設定,以下依序說明:

  1. Language:影音檔使用的語言,如果是中文影音就直接 Chinese。如果要將字幕翻譯成英文可以勾選右邊的【Translate】。
  2. 選擇要轉換的影音檔:可以使用 mp3 或 mp4、avi 這類聲音或影片檔。
  3. 選擇要輸出的格式:轉換逐字稿可選 「Text file」 或 「Text with timestamps」(有時間標記),影片字幕則選擇「SubRip subtitile」。

接著按下【Transcribe】就可以開始進行語音識別和轉換囉!

WhisperDesktop 轉換效能測試

WhisperDesktop 對硬體的要求非常低,基本上只要支援 DirectX 11 的顯示卡都可以運作。有多低?好手使用 2017 年購入的筆電也可以無痛使用!

不過不同的硬體效能,當然也會影響轉檔速度,以下好手就實際以兩個影片進行轉換測試

影片長度轉檔時間
電腦 A
(AMD Ryzen 7 3700X + NVIDIA RTX 3070 Ti)
7分25秒57秒
電腦 B
(Intel Core i7 8550U + UHD Graphic 620)
2分03秒24分23秒 (ggml-medium)
7分05秒 (ggml-small)
電腦 C
(Intel Core i9-13900KF + AMD RTX 6600XT)
17分49秒2分39秒 (ggml-medium)
52秒 (ggml-small)

從以上結果可以發現:顯示卡的效能決定了一切!雖然電腦 B 只有陽春的顯卡,但 2 分鐘的影片也只需要 7 分鐘就能完成轉換。如果你聽打的速度比它慢,省下來的時間就是你的!

WhisperDesktop 與其他轉字幕功能比較

以下我們整理了目前常用的幾種字幕轉換 (產生) 工具的比較,你可以根據自己的需求,選擇最適合自己的工具。

WhisperDesktop威力導演剪映pyTranscriber
轉換速度尚可~快
(依電腦性能)

(依電腦性能)
正確性普通尚可尚可
語句分段正確性普通
費用免費NT 166 起/月免費免費
資料安全尚可上傳至中國伺服器上傳至 Google 伺服器
離線使用須聯網須聯網須聯網
硬體要求顯示卡效能越高越好

總結

Whisper 是 OpenAI 推出的語音辨識模型,未來還會隨著官方訓練成果的成長,進一步提高轉換的正確性 (雖然現在正確性已經很),如果你使用的電腦是用來剪片的話,通常效能一定可以讓你順順的用 WhisperDesktop 轉換字幕,因此好手建議可以優先把它當作轉換字幕的首選工具,幫你省下更多抓錯及上字幕的時間!

Exit mobile version