Site icon 硬是要學

LLM 救星?DeepSeek 推出 DeepSeek-OCR,Token 節省高達 90%

在處理長篇文本時,LLM 往往會因序列過長而消耗大量資源,DeepSeek-AI 最新發表的研究成果 —— DeepSeek-OCR 模型,他以「視覺壓縮」的創新方法,大幅降低 90% 以上的 Token 使用率,為解決 LLM 記憶負擔找出了一條新路。

而 DeepSeek-OCR 的創新點,就在於「把文件轉成圖片 → 圖片轉成極少量的 vision tokens → 再還原成原始文本」,這整個過程就是所謂的 Context Optical Compression(上下文視覺壓縮)

透過這種方式,DeepSeek-OCR 能在不犧牲太多精度的前提下,將原始文字壓縮到 1/10 以下的 token 數量!這不只減少運算資源,也讓 LLM 能夠「吃下更多內容」而不胃痛。

核心架構:DeepEncoder + MoE 解碼器

超強 Encoder:DeepEncoder

DeepEncoder 是這次的壓縮主角,包含兩大部分:

它們中間透過一個 16 倍卷積壓縮模組連接,將視覺 token 數量大幅下降。例如 1024×1024 的圖像,原本要用 4096 個 token 表達,但經過壓縮後只剩 256 個 token,直接瘦身!

解碼利器:3B-MoE Decoder

壓縮完還要能還原,這就交給 DeepSeek3B-MoE —— 一個激活參數僅 570M 的解碼器,具備大模型的表現力,小模型的效率感。

多種解析模式,對應不同應用需求

DeepSeek-OCR 支援多種解析模式,從最精簡的「Tiny 模式(64 tokens)」到頂規的「Gundam-M 模式(1853 tokens)」,像極了高達從初號機到最終形態的進化路線!

模式名稱ResolutionToken 數量適用情境
Tiny512×51264投影片、書籍封面等簡單排版
Small640×640100一般報告、教科書等中等複雜度
Base1024×1024256科研報告、電子書等大量文字
Large1280×1280400錯綜表格與複合排版資料
Gundam動態切片模式約 800報紙、學術 PDF
Gundam-M動態切片 + 高 DPI1853超大尺寸報表、雜誌內頁等

壓到 1/10 還能準確還原!

在 Fox benchmark 測試中,模型以 100 個 vision tokens 對應約 1000 個文字 tokens,仍可達到 97% 精度,壓縮比約 10×。當壓到 20× 時也還能保有約 60% 的辨識率,這代表在多輪對話或長文件應用中,可大幅節省 LLM 的「記憶開銷」。

超越傳統 OCR 的多樣功能

DeepSeek-OCR 不只是「能看懂字」的 OCR 工具,它還能做更多:

模擬人類「遺忘」:視覺壓縮也能實現記憶衰退?

最具創意的一點,是研究團隊把 DeepSeek-OCR 的壓縮特性用來模擬人類記憶的「遺忘機制」。越舊的上下文,轉換成圖像後再壓縮成模糊視覺 token,如此一來 LLM 就像人類一樣,記得最近的事比較清楚、過去的事只留模糊印象,這為「長期記憶管理」提供了全新想像空間。

DeepSeek-OCR 不只是 OCR,它是 LLM 的助攻手

DeepSeek-OCR 雖名為 OCR,但它讓我們重新審視了「圖片的價值」,證明了圖片真的可以「值一千字」,甚至可以幫助大型語言模型減負、加速、延長記憶力。

對於未來多模態模型的發展、長上下文處理、甚至是記憶模組的設計,DeepSeek-OCR 開啟了一條新的道路。DeepSeek 還可以直接將技術運用到以下這些應用上:

DeepSeek-OCR 模型論文
下載 DeepSeek-OCR (3B) 模型

Exit mobile version