在處理長篇文本時,LLM 往往會因序列過長而消耗大量資源,DeepSeek-AI 最新發表的研究成果 —— DeepSeek-OCR 模型,他以「視覺壓縮」的創新方法,大幅降低 90% 以上的 Token 使用率,為解決 LLM 記憶負擔找出了一條新路。
而 DeepSeek-OCR 的創新點,就在於「把文件轉成圖片 → 圖片轉成極少量的 vision tokens → 再還原成原始文本」,這整個過程就是所謂的 Context Optical Compression(上下文視覺壓縮)。
透過這種方式,DeepSeek-OCR 能在不犧牲太多精度的前提下,將原始文字壓縮到 1/10 以下的 token 數量!這不只減少運算資源,也讓 LLM 能夠「吃下更多內容」而不胃痛。
核心架構:DeepEncoder + MoE 解碼器
超強 Encoder:DeepEncoder
DeepEncoder 是這次的壓縮主角,包含兩大部分:
- 局部視覺處理(由 SAM 模型負責,偏向小範圍注意力)
- 全局視覺理解(由 CLIP 模型處理,強調整體語意)
它們中間透過一個 16 倍卷積壓縮模組連接,將視覺 token 數量大幅下降。例如 1024×1024 的圖像,原本要用 4096 個 token 表達,但經過壓縮後只剩 256 個 token,直接瘦身!
解碼利器:3B-MoE Decoder
壓縮完還要能還原,這就交給 DeepSeek3B-MoE —— 一個激活參數僅 570M 的解碼器,具備大模型的表現力,小模型的效率感。
多種解析模式,對應不同應用需求
DeepSeek-OCR 支援多種解析模式,從最精簡的「Tiny 模式(64 tokens)」到頂規的「Gundam-M 模式(1853 tokens)」,像極了高達從初號機到最終形態的進化路線!
模式名稱 | Resolution | Token 數量 | 適用情境 |
---|---|---|---|
Tiny | 512×512 | 64 | 投影片、書籍封面等簡單排版 |
Small | 640×640 | 100 | 一般報告、教科書等中等複雜度 |
Base | 1024×1024 | 256 | 科研報告、電子書等大量文字 |
Large | 1280×1280 | 400 | 錯綜表格與複合排版資料 |
Gundam | 動態切片模式 | 約 800 | 報紙、學術 PDF |
Gundam-M | 動態切片 + 高 DPI | 1853 | 超大尺寸報表、雜誌內頁等 |
壓到 1/10 還能準確還原!
在 Fox benchmark 測試中,模型以 100 個 vision tokens 對應約 1000 個文字 tokens,仍可達到 97% 精度,壓縮比約 10×。當壓到 20× 時也還能保有約 60% 的辨識率,這代表在多輪對話或長文件應用中,可大幅節省 LLM 的「記憶開銷」。
超越傳統 OCR 的多樣功能
DeepSeek-OCR 不只是「能看懂字」的 OCR 工具,它還能做更多:
- 深度解析:圖表與幾何結構一把罩
不只解析文本,還能辨識圖表(轉換為 HTML table)、化學式(轉為 SMILES 格式)、幾何圖形(結構化座標輸出),甚至能辨識自然圖片內容,支援多語言,達到真正的文件「全解析」。 - 多語言支持近百種
不論是阿拉伯文、僧伽羅語還是常見中英文,DeepSeek-OCR 都能處理,並支援 layout 模式與純文字輸出模式。 - 大規模資料生產能手
在生產應用上,DeepSeek-OCR 每天可生成超過 33 萬頁的訓練資料,非常適合當作大型模型預訓練的資料供應器。
模擬人類「遺忘」:視覺壓縮也能實現記憶衰退?
最具創意的一點,是研究團隊把 DeepSeek-OCR 的壓縮特性用來模擬人類記憶的「遺忘機制」。越舊的上下文,轉換成圖像後再壓縮成模糊視覺 token,如此一來 LLM 就像人類一樣,記得最近的事比較清楚、過去的事只留模糊印象,這為「長期記憶管理」提供了全新想像空間。
DeepSeek-OCR 不只是 OCR,它是 LLM 的助攻手
DeepSeek-OCR 雖名為 OCR,但它讓我們重新審視了「圖片的價值」,證明了圖片真的可以「值一千字」,甚至可以幫助大型語言模型減負、加速、延長記憶力。
對於未來多模態模型的發展、長上下文處理、甚至是記憶模組的設計,DeepSeek-OCR 開啟了一條新的道路。DeepSeek 還可以直接將技術運用到以下這些應用上:
- 幫助 AI 更快讀懂長文件:不用逐字讀,改用「圖片壓縮」方式,節省大量運算資源。
- 模擬人類記憶:越久的內容越模糊,可以把舊的對話或歷史資料壓得更小,模擬人類「記憶淡化」的特性。
- 大規模資料生成:每天可以自動生成超過 20 萬頁的訓練資料,幫助訓練更聰明的 AI。
- 適合未來的多模態 AI 系統:因為它同時懂圖片和文字,未來可以應用在智慧助理、文件分析、教育工具等領域。