還記得我之前介紹過如何在 Mac 上本地安裝 DeepSeek OCR 嗎?當時雖然成功跑起來了,但因為是單純用 CPU 在跑,速度上總覺得稍微慢了一點,不夠過癮。

今天這篇文章就是要來解決這個問題!有網友製作了一個可以完整支援 MPS (Metal Performance Shaders) 加速的專案版本,讓你的 Mac M1/M2/M3/M4 系列晶片火力全開。經過實測,識別速度比之前的版本快上不少!而且這次還包含了解決 16GB RAM 機型容易爆記憶體的優化設定,一定要學起來!


為什麼你需要這個版本?

除了速度變快之外,這個 WebUI 介面還提供了幾個超好用的功能:

  1. 文件轉 Markdown (MD):把 PDF 或圖片丟進去,直接幫你轉成排版好的 Markdown 格式。
  2. 查找定位:這功能很有趣!你可以問它「籃球在哪裡?」,它就會在圖片中把籃球框出來。
  3. 圖像描述:讓 AI 告訴你這張圖片裡看到了什麼(支援自定義提示詞,可以用中文問喔!)。

準備工作:安裝環境

在開始之前,我們需要先準備好兩個工具:

  • VS Code:用來修改程式碼(必備)。
  • Miniconda:用來管理 Python 環境,避免弄亂你的系統。

Step 1:安裝 Miniconda

  1. 打開終端機 (Terminal)。
  2. 進入下載資料夾:cd Downloads
  3. 下載安裝腳本(詳細指令請參考影片或官方文件)。
  4. 執行安裝腳本:bash Miniconda3-latest-MacOSX-arm64.sh (檔名依下載版本而定)。
  5. 安裝過程中按 Enter 閱讀條款,輸入 yes 同意,最後初始化選擇 yes
  6. 重啟終端機讓設定生效。

安裝 DeepSeek OCR WebUI

Step 2:下載專案與建立環境

  1. 複製專案庫網址(請見影片資訊欄),在終端機輸入 git clone <網址> 下載。
  2. 進入資料夾:cd deepseek-ocr-webui (依實際資料夾名稱)。
  3. 建立虛擬環境
    conda create -n deepseek python=3.10
    
    (輸入 y 確認)
  4. 進入環境
    conda activate deepseek
    

Step 3:安裝依賴套件

  1. 安裝專案所需的套件:
    pip install -r requirements.txt
    
  2. 補充遺漏套件:影片中提到有一個套件可能沒寫在清單裡,如果執行有缺,請記得手動安裝(通常是 gradio 或相關套件,請依錯誤提示操作)。

關鍵步驟:針對 16GB RAM Mac 的優化與修正 🛠️

如果你跟我一樣是用 16GB RAM 的 Mac (例如 Mac Mini M4),這一步非常重要!不做的話可能會跑不動或報錯。

修改 1:降低記憶體佔用

  1. VS Code 開啟專案資料夾。
  2. 進入 backend 資料夾,找到 mps_backend.py
  3. 搜尋 float32
  4. 將它修改為 float16 (或是影片中提到的數值),這樣可以大幅降低顯存需求。
  5. 按下 Cmd + S 存檔。

修改 2:修復模型執行錯誤

這個步驟稍微進階一點,我們要去修改 Hugging Face 下載下來的模型檔案。

  1. 先試跑一次程式,讓它下載模型,等到出現錯誤或下載完成後按 Ctrl + C 關閉。
  2. 在 Finder 中按下 Cmd + Shift + . 顯示隱藏檔案。
  3. 前往路徑:使用者帳號 > .cache > huggingface > modules > transformers_modules... (找到 deep_encoder 相關的資料夾)。
  4. 用 VS Code 打開 deep_encoder 裡的 Python 檔。
  5. 搜尋 x = self.proj 這一行。
  6. 加入修正程式碼:在這一行前面加上影片中示範的兩行程式碼(這部分請務必對照影片畫面輸入,以免打錯)。
  7. 存檔。

啟動與使用

全部設定完成後,回到終端機輸入:

python webui.py