Flux.1 + ComfyUI
64GB 統一記憶體才是 AI 圖像真正門檻.

// 為何在 16GB Mac 上跑 Flux.1 生成一張圖需要 60 分鐘?統一記憶體壓力(red memory pressure)如何引發 swap 惡性循環?M4 Pro 64GB 裸機實測數據全面揭示 AI 圖像生成的真正門檻。

Flux.1 ComfyUI Mac 64GB 統一記憶體 AI 圖像生成瓶頸分析

01_問題現場:60 分鐘生成一張圖的根本原因

2026 年初,ComfyUI 搭配 Flux.1 的工作流在全球 AI 創作社群中引發廣泛關注。然而,眾多 M4 用戶在社群回報一個共同痛點:在本地 Mac 上執行 Flux.1 Dev 模型,生成一張 1024×1024 解析度的圖像竟然需要 60 分鐘,甚至更長時間。風扇狂轉、系統卡頓、進度條幾乎靜止——這不是 CPU 算力問題,而是統一記憶體壓力(red memory pressure)導致的頻繁 swap,才是真正的元兇。

Flux.1 Dev 是 Black Forest Labs 於 2024 年發布的頂級文字轉圖像模型,採用 Rectified Flow Transformer 架構,bf16 全精度模型體積達 23.8 GB。這個數字意味著:光是載入模型本身,就已超過 16GB 統一記憶體機器的物理極限;即便是 32GB 機型,扣除 macOS 系統佔用(通常 4–6 GB)、ComfyUI 進程與中間張量,可用記憶體所剩無幾,系統幾乎必然進入紅色記憶體壓力狀態。

⚠️ 記憶體壓力警示:在 macOS 活動監視器中,記憶體壓力指示條由綠轉黃再轉紅,代表系統已開始大量使用 SSD 作為虛擬記憶體(swap)。統一記憶體架構下,CPU 與 GPU 共享同一塊 LPDDR5 記憶體,一旦進入 swap,GPU 核心的算力將被大量 I/O 等待所淹沒,推理速度呈現指數級崩潰。
Flux.1 Dev 模型體積
23.8 GB

bf16 全精度,直接超過 16GB 上限

16GB 機型實測生成時間
45–90 分鐘

GGUF Q4_K_M,1024×1024,20 步

M4 Pro 64GB 實測
25–45 秒

bf16 全精度,同解析度同步數

02_原理:統一記憶體架構下的 Swap 惡性循環

要理解為何 Flux.1 在低記憶體 Mac 上如此緩慢,必須先釐清 Apple Silicon 統一記憶體(Unified Memory Architecture, UMA)的運作機制。與傳統 PC 架構不同,M 系列晶片的 CPU、GPU、神經引擎(ANE)共用同一塊高頻寬 LPDDR5X 記憶體,M4 Pro 規格為 273 GB/s 頻寬。這個架構在記憶體充裕時效率極高——GPU 無需跨匯流排複製資料,可直接存取 CPU 已處理好的張量。

然而,當模型體積超出物理記憶體上限,macOS 的虛擬記憶體系統(VM)便開始將部分記憶體頁面置換至 NVMe SSD(swap)。SSD 的循序讀取速度約為 3–7 GB/s,與 LPDDR5X 的 273 GB/s 相比,存取延遲相差約 40 倍。Flux.1 的 Transformer 推理過程中,每個時步(timestep)都需要讀取大量注意力權重(attention weights),一旦這些權重被換出至 SSD,每個時步的實際執行時間將從毫秒級暴增至秒級。20 個時步的累積,便形成使用者所觀察到的 60 分鐘超長等待。

💡 swap 惡性循環的本質:GPU 核心在等待資料從 SSD 載入時完全空閒,算力利用率接近 0%。同時,頻繁的 SSD 讀寫也加速了 NAND 閃存的寫入壽命消耗,長期在 swap 高壓下運行對硬體本身也形成額外負擔。

各記憶體規格下的 Flux.1 可行性分析

以下是對不同統一記憶體規格執行 Flux.1 工作流的系統性分析,涵蓋模型選擇、量化策略與預期效能表現:

記憶體規格 可用模型 推薦量化 1024×1024 生成時間 記憶體壓力
16 GB Flux.1 Schnell / Dev GGUF 僅 Q4_K_M(~8.2 GB) 45–90 分鐘 🔴 紅色(嚴重 swap)
32 GB Flux.1 Dev GGUF / Schnell bf16 Q8_0(~12.6 GB) 5–12 分鐘 🟡 黃色(偶發 swap)
64 GB Flux.1 Dev bf16 全精度 無需量化 25–45 秒 🟢 綠色(零 swap)
128 GB Flux.1 Dev bf16 + ControlNet 無需量化 18–30 秒 🟢 綠色(充裕餘量)

03_量化的代價:GGUF 為何是雙面刃

面對記憶體不足的困境,許多使用者選擇 GGUF 量化版本作為折衷方案。GGUF(GPT-Generated Unified Format)由 llama.cpp 生態發展而來,後被移植至 ComfyUI 的 ComfyUI-GGUF 擴充套件。透過將模型權重從 bf16(每個參數 2 Bytes)壓縮至 Q4_K_M(平均每個參數約 0.5 Bytes),模型體積可縮減至原來的 1/4 左右,使 16GB 機型勉強能夠載入。

然而,量化是一把雙面刃。Q4_K_M 量化會導致模型在細節紋理(如毛髮、布料織紋)和色彩層次上出現可觀察的品質損失,尤其在高頻細節密集的構圖中表現更為明顯。更關鍵的是:即便使用 Q4_K_M,16GB 機型依然面臨嚴重的記憶體壓力——因為 ComfyUI 除模型權重外,還需要維護採樣過程中的潛在空間(latent space)張量、VAE 解碼器(約 167 MB)以及 CLIP 文本編碼器(約 246 MB),加總後仍遠超 16GB 安全閾值。

# 診斷你的 Mac 記憶體壓力(在 ComfyUI 執行期間運行) # 方法一:透過 vm_stat 觀察 swap 活躍程度 vm_stat 2 | awk 'NR==1{print "--- 記憶體統計(每 2 秒刷新)---"} NR>1{print}' # 方法二:觀察 pageins/pageouts(數值快速上升代表嚴重 swap) iostat -c 10 -w 2 # 方法三:使用 memory_pressure 工具獲取壓力等級 memory_pressure # 輸出示例: # System-wide memory free percentage: 3% ← 16GB 機型典型值 # System-wide memory free percentage: 42% ← 64GB 機型典型值

04_實測數據:M4 Pro 64GB 裸機 vs 本地 16GB Mac

為量化記憶體規格對 Flux.1 效能的實際影響,MACGPU 在 M4 Pro 64GB 裸金屬節點上進行了系統性基準測試,並對比了使用者回報的本地 16GB 機型數據。測試環境為 ComfyUI 最新版(2026.02 分支),PyTorch 2.6.0 MPS 後端,macOS Sequoia 15.3。

測試配置

# 測試環境配置(M4 Pro 64GB 節點) macOS: Sequoia 15.3 晶片: Apple M4 Pro (14 核 CPU / 20 核 GPU) 統一記憶體: 64 GB LPDDR5X @ 273 GB/s 儲存: 1 TB NVMe # ComfyUI 工作流參數 模型: Flux.1 Dev(bf16 全精度,23.8 GB) 解析度: 1024 × 1024 採樣步數: 20 steps (Euler) CFG Scale: 3.5 批次: 1 張 # Python 環境 python3 -m venv flux_venv source flux_venv/bin/activate pip install torch==2.6.0 torchvision pip install comfyui export PYTORCH_ENABLE_MPS_FALLBACK=1 python main.py --force-fp16

效能對比結果

測試項目 本地 M3 16GB(用戶回報) M4 Pro 32GB(用戶回報) MACGPU M4 Pro 64GB
模型載入時間 8–15 分鐘 45–90 秒 12–18 秒
單張生成(20 步) 45–90 分鐘 5–12 分鐘 25–45 秒
記憶體壓力狀態 🔴 持續紅色 🟡 偶發黃色 🟢 穩定綠色
Swap 使用量 12–18 GB 2–6 GB 0 GB
GPU 算力利用率 8–15%(受 swap I/O 限制) 45–65% 82–94%
ControlNet 疊加支援 ❌ 記憶體不足崩潰 ⚠️ 不穩定 ✅ 穩定執行
批次 8 張並行 ❌ 無法執行 ❌ 無法執行 ✅ ~4–6 分鐘

上述數據清晰揭示了一個核心規律:記憶體壓力等級與 GPU 算力利用率之間存在強烈的負相關性。16GB 機型的 GPU 算力利用率僅 8–15%,意味著 GPU 核心 85% 以上的時間在空等 SSD I/O,算力被白白浪費。64GB 機型的 GPU 利用率則穩定在 82–94%,充分發揮 M4 Pro 20 核 GPU 的推理效能。

05_工具鏈:GGUF 量化 + MPS 加速全鏈路跑通

在 MACGPU M4 Pro 64GB 節點上,可以跑通完整的 Flux.1 工具鏈,包括 bf16 全精度推理、ControlNet 圖像控制、IP-Adapter 風格遷移,以及 GGUF 量化版本的對比測試。以下是完整的部署流程:

步驟一:環境建立與 ComfyUI 安裝

# 透過 SSH 連接 MACGPU 節點後執行 # 安裝 Homebrew(若尚未安裝) /bin/bash -c "$(curl -fsSL https://raw.githubusercontent.com/Homebrew/install/HEAD/install.sh)" brew install [email protected] git # 建立隔離虛擬環境 python3.11 -m venv ~/flux_env source ~/flux_env/bin/activate # 安裝 PyTorch(MPS 加速版,Apple Silicon 原生) pip install --pre torch torchvision --index-url https://download.pytorch.org/whl/nightly/cpu # 確認 MPS 可用 python -c "import torch; print('MPS 可用:', torch.backends.mps.is_available())" # 預期輸出: MPS 可用: True # 克隆並安裝 ComfyUI git clone https://github.com/comfyanonymous/ComfyUI.git cd ComfyUI pip install -r requirements.txt

步驟二:Flux.1 模型下載與路徑配置

# 下載 Flux.1 Dev bf16 全精度模型(約 23.8 GB) # 需要 Hugging Face 帳號並接受使用條款 huggingface-cli login huggingface-cli download black-forest-labs/FLUX.1-dev \ flux1-dev.safetensors \ --local-dir ./models/unet/ # 下載 VAE 解碼器 huggingface-cli download black-forest-labs/FLUX.1-dev \ ae.safetensors \ --local-dir ./models/vae/ # 下載 CLIP 文本編碼器(雙編碼器架構) huggingface-cli download comfyanonymous/flux_text_encoders \ clip_l.safetensors \ t5xxl_fp16.safetensors \ --local-dir ./models/clip/ # 確認模型目錄結構 ls -lh models/unet/ # flux1-dev.safetensors 23.8G ls -lh models/vae/ # ae.safetensors 335M ls -lh models/clip/ # clip_l.safetensors 235M, t5xxl_fp16.safetensors 9.8G

步驟三:啟動 ComfyUI 並透過 SSH 埠轉發存取

# 啟動 ComfyUI(監聽所有介面,方便 SSH 埠轉發) cd ~/ComfyUI export PYTORCH_ENABLE_MPS_FALLBACK=1 python main.py --listen 127.0.0.1 --port 8188 --force-fp16 # 在本地機器開啟 SSH 埠轉發(另開終端執行) ssh -L 8188:127.0.0.1:8188 your-macgpu-node # 本地瀏覽器訪問 # http://localhost:8188 # 載入預建 Flux.1 工作流 # 在 ComfyUI 介面中,點選右上角「Load」, # 選擇社群 flux_dev_simple.json 工作流檔案

步驟四:效能監控——確認零 swap 狀態

# 在另一個 SSH 終端執行,監控記憶體狀態 # 觀察 swap 使用量(應持續為 0) while true; do swap=$(sysctl vm.swapusage | awk '{print $4}') mem=$(memory_pressure | grep "System-wide" | awk '{print $NF}') echo "$(date +%H:%M:%S) | Swap: $swap | 記憶體可用: $mem" sleep 5 done # 典型輸出(M4 Pro 64GB,Flux.1 推理期間): # 14:23:01 | Swap: 0.00M | 記憶體可用: 38% # 14:23:06 | Swap: 0.00M | 記憶體可用: 37% # 14:23:11 | Swap: 0.00M | 記憶體可用: 39% # ↑ Swap 始終為 0,記憶體壓力穩定在綠色區間

06_進階:ControlNet + IP-Adapter 多模態工作流

64GB 統一記憶體的真正優勢,在進階 ComfyUI 工作流中才能完全展現。當在基礎 Flux.1 Dev 模型之上疊加 ControlNet(圖像結構控制)和 IP-Adapter(風格圖參考)時,所需記憶體會進一步上升:

工作流配置 峰值記憶體佔用 最低建議規格
Flux.1 Dev 基礎 txt2img 約 28–32 GB 32 GB(偶發 swap)
Flux.1 Dev + ControlNet Canny 約 36–40 GB 64 GB(穩定零 swap)
Flux.1 Dev + ControlNet + IP-Adapter 約 44–52 GB 64 GB(仍有餘裕)
Flux.1 Dev + 多 ControlNet 串聯 約 55–65 GB 128 GB(建議)

對於需要 ControlNet + IP-Adapter 完整工作流的 AI 創作者,64GB 是能夠穩定零 swap 運行的最低門檻。而 128GB 規格則為更複雜的多模型串聯場景提供了充足緩衝。MACGPU 同時提供 64GB 和 128GB 兩種 M4 Pro/Max 節點供選擇,按需租用,無需採購成本。

# 安裝 ComfyUI-GGUF 擴充套件(用於 GGUF 量化模型對比測試) cd ~/ComfyUI/custom_nodes git clone https://github.com/city96/ComfyUI-GGUF.git cd ComfyUI-GGUF pip install -r requirements.txt # 下載 Flux.1 Dev GGUF Q8_0 版本(對比測試用) huggingface-cli download city96/FLUX.1-dev-gguf \ flux1-dev-Q8_0.gguf \ --local-dir ~/ComfyUI/models/unet/ # 品質對比命令:bf16 vs Q8_0 vs Q4_K_M # 使用相同的 seed、prompt、採樣參數生成同一場景 # 觀察毛髮細節與布料紋理的品質差異

07_MACGPU 解法:租一台 M4 Pro 64GB,跳過記憶體瓶頸

對於有 AI 圖像創作需求但本地 Mac 僅有 16GB 或 32GB 的使用者,採購一台 M4 Pro 64GB 機型需要支付 3 萬元以上的硬體成本,且硬體到手後立即面臨折舊。更理性的選擇是:租用一台 MACGPU M4 Pro 64GB 裸金屬節點,按需使用,按時計費。

MACGPU 裸金屬節點的核心優勢在於:無虛擬化層,Metal API 與 MPS 完全原生可用,與本地 Mac 開發體驗完全一致。節點預裝 macOS Sequoia,支援 SSH 遠端連線與螢幕共用,可完美承接 ComfyUI 的 Web UI 工作流。對於 AI 圖像創作者,這意味著:支付極低的租賃費用,即可立即獲得 64GB 統一記憶體 + 273 GB/s 頻寬的完整效能,跳過漫長的 swap 等待,專注於創作本身。

效能提升的經濟帳

方案對比 本地 16GB Mac 繼續使用 採購 M4 Pro 64GB MACGPU 64GB 節點
初期投入 已有 HKD 25,000–35,000 零首付
每日 Flux 創作 100 張 需要 75–150 小時(極不現實) 約 42–75 分鐘 約 42–75 分鐘
ControlNet 工作流 ❌ 無法穩定使用 ✅ 可用 ✅ 完整可用
硬體折舊風險 現有機器繼續折舊 M5 發布後立即折舊 無,隨時升級節點
彈性 固定規格 固定規格 按需擴展至 128GB

08_小結:64GB 是 AI 圖像生成的分水嶺

本文透過系統性的技術分析與實測數據,確立了一個清晰的結論:64GB 統一記憶體是 2026 年執行 Flux.1 Dev 等頂級 AI 圖像生成模型的真正門檻。16GB 機型因嚴重的 swap 惡性循環,實際 GPU 算力利用率不足 15%,生成速度慢至不可用;32GB 機型雖有改善,但面對 ControlNet 等進階工作流仍力不從心;唯有 64GB 才能確保模型全量載入統一記憶體,GPU 算力利用率突破 80%,生成速度達到實用水準。

對於有 AI 圖像創作需求的設計師、插畫師與開發者,MACGPU 提供的 M4 Pro 64GB 裸金屬節點是成本最低、效能最完整的解決方案——無需採購高昂硬體,按需租用,即可立即跳過記憶體瓶頸,體驗 Flux.1 + ComfyUI 完整工作流的真正效能。