01_問題現場:60 分鐘生成一張圖的根本原因
2026 年初,ComfyUI 搭配 Flux.1 的工作流在全球 AI 創作社群中引發廣泛關注。然而,眾多 M4 用戶在社群回報一個共同痛點:在本地 Mac 上執行 Flux.1 Dev 模型,生成一張 1024×1024 解析度的圖像竟然需要 60 分鐘,甚至更長時間。風扇狂轉、系統卡頓、進度條幾乎靜止——這不是 CPU 算力問題,而是統一記憶體壓力(red memory pressure)導致的頻繁 swap,才是真正的元兇。
Flux.1 Dev 是 Black Forest Labs 於 2024 年發布的頂級文字轉圖像模型,採用 Rectified Flow Transformer 架構,bf16 全精度模型體積達 23.8 GB。這個數字意味著:光是載入模型本身,就已超過 16GB 統一記憶體機器的物理極限;即便是 32GB 機型,扣除 macOS 系統佔用(通常 4–6 GB)、ComfyUI 進程與中間張量,可用記憶體所剩無幾,系統幾乎必然進入紅色記憶體壓力狀態。
bf16 全精度,直接超過 16GB 上限
GGUF Q4_K_M,1024×1024,20 步
bf16 全精度,同解析度同步數
02_原理:統一記憶體架構下的 Swap 惡性循環
要理解為何 Flux.1 在低記憶體 Mac 上如此緩慢,必須先釐清 Apple Silicon 統一記憶體(Unified Memory Architecture, UMA)的運作機制。與傳統 PC 架構不同,M 系列晶片的 CPU、GPU、神經引擎(ANE)共用同一塊高頻寬 LPDDR5X 記憶體,M4 Pro 規格為 273 GB/s 頻寬。這個架構在記憶體充裕時效率極高——GPU 無需跨匯流排複製資料,可直接存取 CPU 已處理好的張量。
然而,當模型體積超出物理記憶體上限,macOS 的虛擬記憶體系統(VM)便開始將部分記憶體頁面置換至 NVMe SSD(swap)。SSD 的循序讀取速度約為 3–7 GB/s,與 LPDDR5X 的 273 GB/s 相比,存取延遲相差約 40 倍。Flux.1 的 Transformer 推理過程中,每個時步(timestep)都需要讀取大量注意力權重(attention weights),一旦這些權重被換出至 SSD,每個時步的實際執行時間將從毫秒級暴增至秒級。20 個時步的累積,便形成使用者所觀察到的 60 分鐘超長等待。
各記憶體規格下的 Flux.1 可行性分析
以下是對不同統一記憶體規格執行 Flux.1 工作流的系統性分析,涵蓋模型選擇、量化策略與預期效能表現:
| 記憶體規格 | 可用模型 | 推薦量化 | 1024×1024 生成時間 | 記憶體壓力 |
|---|---|---|---|---|
| 16 GB | Flux.1 Schnell / Dev GGUF 僅 | Q4_K_M(~8.2 GB) | 45–90 分鐘 | 🔴 紅色(嚴重 swap) |
| 32 GB | Flux.1 Dev GGUF / Schnell bf16 | Q8_0(~12.6 GB) | 5–12 分鐘 | 🟡 黃色(偶發 swap) |
| 64 GB | Flux.1 Dev bf16 全精度 | 無需量化 | 25–45 秒 | 🟢 綠色(零 swap) |
| 128 GB | Flux.1 Dev bf16 + ControlNet | 無需量化 | 18–30 秒 | 🟢 綠色(充裕餘量) |
03_量化的代價:GGUF 為何是雙面刃
面對記憶體不足的困境,許多使用者選擇 GGUF 量化版本作為折衷方案。GGUF(GPT-Generated Unified Format)由 llama.cpp 生態發展而來,後被移植至 ComfyUI 的 ComfyUI-GGUF 擴充套件。透過將模型權重從 bf16(每個參數 2 Bytes)壓縮至 Q4_K_M(平均每個參數約 0.5 Bytes),模型體積可縮減至原來的 1/4 左右,使 16GB 機型勉強能夠載入。
然而,量化是一把雙面刃。Q4_K_M 量化會導致模型在細節紋理(如毛髮、布料織紋)和色彩層次上出現可觀察的品質損失,尤其在高頻細節密集的構圖中表現更為明顯。更關鍵的是:即便使用 Q4_K_M,16GB 機型依然面臨嚴重的記憶體壓力——因為 ComfyUI 除模型權重外,還需要維護採樣過程中的潛在空間(latent space)張量、VAE 解碼器(約 167 MB)以及 CLIP 文本編碼器(約 246 MB),加總後仍遠超 16GB 安全閾值。
04_實測數據:M4 Pro 64GB 裸機 vs 本地 16GB Mac
為量化記憶體規格對 Flux.1 效能的實際影響,MACGPU 在 M4 Pro 64GB 裸金屬節點上進行了系統性基準測試,並對比了使用者回報的本地 16GB 機型數據。測試環境為 ComfyUI 最新版(2026.02 分支),PyTorch 2.6.0 MPS 後端,macOS Sequoia 15.3。
測試配置
效能對比結果
| 測試項目 | 本地 M3 16GB(用戶回報) | M4 Pro 32GB(用戶回報) | MACGPU M4 Pro 64GB |
|---|---|---|---|
| 模型載入時間 | 8–15 分鐘 | 45–90 秒 | 12–18 秒 |
| 單張生成(20 步) | 45–90 分鐘 | 5–12 分鐘 | 25–45 秒 |
| 記憶體壓力狀態 | 🔴 持續紅色 | 🟡 偶發黃色 | 🟢 穩定綠色 |
| Swap 使用量 | 12–18 GB | 2–6 GB | 0 GB |
| GPU 算力利用率 | 8–15%(受 swap I/O 限制) | 45–65% | 82–94% |
| ControlNet 疊加支援 | ❌ 記憶體不足崩潰 | ⚠️ 不穩定 | ✅ 穩定執行 |
| 批次 8 張並行 | ❌ 無法執行 | ❌ 無法執行 | ✅ ~4–6 分鐘 |
上述數據清晰揭示了一個核心規律:記憶體壓力等級與 GPU 算力利用率之間存在強烈的負相關性。16GB 機型的 GPU 算力利用率僅 8–15%,意味著 GPU 核心 85% 以上的時間在空等 SSD I/O,算力被白白浪費。64GB 機型的 GPU 利用率則穩定在 82–94%,充分發揮 M4 Pro 20 核 GPU 的推理效能。
05_工具鏈:GGUF 量化 + MPS 加速全鏈路跑通
在 MACGPU M4 Pro 64GB 節點上,可以跑通完整的 Flux.1 工具鏈,包括 bf16 全精度推理、ControlNet 圖像控制、IP-Adapter 風格遷移,以及 GGUF 量化版本的對比測試。以下是完整的部署流程:
步驟一:環境建立與 ComfyUI 安裝
步驟二:Flux.1 模型下載與路徑配置
步驟三:啟動 ComfyUI 並透過 SSH 埠轉發存取
步驟四:效能監控——確認零 swap 狀態
06_進階:ControlNet + IP-Adapter 多模態工作流
64GB 統一記憶體的真正優勢,在進階 ComfyUI 工作流中才能完全展現。當在基礎 Flux.1 Dev 模型之上疊加 ControlNet(圖像結構控制)和 IP-Adapter(風格圖參考)時,所需記憶體會進一步上升:
| 工作流配置 | 峰值記憶體佔用 | 最低建議規格 |
|---|---|---|
| Flux.1 Dev 基礎 txt2img | 約 28–32 GB | 32 GB(偶發 swap) |
| Flux.1 Dev + ControlNet Canny | 約 36–40 GB | 64 GB(穩定零 swap) |
| Flux.1 Dev + ControlNet + IP-Adapter | 約 44–52 GB | 64 GB(仍有餘裕) |
| Flux.1 Dev + 多 ControlNet 串聯 | 約 55–65 GB | 128 GB(建議) |
對於需要 ControlNet + IP-Adapter 完整工作流的 AI 創作者,64GB 是能夠穩定零 swap 運行的最低門檻。而 128GB 規格則為更複雜的多模型串聯場景提供了充足緩衝。MACGPU 同時提供 64GB 和 128GB 兩種 M4 Pro/Max 節點供選擇,按需租用,無需採購成本。
07_MACGPU 解法:租一台 M4 Pro 64GB,跳過記憶體瓶頸
對於有 AI 圖像創作需求但本地 Mac 僅有 16GB 或 32GB 的使用者,採購一台 M4 Pro 64GB 機型需要支付 3 萬元以上的硬體成本,且硬體到手後立即面臨折舊。更理性的選擇是:租用一台 MACGPU M4 Pro 64GB 裸金屬節點,按需使用,按時計費。
MACGPU 裸金屬節點的核心優勢在於:無虛擬化層,Metal API 與 MPS 完全原生可用,與本地 Mac 開發體驗完全一致。節點預裝 macOS Sequoia,支援 SSH 遠端連線與螢幕共用,可完美承接 ComfyUI 的 Web UI 工作流。對於 AI 圖像創作者,這意味著:支付極低的租賃費用,即可立即獲得 64GB 統一記憶體 + 273 GB/s 頻寬的完整效能,跳過漫長的 swap 等待,專注於創作本身。
效能提升的經濟帳
| 方案對比 | 本地 16GB Mac 繼續使用 | 採購 M4 Pro 64GB | MACGPU 64GB 節點 |
|---|---|---|---|
| 初期投入 | 已有 | HKD 25,000–35,000 | 零首付 |
| 每日 Flux 創作 100 張 | 需要 75–150 小時(極不現實) | 約 42–75 分鐘 | 約 42–75 分鐘 |
| ControlNet 工作流 | ❌ 無法穩定使用 | ✅ 可用 | ✅ 完整可用 |
| 硬體折舊風險 | 現有機器繼續折舊 | M5 發布後立即折舊 | 無,隨時升級節點 |
| 彈性 | 固定規格 | 固定規格 | 按需擴展至 128GB |
08_小結:64GB 是 AI 圖像生成的分水嶺
本文透過系統性的技術分析與實測數據,確立了一個清晰的結論:64GB 統一記憶體是 2026 年執行 Flux.1 Dev 等頂級 AI 圖像生成模型的真正門檻。16GB 機型因嚴重的 swap 惡性循環,實際 GPU 算力利用率不足 15%,生成速度慢至不可用;32GB 機型雖有改善,但面對 ControlNet 等進階工作流仍力不從心;唯有 64GB 才能確保模型全量載入統一記憶體,GPU 算力利用率突破 80%,生成速度達到實用水準。
對於有 AI 圖像創作需求的設計師、插畫師與開發者,MACGPU 提供的 M4 Pro 64GB 裸金屬節點是成本最低、效能最完整的解決方案——無需採購高昂硬體,按需租用,即可立即跳過記憶體瓶頸,體驗 Flux.1 + ComfyUI 完整工作流的真正效能。