2026 OPENROUTER
TOOL_
CALLS_
AGENT_
MAC.
開啟 openrouter.ai/rankings,5 月 26 日 OpenRouter 官宣 Series B $113M,平台週處理量約 25T tokens(半年前約 5T/週)。排行榜不再只是「誰聊天最多」:除總榜與 Programming 外,Tool Calls、Market Share(按廠商)、以及 Agent/App 維度的日 token 才是 Mac 上跑 OpenClaw / Hermes / Cursor Agent 的人該盯的切片。5 月 10 日前後,Hermes Agent 日 token ~224B 首次超過 OpenClaw ~186B,但 OpenClaw 累計仍約 9.17T vs Hermes 6.35T——這是「日榜換位」不是「生態易主」。本文給出分榜讀法 — Tool Calls 快照 — Agent 榜變局 — 廠商市占 — Mac 三檔分流 — 六步落地 — 驗收清單,並與《5 月總榜矩陣》《編程分榜》《OpenClaw 429 多模型降級》分工。
1. 痛點拆解:總榜救不了 Agent,編程榜也救不了 Tool Call
1)維度錯位:總榜 #1 MiMo-V2-Pro 擅長通用對話,不代表 tool call 穩定;Programming 分榜衡量的是「寫程式流量」,不是「exec / MCP / 瀏覽器 / 檔案系統」工具鏈。2)Agent 執行時期 ≠ 底座模型:Hermes 日榜領先說明「自改進 + 持久記憶」路線在漲,但 OpenClaw 的 ClawHub、多渠道、launchd 常駐仍是生產預設——跟日榜還是跟累計,決策完全不同。3)Tool Calls 吃錢:一次 Agent 回合常含 8–20 次 tool round-trip,同一主模型下 token 可能是純聊天的 3–5×;選錯 Gemini Flash vs Opus 4.7,月帳單差一個數量級。4)Mac 本機裝不下 Agent 主模型:Tool Calls 分榜前列多為閉源或超大 MoE,必須 OpenRouter API;本機只能跑 30B 級「工具小模型」做草稿或過濾。5)設定漂移:openclaw.json 主模型與 OpenRouter fallback 未按分榜週更,429 後 fallback 寫回設定,Agent 實際跑的已是上週榜單外的模型。
2. 5 月底如何讀 OpenRouter 多維度排行榜
| 分榜/切片 | 回答的問題 | Mac 使用者典型動作 |
|---|---|---|
| Top Models(總榜) | 全站週 token 誰最多 | 選日常對話/通用 API 預設(見 0525 文) |
| Programming / Python | IDE 補全與重構流量 | Cursor/Cline 編程路由(見 0526 文) |
| Tool Calls | 帶 tools 的請求誰扛量 | OpenClaw / Hermes / 自建 Agent 主模型 + fallback |
| Market Share | 按廠商 token 占比 | 評估「中國開源 vs 西方閉源」成本與合規 |
| Languages / Context / Images / Audio | 語種、上下文長度、多模態 | RAG 長鏈、視覺 Agent 單獨路由 |
| Agent/App 日 token(公開報導) | 哪條 Agent 棧最熱 | 選 Hermes vs OpenClaw vs 純 IDE Agent |
平台在 5/26 融資稿中強調:排行榜已是投資人與媒體引用「真實 adoption」的指標之一;對你而言,Agent 工作流應每週一對齊 Tool Calls + Agent 日榜,每月一看 Market Share 是否觸發「主廠商換路由」。
3. Tool Calls 分榜快照(2026-05-27 週,Agent 工作流視角)
| 梯隊 | 代表模型(OpenRouter ID 示例) | Tool 場景優勢 | Mac 路徑 |
|---|---|---|---|
| T1 高吞吐低價 | deepseek/deepseek-v4-flash、google/gemini-3-flash-preview | 多步 tool 環、成本敏感 | 僅 API;本機用 Qwen3 30B 做預篩 |
| T2 均衡 | anthropic/claude-sonnet-4.6、moonshotai/kimi-k2.6 | 長鏈 Agent、穩定 JSON tool schema | API 為主;Kimi 蒸餾可遠端 Mac |
| T3 難任務兜底 | anthropic/claude-opus-4.7、openai/gpt-5.5-pro | 複雜 MCP、跨工具推理 | 僅 API;設 $/day 硬頂 |
| T4 開源實驗 | qwen/qwen3.7-max、xiaomi/mimo-v2-pro | 可審計、可自建閘道 | 遠端 Mac 128GB+ 或 API |
Tool Calls 分榜與 Programming 分榜重疊度約 50%–60%,但排序會不同:Gemini 3 Flash Preview 在 tool 場景常高於其在「純編程」榜的名次,因 Agent 框架預設把它當「便宜的多模態工具人」。OpenClaw 使用者應在 openclaw.json 裡把 tools.profile 與主模型分開設定:主模型走 T1/T2,fallback 鏈保留 T3。
4. Agent 榜變局:Hermes 日 token vs OpenClaw 累計
| 指標 | Hermes Agent | OpenClaw | 怎麼選 |
|---|---|---|---|
| 日 token(約 5/10) | ~224B | ~186B | 日榜:Hermes 熱度高 |
| 累計 token | ~6.35T | ~9.17T | 生態:OpenClaw 仍厚 |
| 記憶模型 | 三層持久記憶 + SQLite FTS | 會話外接 / MEMORY.md | 長程任務偏 Hermes |
| Mac 生產 | 較新棧,文件少 | launchd、ClawHub、站內多篇 Runbook | 7×24 仍多選 OpenClaw |
| 模型入口 | 多走 OpenRouter | OpenRouter + 直連廠商 | 都要對齊 Tool Calls 分榜 |
結論:跟日榜適合嘗鮮自改進 Agent;跟累計 + 維運成熟度適合企業微信/Telegram 常駐。兩者在 Mac 上都可以只換「Gateway 裡的模型路由」,而不必二選一——Hermes 做實驗沙箱,OpenClaw 做生產渠道,共用同一 OpenRouter key 與同一套 Tool Calls 主模型。
5. Market Share 與 25T 週量級:對 Mac 決策意味著什麼
公開報導與行業分析一致指出:中國系模型在 OpenRouter 上合計 token 占比已超 45%(一年前約 2%);5/26 後平台週量級約 25T tokens。Market Share 分榜上,Google、Anthropic、DeepSeek、Moonshot、Xiaomi 等交替領先,沒有任何單一廠商 >25% 壟斷——這對 Mac 使用者是利好:可以用 OpenRouter 做「廠商級 failover」,而不鎖死一家 API。實操上:主路由選 Tool Calls 分榜 T1(DeepSeek V4 Flash / Gemini 3 Flash),廠商級備份選另一家(如 Anthropic Sonnet),避免同一雲故障拖垮所有 Agent 頻道。
6. 六步落地:Tool Calls 分榜 → Mac Agent 棧
Step 1 — 每週抓取 Tool Calls + Agent 快照
固定存取 openrouter.ai/rankings 切換 Tool Calls、Market Share;API 側 GET /api/v1/models?supported_parameters=tools 落盤 pricing 與 context。
Step 2 — 劃分 Agent 負載四桶
輕量 tool(1–3 次) / 標準 Agent(4–10 次) / 重 MCP(10+ 次) / 多模態 tool(圖+文),每桶綁定 T1–T3 各一主一備。
Step 3 — OpenClaw:對齊 openclaw.json
主模型用 T1;fallback 陣列按 T2→T3;tools.profile 限制高危 exec;Gateway 走 https://openrouter.ai/api/v1。
Step 4 — Hermes / Cursor Agent:同 key 不同 runtime
實驗 Hermes 時用與生產相同的 Tool Calls 主模型,避免「實驗棧用貴模型、生產棧用便宜模型」導致對比失真。
Step 5 — 本機 30B + 遠端 Mac 128GB
本機 Qwen3 30B 做 tool 參數預檢;遠端 Mac 跑 72B 或 Kimi 蒸餾,SSH 隧道供 OpenClaw 子代理。
Step 6 — 30 分鐘探針 + 日限額
每條路由上線前:10 條含 tool 的 prompt,測 tool 成功率 >90%、p95 回合 <45s;OpenRouter 後台設 $/day hard cap。
7. 三檔決策矩陣:本機 / 遠端 Mac / OpenRouter API
| Agent 場景 | 路徑 | 代表設定 | 驗收 |
|---|---|---|---|
| 輕量 tool / 預檢 | 本機 MLX | Qwen3 30B @ 8081 | tool JSON 合法率 >95% |
| 頻道常駐 7×24 | 遠端 Mac + OpenClaw | launchd + OpenRouter T1 | 24h 無斷連、429<1% |
| 多步 MCP / 瀏覽器 | OpenRouter API | V4 Flash → Sonnet → Opus | 回合 p95 <60s |
| Hermes 實驗 | 本機或遠端沙箱 | 與生產同 T1 模型 | 記憶檢索延遲 <500ms |
| 高峰分流 | 遠端 Mac 128GB | macMLX + 子代理 | 夜跑 6h 不 OOM |
8. 深度案例:維運團隊用 Tool Calls 分榜重排 OpenClaw,Agent 月 token 降 41%
「6 人維運,OpenClaw 常駐 Telegram + 企業微信,主模型曾固定 Opus 4.7,月 OpenRouter 帳單 $4,100。5 月中旬按 Tool Calls 分榜改配:預設 deepseek-v4-flash,Sonnet 4.6 僅用於含 browser+exec 的會話,Opus 僅手動 /deep-debug。並把 Gateway 遷到 MACGPU 遠端 M4 Max 128GB,本機 MacBook 只 SSH 管理。30 天後 Agent 月 token 從 820B 降到 480B,帳單 $2,420,降 41%;tool 失敗率從 4.2% 降到 2.1%(因加了本機 30B 預檢)。」
案例說明:Agent 成本的主因是 tool 回合數 × 主模型單價,不是「Agent 框架選誰」。Hermes 日榜再高,若底座仍是 Opus,帳單一樣爆;OpenClaw 累計再高,若底座換成 Tool Calls T1,一樣能省。遠端 Mac 的價值在於把 Gateway 與重負載從筆電剝離,讓 7×24 與白天開發互不搶統一記憶體。
9. 行業洞察:Agent 時代排行榜會分裂成「執行時期榜」與「Tool 模型榜」
25T tokens/週 意味著平台資料已從「聊天產品」轉向「Agent 基礎設施」。2026 年下半年會出現兩個平行榜單:誰是最熱的 Agent 執行時期(Hermes、OpenClaw、廠商 IDE Agent),與誰是最穩的 tool-calling 模型(Flash 系搶量、Opus 系保底)。Mac 的獨特性在於:同一台機器既能跑 Gateway(Node + launchd),又能跑 MLX 預檢,還能掛 ComfyUI/Whisper——統一記憶體是多 Agent 並行時的隱藏王牌。Windows/Linux 在單卡顯存上仍強,但「筆電白天開發 + 夜間 Agent 不關機」往往只能租遠端 Mac。
若本機 32GB 裝不下 72B 預檢、又不想把所有 tool 回合都交給雲端,最乾淨的路徑是租遠端 Apple Silicon Mac:MACGPU 提供 M3/M4 Max 128GB 節點,可預裝 OpenClaw Gateway + macMLX,IDE 與手機渠道共用同一 OpenRouter 路由表,把 Tool Calls 分榜裡的「本機吃不下」留在區域網路內完成。
10. 可引用數字與 FAQ
① OpenRouter 週處理量(5/26 官宣):~25T tokens/週。② Hermes vs OpenClaw 日 token(約 5/10):224B vs 186B。③ OpenClaw 累計 token(報導口徑):~9.17T。④ 中國系模型 OpenRouter 占比(行業分析):>45%。⑤ Agent tool 回合 token 倍數(相對純聊天):約 3–5×。⑥ 案例帳單變化:$4,100 → $2,420(-41%)。
問:還要不要看總榜?答:要,但 Agent 路由以 Tool Calls 為主。問:Hermes 會取代 OpenClaw 嗎?答:日榜說明趨勢,生產看渠道與維運;可並存。問:Mac 能本地跑 Tool Calls 榜首嗎?答:榜首多為 API-only;本機 30B 做輔助。問:MACGPU 解決什麼?答:遠端 7×24 Gateway + 大記憶體 MLX,本機只管理不扛峰。