1. Points de friction : mauvais outil, mauvais contrat
(1) Attentes UI : Ollama est CLI/daemon, LM Studio GUI, MLX pour code embarqué. Mauvaise porte d’entrée = perte de temps. (2) Formats : GGUF, Safetensors et poids MLX ne sont pas interchangeables à volonté. (3) Topologie : HTTP compatible OpenAI, scripts locaux seuls, batch — surfaces minimales différentes. (4) Contention : vidéo, IDE et navigateur partagent la mémoire unifiée ; un benchmark isolé trompe.
2. Comparaison en trois piles
| Pile | Forces | Idéal / attention |
|---|---|---|
| Ollama | Tirage rapide, Modelfile, scripts | Essais multi-modèles, arrière-plan d’abord |
| LM Studio | Chargement visuel, chat local fluide | Comparer vitesses et barres mémoire à l’œil |
| MLX | Chemin Metal clair, proche du code produit | Profil ingénierie, courbe d’apprentissage plus raide |
3. Cinq étapes : de « ça tourne une fois » à « ça tient »
1 Fixer un objectif—essai perso, point de terminaison partagé ou produit embarqué. 2 Limiter à 1–2 modèles canoniques. 3 Journaliser la ligne de base—même longueur de prompt, premier jeton, débit stable. 4 Documenter local vs daemon distant. 5 Rejouer une semaine réelle—si pression mémoire persistante, changer la topologie d’abord.
4. Chiffres de planification
- Réserver au moins 8 Go pour macOS et apps avant poids + KV.
- Avec IDE lourd + contexte long + timeline, viser 1–2 voies d’inférence parallèles.
- Portable mobile avec >20 h/semaine d’inférence saturée : un Mac distant dédié coûte souvent moins cher que des upgrades répétés.
5. Quand basculer vers un Mac distant
| Signal | Piste |
|---|---|
| Point de terminaison compatible OpenAI partagé avec audit | Nœud distant pour quotas et journaux |
| Apps créatives instables faute de RAM | Déporter l’inférence ou réduire contexte/quantification |
| Nuits de batch seulement | Scripts locaux + gestion thermique/alimentation |
| MLX 24/7 sous launchd | Distant : meilleur suivi et durée de vie du portable |
6. FAQ
Q : tout installer, une seule API ? Possible, mais clarifier qui écoute sur le réseau vs localhost ; doublons de téléchargements et collisions de ports coûtent cher. Q : chiffres LM Studio = MLX ? Non—batching différent ; mesurer avec prompts fixes. Q : arrêter d’optimiser la pile ? Si création interrompue ≥3 fois/semaine, déplacer la couche lourde.
7. Analyse : le choix de pile devient un sujet de gouvernance
En 2026, le frictionnel est moins une micro-optimisation Metal qu’une cohérence de contrat : dev, staging et démo partagent-ils les mêmes pulls, ports et auth ? Sans pile déclarée, chaque portable recrée sa magie—la reproductibilité s’effondre. Interactif en local, points partagés à distance—comme la séparation de rôles en CI. Tester un Mac distant MACGPU à l’heure suit mieux la courbe de besoin qu’un achat max d’emblée.