Pourquoi faire tourner un LLM en local ?
- Confidentialité totale — vos données ne quittent pas votre machine
- 0€/mois — pas d'abonnement, pas de facturation à l'usage
- Disponible hors-ligne — ça marche même sans internet
- Personnalisable — vous contrôlez le modèle, les paramètres, tout
Le seul bémol : il faut du hardware. Mais vous êtes probablement surpris par ce que vous avez déjà.
Configuration minimale recommandée
| Usage | RAM | GPU VRAM | Modèles supportés |
|---|---|---|---|
| Basique | 8 Go | — | Phi-3 Mini, Gemma 2B |
| Confortable | 16 Go | 6 Go | Llama 3.1 8B, Mistral 7B |
| Pro | 32 Go | 12 Go | Llama 3.3 70B Q4, Qwen 72B |
Sans GPU ? Pas de panique — les modèles en CPU-only sont lents mais fonctionnels pour la plupart des usages.
Ollama — l'outil incontournable
Ollama est devenu le standard pour faire tourner des LLM en local. C'est simple, rapide, et ça marche sur Mac, Linux, et Windows.
Installation
# Linux / Mac
curl -fsSL https://ollama.ai/install.sh | sh
# Windows : télécharger l'installeur sur ollama.ai
Premier modèle
# Télécharger et lancer Llama 3.1 8B (4.7 Go)
ollama run llama3.1
# Ou le plus léger Phi-3 Mini (2.3 Go)
ollama run phi3:mini
C'est tout. Ollama télécharge le modèle et ouvre un chat directement dans le terminal.
Les meilleurs modèles en 2026
Pour la rédaction et le chat général
Llama 3.3 70B (Meta) — Le meilleur open-source toutes catégories. Nécessite 40+ Go de VRAM ou 64 Go RAM en CPU.
Mistral Small 3.1 — Excellent rapport qualité/taille. 24B paramètres, tourne sur 16 Go RAM.
Pour le code
DeepSeek Coder V2 — Meilleur que GPT-4 pour le code selon plusieurs benchmarks. Version 16B accessible avec 16 Go RAM.
Qwen2.5 Coder 7B — Plus léger, excellent pour la completion de code au quotidien.
Pour les petites configs
Phi-3.5 Mini (3.8B) — Microsoft a fait un miracle ici. Qualité surprenante pour sa taille.
Gemma 2 2B — Idéal pour des usages simples sur machine peu puissante.
Open WebUI — l'interface ChatGPT pour votre Ollama
Le terminal c'est bien, mais une interface web c'est mieux.
# Avec Docker
docker run -d -p 3000:8080 \
-v open-webui:/app/backend/data \
-e OLLAMA_BASE_URL=http://host.docker.internal:11434 \
--name open-webui ghcr.io/open-webui/open-webui:main
Accédez à http://localhost:3000 — vous avez votre propre ChatGPT privé.
Cas d'usage pratiques
Assistant de développement local
ollama run deepseek-coder-v2:16b
"Explique ce code", "Génère des tests unitaires", "Refactor cette fonction" — tout ça tourne en local.
Résumé de documents confidentiels
Vous avez un contrat NDA à analyser ? Un rapport interne à résumer ? Chargez-le dans Open WebUI, votre LLM le traite sans que rien ne parte sur internet.
Génération de contenu
Avec les bons prompts, Llama 3.3 70B produit des textes de qualité professionnelle. C'est ce que j'utilise pour dégrossir mes articles avant révision manuelle.
Performance réelle sur différentes configs
| Machine | Modèle | Vitesse | Verdict |
|---|---|---|---|
| MacBook Pro M2 (16 Go) | Llama 3.1 8B | ~25 tok/s | ✅ Confortable |
| PC Linux + RTX 3060 12 Go | Mistral 7B | ~45 tok/s | ✅✅ Excellent |
| PC Linux, i5, 8 Go RAM, no GPU | Phi-3 Mini | ~8 tok/s | ⚠️ Lent mais ok |
Pour aller plus loin
- LM Studio — alternative graphique à Ollama, parfaite pour ceux qui préfèrent les interfaces visuelles
- Jan — client desktop avec interface soignée
- AnythingLLM — RAG (retrieval-augmented generation) sur vos propres documents
Vous avez des questions sur votre configuration spécifique ? Décrivez votre machine en commentaire, je vous dis quels modèles sont adaptés.