Aller au contenu principal
Retour au journal
IA26 avril 202610 min de lecture

Fine-tuner un LLM open-source vs prompter Claude/GPT : le vrai calcul ROI

Quand le fine-tuning bat le prompting, quand c'est l'inverse, et le seuil de volume où le calcul bascule. Avec les chiffres concrets de nos audits 2026.

ParPatrice Huetz

Un client e-commerce nous a appelés en panique fin 2025. Ils avaient signé un projet de fine-tuning de Llama 3 8B pour leur assistant produit : 38 k€ de prestation, deux mois de travail, infra GPU à 1 200 €/mois. Le modèle livré atteignait 81 % de précision sur leurs tests. Avant de signer la mise en production, ils ont fait tester la même tâche à Claude 3.5 Sonnet avec un bon system prompt et trois exemples few-shot. Résultat : 89 %. Le projet de fine-tuning est parti à la poubelle. Ce n'est pas une mauvaise prestation — c'est une mauvaise grille de décision. Voici quand fine-tuner vaut vraiment le coup, et quand c'est jeter de l'argent par les fenêtres.

Le malentendu fondamental sur le fine-tuning

Le fine-tuning a une réputation magique : « il connaît votre domaine, il est rapide, il est moins cher à l'inférence ». Les trois affirmations sont vraies isolément, fausses en pratique pour 80 % des projets B2B.

Pourquoi ? Parce que la comparaison correcte n'est pas « Llama fine-tuné vs Llama brut ». C'est « Llama fine-tuné vs Claude/GPT-4 prompté avec un effort équivalent ». Et un effort équivalent côté prompting, c'est : un system prompt soigné, du few-shot, du RAG, du prompt caching. Pas trois lignes balancées dans la console.

Quand on compare ce qui est comparable, voici ce qu'on observe sur 11 projets clients audités en 2026 :

CritèreFine-tuning Llama 7BPrompting Claude 3.5 + RAG
Coût initial15–80 k€0,5–3 k€
Temps de mise en prod6–12 semaines1–2 semaines
Précision moyenne78 %87 %
Latence p95200–600 ms800–2 500 ms
Coût / 1k requêtes0,15 €1,80 €
Mise à jour du domaineRéentraînementUpdate RAG (1h)

Le fine-tuning gagne sur deux dimensions : latence et coût marginal d'inférence. Tout le reste plaide pour le prompting bien fait.

Le piège marketing : les benchmarks publiés montrent toujours « Llama fine-tuné » contre « Llama brut ». Ils ne montrent jamais « Llama fine-tuné » contre « Claude bien prompté ». Faites toujours cette comparaison-là vous-même avant de décider.

La formule ROI en deux lignes

Avant de partir dans 50 pages de calcul, voici l'équation qu'on utilise en première analyse chez nos clients :

Volume mensuel × (Coût/req prompting − Coût/req fine-tune)
                      vs
Coût initial fine-tune + Coût infra mensuelle × 24 mois

Le « 24 mois » est crucial : c'est l'horizon de vie d'un fine-tune avant que le modèle de base soit obsolète et qu'il faille tout refaire. Llama 3 a duré 14 mois avant Llama 4. Mistral pareil. Comptez deux ans grand maximum.

Les paramètres concrets en 2026 :

ParamètreValeur typique
Coût/1k tokens Claude 3.5 Sonnetinput 3 $ / output 15 $
Coût/1k tokens Claude prompt-cachéinput 0,30 $ / output 15 $
Coût/1k tokens GPT-4oinput 2,50 $ / output 10 $
Coût/1k tokens Llama 7B sur GPU dédié0,05 € (amortissement infra)
Coût mensuel GPU L40S (inférence Llama 7B)800–1 400 €/mois
Coût d'entraînement LoRA Llama 7B8–25 k€ (data + ML eng)

Exemple à 100k requêtes/mois (1k tokens chacune en moyenne) :

  • Prompting Claude prompt-caché : 100 k × 1 800 € = 1 800 €/mois
  • Fine-tuning Llama 7B : 800 €/mois infra + 25 k€ amortis sur 24 mois = 1 850 €/mois

À 100k requêtes/mois, c'est équivalent. À 500k requêtes/mois, le fine-tuning économise 6 000 €/mois. À 30k requêtes/mois, le prompting est moins cher de 1 000 €/mois — et largement plus précis.

Avant de signer un fine-tuning, calculez votre seuil de bascule. Pour la plupart des projets B2B internes, vous êtes très loin du seuil. Pour un produit grand public à 1M requêtes/mois, le calcul change.

LoRA vs full fine-tuning : ne payez jamais le prix fort

Quand le fine-tuning est justifié, il reste une décision : full fine-tuning (réentraîner tous les poids) ou LoRA (adapter quelques milliers de paramètres seulement). En 2026, la réponse est presque toujours LoRA :

CritèreFull fine-tuningLoRA
Coût compute100 %1–3 %
Mémoire GPU requise80 Go (A100/H100)24 Go (L40S, 4090)
Temps d'entraînement12–48 h1–4 h
Qualité finaleRéférence-1 à -3 points
Stockage par version14 Go (Llama 7B)60–200 Mo

Pour une perte de qualité quasi nulle, vous divisez le coût par 30 à 100. Le seul cas où le full fine-tuning se justifie : domaine extrêmement spécialisé (médical pointu, juridique exotique) avec plus de 100 000 exemples annotés. Sinon : LoRA, point final.

Quand fine-tuner gagne vraiment : la matrice de décision

Matrice fine-tuning vs prompting

La décision dépend de deux axes : le volume mensuel de requêtes et la spécificité du domaine. Combinés, ils découpent quatre quadrants — chaque quadrant a sa stratégie.

Quadrant haut-droit : fine-tuning justifié

C'est le seul quadrant où le fine-tuning gagne sans débat. Conditions cumulatives :

  1. Volume > 500k requêtes/mois stable sur 12+ mois
  2. Domaine très spécifique : vocabulaire métier dense, formats de sortie stricts, terminologie absente d'internet (codes médicaux internes, nomenclature interne, langage juridique très local)
  3. Latence critique (< 300 ms) — typique des assistants temps réel intégrés
  4. Données d'entraînement disponibles : minimum 5 000 exemples annotés de qualité

Exemple typique : extraction structurée de comptes-rendus médicaux pour un éditeur logiciel hospitalier. 2 millions de documents/mois, 47 champs à extraire avec un format strict, terminologie CIM-10 et nomenclature interne. Llama 7B fine-tuné en LoRA bat Claude prompté de 11 points de précision et coûte 6× moins cher à l'inférence.

Quadrant haut-gauche : RAG spécialisé, pas fine-tuning

Volume modéré (< 100k/mois) mais domaine pointu. Ici, le réflexe « fine-tunons » est cher pour rien. La bonne réponse :

  • System prompt riche (1 500–3 000 tokens, cachable)
  • Few-shot dynamique (3–5 exemples sélectionnés via RAG)
  • RAG sur la base de connaissances métier
  • Output structuré contraint (JSON schema)

Exemple : assistant juridique pour un cabinet de 30 avocats. 8 000 requêtes/mois sur du droit fiscal très pointu. Avec un bon RAG sur la jurisprudence interne et un system prompt rédigé par un avocat sénior, Claude prompté atteint 91 % de précision pour 280 €/mois. Un fine-tuning aurait coûté 35 k€ pour atteindre 86 %.

Quadrant bas-droit : prompt caching + RAG

Gros volume mais domaine généraliste. Le piège : le coût par requête semble élevé et on est tenté de fine-tuner pour économiser. Le prompt caching (5 minutes de TTL chez Anthropic, 1h chez OpenAI à venir) divise le coût d'input par 10. Combiné avec un RAG bien câblé, on reste 3–5× plus cher au token qu'un Llama maison, mais sans coût de maintenance, sans GPU à provisionner, sans dette technique.

Pour un agent de support produit à 800k requêtes/mois, le calcul donne :

SetupCoût/moisPrécisionTime-to-prod
Claude + caching + RAG3 800 €88 %2 semaines
Llama 13B fine-tuné2 200 €82 %10 semaines
GPT-4o-mini + RAG1 100 €84 %2 semaines

GPT-4o-mini ou Claude Haiku 4.5 prompté gagne en time-to-prod et en simplicité opérationnelle. La différence de 1 600 €/mois ne compense pas un projet de 10 semaines + maintenance.

Quadrant bas-gauche : Claude/GPT direct, pas de RAG

Volume faible, domaine généraliste. Toute optimisation ici est de la sur-ingénierie. Un system prompt bien écrit suffit. Coût mensuel typique : 50–500 €. Pas de RAG, pas de fine-tune, pas de framework.

Les pièges qu'on voit dans les audits

Piège 1 : les coûts cachés du fine-tuning

Le devis de fine-tuning montre 25 k€. La réalité sur 12 mois :

PosteCoût annuel
Entraînement initial25 000 €
Infrastructure GPU (L40S 24/7)14 400 €
Réentraînement trimestriel (drift)12 000 €
Monitoring + eval6 000 €
ML engineer dédié (20 % temps)18 000 €
Total réel an 175 400 €

C'est ce qu'on appelle le « coût du fine-tune en année pleine ». Personne ne l'écrit dans la proposition commerciale.

Piège 2 : le drift de modèle

Un fine-tune capture l'état du domaine à l'instant T. Trois mois plus tard, votre catalogue produit a évolué, vos process ont changé, vos données aussi. La précision baisse de 2–4 points par trimestre sans intervention. À 12 mois, vous avez perdu 8–16 points si vous n'avez pas réentraîné.

Le RAG, lui, se met à jour en réindexant les nouveaux documents — 1 heure de calcul, 0 € de prestation.

Piège 3 : la latence fantôme

« Llama 7B local répond en 200 ms, Claude répond en 1,2 s, donc on prend Llama. » Sauf que dans 80 % des cas applicatifs B2B, l'utilisateur ne perçoit pas la différence — l'agent est appelé en background, le streaming masque la latence, l'utilisateur lit pendant que le LLM finit. Validez sur un prototype avant d'en faire un argument décisif.

Le critère « latence » ne joue vraiment que sur du streaming voix temps réel, des assistants embarqués (mobile, IoT) ou des chaînes d'agents avec 5+ appels LLM en cascade. Sur du chat web classique, c'est une fausse priorité.

Piège 4 : le « lock-in » du modèle de base

Vous fine-tunez sur Llama 3 8B en mars 2025. En janvier 2026, Meta sort Llama 4 — meilleur sur tous les benchmarks. Vous ne pouvez pas en bénéficier sans refaire tout le fine-tune sur votre dataset. Coût : nouvelle prestation, nouveau cycle de validation, nouveau cycle d'eval.

Pendant ce temps, l'équipe restée sur Claude prompté a juste changé la version dans son code (claude-sonnet-4-5claude-sonnet-4-6) et bénéficie immédiatement des améliorations. Cette agilité a une valeur monétaire concrète, qu'on peut chiffrer : sur 24 mois, un fine-tune typique manque 2 à 3 améliorations majeures de modèle. Chaque amélioration vaut 3 à 8 points de précision sur les tâches généralistes.

Cas concret : trois projets, trois trajectoires

Trois clients récents avec des problématiques voisines (extraction structurée depuis documents) — décisions différentes, résultats mesurés à 6 mois :

ClientVolumeChoixCoût total 6 moisPrécisionVerdict
Éditeur juridique8k req/moisClaude prompté + RAG1 700 €89 %✅ Bon choix
ERP industrie60k req/moisGPT-4o-mini + few-shot5 400 €84 %✅ Bon choix
Plateforme RH800k req/moisLoRA Llama 7B38 000 €86 %✅ Bon choix

À 800k requêtes/mois, le fine-tune devient rentable. À 60k, c'est trop cher. À 8k, c'est absurde. Les seuils ne sont pas absolus mais l'ordre de grandeur l'est.

Ce qu'il faut retenir

Trois règles, dans cet ordre :

  1. Calculez votre volume avant de choisir. En dessous de 500k requêtes/mois stables, le fine-tuning est rarement rentable.
  2. Comparez ce qui est comparable. Llama fine-tuné contre Claude bien prompté avec RAG, jamais contre Llama brut.
  3. Multipliez le coût initial par 3. Entre infra, réentraînement et MLOps, le coût annuel réel d'un fine-tune dépasse largement le devis.

Pour aller plus loin :

  • Documentation Anthropic sur le prompt caching (réduction 10× du coût d'input)
  • Article Mistral sur LoRA vs full fine-tune (mêmes résultats à 1/100 du coût compute)
  • Benchmark MTEB pour comparer les modèles open-source spécialisés

Conclusion

Le fine-tuning n'est pas un mauvais outil — c'est juste le bon outil pour 10 % des projets B2B et le mauvais outil pour les 90 % restants. Avant de signer 40 k€ de prestation, demandez un test bench sur Claude prompté avec le même budget de design que vous mettriez sur le fine-tune. Dans les deux tiers des cas, le test règle la question en trois jours.

Patrice Huetz
Auteur

Patrice Huetz

Co-fondateur — IA & Logiciel

Site auteur
XLinkedIn