Retour à Déploiement
⭐⭐⭐⭐ Niveau 4 — Expert 🎯 Cadrage stratégique 20 min de lecture

✅ Évaluation continue et qualité IA

Tu ne peux pas piloter ce que tu ne mesures pas. Une eval pipeline, c'est ce qui distingue le projet IA amateur du projet IA production. Voici comment la construire en PME, sans être FAANG.

⚡ L'essentiel à retenir en 90 secondes

L'eval pipeline distingue le projet IA amateur du projet IA production

1

Une eval pipeline distingue les projets IA amateurs des projets en production. C'est obligatoire dès que tu as une vraie utilisation. Coût d'entrée raisonnable (1-2 semaines de setup pour une PME), gain massif (détection précoce des dégradations, justification des changements de modèle, ROI mesurable).

2

La distinction clé : evals (avant déploiement) vs observabilité (après). Les evals répondent à « est-ce que la sortie est bonne ? » avec des datasets golden. L'observabilité (cf. la fiche Agents en production : observabilité) répond à « qu'est-ce qui se passe en prod en ce moment ? ». Les deux sont nécessaires et complémentaires.

3

3 types d'evals à combiner. (a) Evals règle-based (format JSON valide, longueur de réponse, mots-clés interdits) — rapides et déterministes. (b) Evals sémantiques (similarité avec réponse de référence) — pour fact-checking. (c) Evals LLM-as-judge (un LLM juge la qualité d'une autre sortie) — pour qualité narrative.

4

Sweet spot dataset golden PME : 50-200 cas. Suffit pour détecter les régressions majeures (gap > 5 %). Aller au-delà (1000+ cas) demande processus d'annotation industrialisé, généralement disproportionné en PME.

32 %
Qualité = blocker n°1 (LangChain 2026)
50-200 cas
Sweet spot dataset golden PME
80-90 %
Régressions détectées avant les utilisateurs
1-2 semaines
Délai de mise en place PME

Cette page est utile si…

  • Tu as un système IA en production sans eval pipeline et tu te poses la question
  • Tu changes régulièrement de modèle ou de prompt et tu veux savoir si ça améliore ou dégrade
  • Tu as eu des incidents qualité que tu n'avais pas anticipés
  • Tu veux convaincre ta direction du ROI d'une eval pipeline
1
Section 1

Pourquoi tu ne peux pas piloter sans evals

1.1 Les 4 questions auxquelles seule une eval pipeline répond

  1. Est-ce que mon prompt v2 est meilleur que mon prompt v1 ? (Sans eval : impossible de savoir, on devine)
  2. Est-ce que basculer de Claude Sonnet à Kimi K2.6 dégrade la qualité ? (Sans eval : pari aveugle)
  3. Est-ce que mon RAG s'est dégradé après l'ajout de 1000 nouveaux documents ? (Sans eval : on découvre par les plaintes)
  4. Est-ce que ma nouvelle fonctionnalité agent maintient le niveau qualité antérieur ? (Sans eval : on fait confiance)

1.2 Le cycle « prompt → eval → improve → repeat »

C'est le cycle de référence du LLMOps moderne (cf. la fiche Context engineering & coûts sur la gouvernance prompts) :

1
Prompt v1 — run sur le dataset golden → score initial
2
Analyse des erreurs — identification des patterns récurrents de défaillance
3
Prompt v2 — corrections appliquées, re-run sur golden → score actualisé
4
Comparaison v2 vs v1 — on garde la version qui améliore le score, sinon retour à v1

→ Sans dataset golden et scoring automatique, ce cycle est impossible.

2
Section 2

Construire le dataset golden minimum

2.1 Le format type

Pour chaque cas du golden :

  • Input : le prompt utilisateur réel ou représentatif
  • Contexte (si applicable) : documents RAG, historique conversation
  • Expected output : la réponse idéale (ou les caractéristiques d'une bonne réponse)
  • Tags : catégorie de cas (facile/moyen/difficile, type de question, etc.)
  • Source : d'où vient le cas (utilisateur réel anonymisé, cas synthétique, edge case)

2.2 Les 4 sources de cas pour ton golden

  1. Cas réels anonymisés : extraits de tes logs production (anonymise les PII). Reflète la distribution réelle des usages.
  2. Cas edge : situations rares mais critiques (questions ambiguës, cas limites, erreurs typiques).
  3. Cas adverses : prompts de stress test (jailbreak attempts, prompt injection, requêtes hors scope).
  4. Cas synthétiques : générés par LLM puis revus humain — pour étendre la couverture.

2.3 Sweet spot PME : 50-200 cas

VolumeNiveau
< 30 casInsuffisant, statistiques non représentatives
30-50 casMinimum viable pour démarrer
50-200 casSweet spot PME, équilibre coût annotation vs représentativité
200-1000 casPour cas à fort enjeu, demande processus d'annotation industriel
> 1000 casGénéralement proportionné aux ETI / scale-ups
3
Section 3

Les 3 types d'evals à combiner

3.1 Evals règle-based (rapides, déterministes)

Vérifications automatiques sans LLM :

  • Format : JSON valide selon schéma, XML conforme, longueur
  • Mots-clés : présence obligatoire, mots interdits (data leak, vulgarité)
  • Patterns regex : numéros au bon format, dates valides
  • Latence : temps de réponse sous SLA

→ Coût : quasi-nul. Vitesse : milliseconde. À automatiser systématiquement.

3.2 Evals sémantiques (similarity scoring)

Comparaison entre la sortie générée et une référence :

  • BLEU / ROUGE : métriques classiques (utiles mais imparfaites)
  • Embedding similarity : cosine similarity entre embedding de la sortie et de la référence
  • BERTScore : variante avancée

→ Coût : faible. Vitesse : 100ms-1s. Utile pour fact-checking et tâches structurées.

3.3 Evals LLM-as-judge (qualité narrative)

Un LLM juge la qualité d'une sortie d'un autre LLM, selon des critères définis :

  • Critères : précision, cohérence, ton, complétude, absence d'hallucination
  • Échelle : 1-5 ou 1-10, avec rationale obligatoire
  • Modèle juge : généralement plus puissant que le modèle évalué (ex : Claude Opus juge Claude Sonnet)

→ Coût : significatif (chaque eval = 1 appel LLM puissant). À utiliser parcimonieusement, en complément des règle-based.

3.4 Stratégie type PME

  • Règle-based sur 100 % des cas (rapide, gratuit)
  • Sémantique sur 100 % des cas où une référence existe (fact-checking)
  • LLM-as-judge sur 20-30 % des cas (échantillonnage qualité narrative, coût maîtrisé)

3.5 Définitions canoniques Anthropic (mai 2026)

Référentiel terminologique à adopter pour aligner le vocabulaire interne aux pratiques 2026 (Anthropic Engineering, « Demystifying evals for AI agents ») :

Terme Définition
evalMesure quantifiable de la qualité d'une sortie ou d'une décision agent sur une tâche donnée
harnessCadre d'exécution qui orchestre l'agent + les tools + les gates + les évaluations (cf. Context engineering §3bis — Du context au harness)
multi-turn evaluationsÉvaluation sur une séquence d'échanges, pas seulement un appel unique
state-modifying agentsAgents qui modifient un état externe (fichier, DB, API) — évaluation = vérification de l'état post-action, pas seulement de la réponse

3.6 Heuristique « eval first, optimize second »

Construire les évaluations AVANT d'optimiser l'agent.

Pourquoi : sans baseline d'évaluation, toute optimisation est mesurée à l'aveugle. Les premiers gains paraissent grands (« ça marche mieux ») mais on découvre 6 mois plus tard que la qualité est restée stable, voire a régressé. Cette heuristique est l'équivalent qualité du « single LLM call d'abord » côté architecture (voir Cadrer un projet IA — Heuristique anti-hype).

3.7 Bruit infra vs régression modèle — comment distinguer

Source complémentaire : Anthropic « Quantifying infrastructure noise in agentic coding evals » (mai 2026).

Quand un eval baisse, deux causes possibles :

  1. Régression modèle : le modèle de base a changé, ou le prompt a dérivé
  2. Bruit infra : latence variable, indisponibilité ponctuelle d'un tool, instabilité de l'API

Méthode pour distinguer : répéter l'eval N fois sur le même input et mesurer la variance.

  • Variance haute → bruit infra (à corriger côté infra avant de modifier l'agent)
  • Variance basse mais score bas → régression réelle (à investiguer côté modèle/prompt)

🔗 Couples opérationnels : les gates TOML (Agents en production §8.2) sont un type d'eval mécanique exécuté à chaque sortie. Le failure receipt (§8.5) documente les échecs lorsqu'un eval n'a pas suffi. Eval = mesure du succès, failure receipt = forensique de l'échec.

4
Section 4

Outils d'évaluation 2026

4.1 Stack open-source self-hosted

OutilRôleNotes
Phoenix ArizeEval + tracing OSS, open-sourceRéférence open-source 2026
LangfuseEval + observabilité (cf. fiche Agents en production : observabilité)Eval intégrée à l'observabilité
DeepEvalBibliothèque Python eval pureBien pour tests automatisés CI
PromptBench (Microsoft)Eval suite robustnessPour stress test
Eleuther LM Eval HarnessStandard eval communauté openPour benchmarks modèles

4.2 Stack SaaS

OutilRôleCoût typique PME
Comet OpikEval + observabilité (cf. fiche Observabilité)Free tier puis ~50-200 €/mois
LangSmithEval intégrée à LangChain~30-200 €/mois
Patronus AIEval enterprise spécialiséDevis
BraintrustEval-first SaaSFree tier puis variable

4.3 Recommandation pratique

Pour démarrer en PME : Phoenix Arize self-hosted + DeepEval pour tests CI. Stack gratuit, contrôle, EU.

Si manque de bandwidth ops : Comet Opik free tier + DeepEval pour CI.

5
Section 5

Mettre en place les regression checks

5.1 Le principe

À chaque modification (nouveau prompt, nouveau modèle, nouvelle pipeline RAG) : run automatique sur le golden + comparaison avec la baseline. Si dégradation > seuil défini → bloquer le déploiement.

5.2 Workflow type CI/CD pour LLM

Pour la phase production runtime, voir la fiche Agents en production : observabilité.

1
Modification (PR) — un développeur ouvre une pull request sur le code ou les prompts → déclenche le pipeline CI
2
Run de l'eval golden — exécution automatique des 50-200 cas du dataset de référence
3
Comparaison des scores — confrontation des résultats de la PR avec ceux de la branche main
Si dégradation > 5 %blocage automatique du merge, retour développeur
Si amélioration ou stabilité → autorisation du merge sur la branche principale
4
Déploiement en production
5
Monitoring en production — cf. la fiche Agents en production : observabilité

5.3 Outils CI/CD compatibles

  • GitHub Actions : runners gratuits pour OSS, payants à grand volume
  • GitLab CI : équivalent
  • Argo Workflows : pour pipelines plus complexes self-hosted

→ Setup PME : 1-3 jours pour wirer une PR avec un run d'eval automatique.

6
Section 6

A/B testing en production

6.1 Pourquoi A/B tester

Pour valider l'impact réel d'une amélioration sur les utilisateurs (vs amélioration mesurée sur le golden, qui peut être un overfitting).

6.2 Pattern type

  • 50 % des sessions → variante A (baseline)
  • 50 % des sessions → variante B (nouvelle)
  • Mesure des KPI : satisfaction explicite (👍/👎), conversion, drop-off, NPS
  • Durée minimum : 1-2 semaines pour signal statistique

6.3 Outils

  • LiteLLM gateway (cf. la fiche Inférence SaaS vs self-hosted) supporte le routage A/B nativement
  • Statsig, Eppo, Optimizely : plateformes A/B testing établies
7
Section 7

Plan d'action 30 jours pour une eval pipeline minimale

1

Jours 1-7 — Préparation

  • Identifier les cas d'usage à mesurer (le cas critique en priorité)
  • Construire le golden initial : 50 cas (mix réels anonymisés + edge cases)
  • Définir les KPI cibles (score précision, latence p95, coût/requête)
2

Jours 8-15 — Setup outillage

  • Choisir stack (Phoenix Arize self-hosted ou Comet Opik free tier)
  • Implémenter evals règle-based (format, mots-clés, patterns)
  • Implémenter evals sémantiques sur cas avec référence
3

Jours 16-23 — Intégration CI/CD

  • Wirer une PR à un run d'eval automatique
  • Définir seuil de blocage (ex : -5 % qualité = bloque le merge)
  • Communiquer le workflow à l'équipe
4

Jours 24-30 — LLM-as-judge échantillonné

  • Déployer LLM-as-judge sur 20 % des cas (qualité narrative)
  • Calibrer les prompts juges sur 10-20 cas annotés humain
  • Run quotidien automatique avec alerte sur dégradation
📚

Pour aller plus loin

📚 Bibliographie transverse : les ressources de fond (eval et observabilité LLM) sont centralisées sur la page Ressources → Bibliographie. Cette section ne liste que les ressources spécifiques à ce cadrage évaluation.

📰 Articles de fond

🎓 Tutoriels & cas pratiques

📚 Documentation officielle & études

👥 Communautés & veille