L'eval pipeline distingue le projet IA amateur du projet IA production
Une eval pipeline distingue les projets IA amateurs des projets en production. C'est obligatoire dès que tu as une vraie utilisation. Coût d'entrée raisonnable (1-2 semaines de setup pour une PME), gain massif (détection précoce des dégradations, justification des changements de modèle, ROI mesurable).
La distinction clé : evals (avant déploiement) vs observabilité (après). Les evals répondent à « est-ce que la sortie est bonne ? » avec des datasets golden. L'observabilité (cf. la fiche Agents en production : observabilité) répond à « qu'est-ce qui se passe en prod en ce moment ? ». Les deux sont nécessaires et complémentaires.
3 types d'evals à combiner. (a) Evals règle-based (format JSON valide, longueur de réponse, mots-clés interdits) — rapides et déterministes. (b) Evals sémantiques (similarité avec réponse de référence) — pour fact-checking. (c) Evals LLM-as-judge (un LLM juge la qualité d'une autre sortie) — pour qualité narrative.
Sweet spot dataset golden PME : 50-200 cas. Suffit pour détecter les régressions majeures (gap > 5 %). Aller au-delà (1000+ cas) demande processus d'annotation industrialisé, généralement disproportionné en PME.
Cette page est utile si…
- Tu as un système IA en production sans eval pipeline et tu te poses la question
- Tu changes régulièrement de modèle ou de prompt et tu veux savoir si ça améliore ou dégrade
- Tu as eu des incidents qualité que tu n'avais pas anticipés
- Tu veux convaincre ta direction du ROI d'une eval pipeline
Pourquoi tu ne peux pas piloter sans evals
1.1 Les 4 questions auxquelles seule une eval pipeline répond
- Est-ce que mon prompt v2 est meilleur que mon prompt v1 ? (Sans eval : impossible de savoir, on devine)
- Est-ce que basculer de Claude Sonnet à Kimi K2.6 dégrade la qualité ? (Sans eval : pari aveugle)
- Est-ce que mon RAG s'est dégradé après l'ajout de 1000 nouveaux documents ? (Sans eval : on découvre par les plaintes)
- Est-ce que ma nouvelle fonctionnalité agent maintient le niveau qualité antérieur ? (Sans eval : on fait confiance)
1.2 Le cycle « prompt → eval → improve → repeat »
C'est le cycle de référence du LLMOps moderne (cf. la fiche Context engineering & coûts sur la gouvernance prompts) :
→ Sans dataset golden et scoring automatique, ce cycle est impossible.
Construire le dataset golden minimum
2.1 Le format type
Pour chaque cas du golden :
- Input : le prompt utilisateur réel ou représentatif
- Contexte (si applicable) : documents RAG, historique conversation
- Expected output : la réponse idéale (ou les caractéristiques d'une bonne réponse)
- Tags : catégorie de cas (facile/moyen/difficile, type de question, etc.)
- Source : d'où vient le cas (utilisateur réel anonymisé, cas synthétique, edge case)
2.2 Les 4 sources de cas pour ton golden
- Cas réels anonymisés : extraits de tes logs production (anonymise les PII). Reflète la distribution réelle des usages.
- Cas edge : situations rares mais critiques (questions ambiguës, cas limites, erreurs typiques).
- Cas adverses : prompts de stress test (jailbreak attempts, prompt injection, requêtes hors scope).
- Cas synthétiques : générés par LLM puis revus humain — pour étendre la couverture.
2.3 Sweet spot PME : 50-200 cas
| Volume | Niveau |
|---|---|
| < 30 cas | Insuffisant, statistiques non représentatives |
| 30-50 cas | Minimum viable pour démarrer |
| 50-200 cas | Sweet spot PME, équilibre coût annotation vs représentativité |
| 200-1000 cas | Pour cas à fort enjeu, demande processus d'annotation industriel |
| > 1000 cas | Généralement proportionné aux ETI / scale-ups |
Les 3 types d'evals à combiner
3.1 Evals règle-based (rapides, déterministes)
Vérifications automatiques sans LLM :
- Format : JSON valide selon schéma, XML conforme, longueur
- Mots-clés : présence obligatoire, mots interdits (data leak, vulgarité)
- Patterns regex : numéros au bon format, dates valides
- Latence : temps de réponse sous SLA
→ Coût : quasi-nul. Vitesse : milliseconde. À automatiser systématiquement.
3.2 Evals sémantiques (similarity scoring)
Comparaison entre la sortie générée et une référence :
- BLEU / ROUGE : métriques classiques (utiles mais imparfaites)
- Embedding similarity : cosine similarity entre embedding de la sortie et de la référence
- BERTScore : variante avancée
→ Coût : faible. Vitesse : 100ms-1s. Utile pour fact-checking et tâches structurées.
3.3 Evals LLM-as-judge (qualité narrative)
Un LLM juge la qualité d'une sortie d'un autre LLM, selon des critères définis :
- Critères : précision, cohérence, ton, complétude, absence d'hallucination
- Échelle : 1-5 ou 1-10, avec rationale obligatoire
- Modèle juge : généralement plus puissant que le modèle évalué (ex : Claude Opus juge Claude Sonnet)
→ Coût : significatif (chaque eval = 1 appel LLM puissant). À utiliser parcimonieusement, en complément des règle-based.
3.4 Stratégie type PME
- Règle-based sur 100 % des cas (rapide, gratuit)
- Sémantique sur 100 % des cas où une référence existe (fact-checking)
- LLM-as-judge sur 20-30 % des cas (échantillonnage qualité narrative, coût maîtrisé)
3.5 Définitions canoniques Anthropic (mai 2026)
Référentiel terminologique à adopter pour aligner le vocabulaire interne aux pratiques 2026 (Anthropic Engineering, « Demystifying evals for AI agents ») :
| Terme | Définition |
|---|---|
| eval | Mesure quantifiable de la qualité d'une sortie ou d'une décision agent sur une tâche donnée |
| harness | Cadre d'exécution qui orchestre l'agent + les tools + les gates + les évaluations (cf. Context engineering §3bis — Du context au harness) |
| multi-turn evaluations | Évaluation sur une séquence d'échanges, pas seulement un appel unique |
| state-modifying agents | Agents qui modifient un état externe (fichier, DB, API) — évaluation = vérification de l'état post-action, pas seulement de la réponse |
3.6 Heuristique « eval first, optimize second »
Construire les évaluations AVANT d'optimiser l'agent.
Pourquoi : sans baseline d'évaluation, toute optimisation est mesurée à l'aveugle. Les premiers gains paraissent grands (« ça marche mieux ») mais on découvre 6 mois plus tard que la qualité est restée stable, voire a régressé. Cette heuristique est l'équivalent qualité du « single LLM call d'abord » côté architecture (voir Cadrer un projet IA — Heuristique anti-hype).
3.7 Bruit infra vs régression modèle — comment distinguer
Source complémentaire : Anthropic « Quantifying infrastructure noise in agentic coding evals » (mai 2026).
Quand un eval baisse, deux causes possibles :
- Régression modèle : le modèle de base a changé, ou le prompt a dérivé
- Bruit infra : latence variable, indisponibilité ponctuelle d'un tool, instabilité de l'API
Méthode pour distinguer : répéter l'eval N fois sur le même input et mesurer la variance.
- Variance haute → bruit infra (à corriger côté infra avant de modifier l'agent)
- Variance basse mais score bas → régression réelle (à investiguer côté modèle/prompt)
🔗 Couples opérationnels : les gates TOML (Agents en production §8.2) sont un type d'eval mécanique exécuté à chaque sortie. Le failure receipt (§8.5) documente les échecs lorsqu'un eval n'a pas suffi. Eval = mesure du succès, failure receipt = forensique de l'échec.
Outils d'évaluation 2026
4.1 Stack open-source self-hosted
| Outil | Rôle | Notes |
|---|---|---|
| Phoenix Arize | Eval + tracing OSS, open-source | Référence open-source 2026 |
| Langfuse | Eval + observabilité (cf. fiche Agents en production : observabilité) | Eval intégrée à l'observabilité |
| DeepEval | Bibliothèque Python eval pure | Bien pour tests automatisés CI |
| PromptBench (Microsoft) | Eval suite robustness | Pour stress test |
| Eleuther LM Eval Harness | Standard eval communauté open | Pour benchmarks modèles |
4.2 Stack SaaS
| Outil | Rôle | Coût typique PME |
|---|---|---|
| Comet Opik | Eval + observabilité (cf. fiche Observabilité) | Free tier puis ~50-200 €/mois |
| LangSmith | Eval intégrée à LangChain | ~30-200 €/mois |
| Patronus AI | Eval enterprise spécialisé | Devis |
| Braintrust | Eval-first SaaS | Free tier puis variable |
4.3 Recommandation pratique
Pour démarrer en PME : Phoenix Arize self-hosted + DeepEval pour tests CI. Stack gratuit, contrôle, EU.
Si manque de bandwidth ops : Comet Opik free tier + DeepEval pour CI.
Mettre en place les regression checks
5.1 Le principe
À chaque modification (nouveau prompt, nouveau modèle, nouvelle pipeline RAG) : run automatique sur le golden + comparaison avec la baseline. Si dégradation > seuil défini → bloquer le déploiement.
5.2 Workflow type CI/CD pour LLM
Pour la phase production runtime, voir la fiche Agents en production : observabilité.
main5.3 Outils CI/CD compatibles
- GitHub Actions : runners gratuits pour OSS, payants à grand volume
- GitLab CI : équivalent
- Argo Workflows : pour pipelines plus complexes self-hosted
→ Setup PME : 1-3 jours pour wirer une PR avec un run d'eval automatique.
A/B testing en production
6.1 Pourquoi A/B tester
Pour valider l'impact réel d'une amélioration sur les utilisateurs (vs amélioration mesurée sur le golden, qui peut être un overfitting).
6.2 Pattern type
- 50 % des sessions → variante A (baseline)
- 50 % des sessions → variante B (nouvelle)
- Mesure des KPI : satisfaction explicite (👍/👎), conversion, drop-off, NPS
- Durée minimum : 1-2 semaines pour signal statistique
6.3 Outils
- LiteLLM gateway (cf. la fiche Inférence SaaS vs self-hosted) supporte le routage A/B nativement
- Statsig, Eppo, Optimizely : plateformes A/B testing établies
Plan d'action 30 jours pour une eval pipeline minimale
Jours 1-7 — Préparation
- Identifier les cas d'usage à mesurer (le cas critique en priorité)
- Construire le golden initial : 50 cas (mix réels anonymisés + edge cases)
- Définir les KPI cibles (score précision, latence p95, coût/requête)
Jours 8-15 — Setup outillage
- Choisir stack (Phoenix Arize self-hosted ou Comet Opik free tier)
- Implémenter evals règle-based (format, mots-clés, patterns)
- Implémenter evals sémantiques sur cas avec référence
Jours 16-23 — Intégration CI/CD
- Wirer une PR à un run d'eval automatique
- Définir seuil de blocage (ex : -5 % qualité = bloque le merge)
- Communiquer le workflow à l'équipe
Jours 24-30 — LLM-as-judge échantillonné
- Déployer LLM-as-judge sur 20 % des cas (qualité narrative)
- Calibrer les prompts juges sur 10-20 cas annotés humain
- Run quotidien automatique avec alerte sur dégradation
Pour aller plus loin
📚 Bibliographie transverse : les ressources de fond (eval et observabilité LLM) sont centralisées sur la page Ressources → Bibliographie. Cette section ne liste que les ressources spécifiques à ce cadrage évaluation.