Évaluation continue et qualité IA — Hub IA Learning Center

⚡ L'essentiel à retenir en 90 secondes

L'eval pipeline distingue le projet IA amateur du projet IA production

1

Une eval pipeline distingue les projets IA amateurs des projets en production. C'est obligatoire dès que tu as une vraie utilisation. Coût d'entrée raisonnable (1-2 semaines de setup pour une PME), gain massif (détection précoce des dégradations, justification des changements de modèle, ROI mesurable).

2

La distinction clé : evals (avant déploiement) vs observabilité (après). Les evals répondent à « est-ce que la sortie est bonne ? » avec des datasets golden. L'observabilité (cf. la fiche Agents en production : observabilité) répond à « qu'est-ce qui se passe en prod en ce moment ? ». Les deux sont nécessaires et complémentaires.

3

3 types d'evals à combiner. (a) Evals règle-based (format JSON valide, longueur de réponse, mots-clés interdits) — rapides et déterministes. (b) Evals sémantiques (similarité avec réponse de référence) — pour fact-checking. (c) Evals LLM-as-judge (un LLM juge la qualité d'une autre sortie) — pour qualité narrative.

4

Sweet spot dataset golden PME : 50-200 cas. Suffit pour détecter les régressions majeures (gap > 5 %). Aller au-delà (1000+ cas) demande processus d'annotation industrialisé, généralement disproportionné en PME.

32 %

Qualité = blocker n°1 (LangChain 2026)

50-200 cas

Sweet spot dataset golden PME

80-90 %

Régressions détectées avant les utilisateurs

1-2 semaines

Délai de mise en place PME

Cette page est utile si…

Tu as un système IA en production sans eval pipeline et tu te poses la question
Tu changes régulièrement de modèle ou de prompt et tu veux savoir si ça améliore ou dégrade
Tu as eu des incidents qualité que tu n'avais pas anticipés
Tu veux convaincre ta direction du ROI d'une eval pipeline

1

Section 1

Pourquoi tu ne peux pas piloter sans evals

1.1 Les 4 questions auxquelles seule une eval pipeline répond

Est-ce que mon prompt v2 est meilleur que mon prompt v1 ? (Sans eval : impossible de savoir, on devine)
Est-ce que basculer de Claude Sonnet à Kimi K2.6 dégrade la qualité ? (Sans eval : pari aveugle)
Est-ce que mon RAG s'est dégradé après l'ajout de 1000 nouveaux documents ? (Sans eval : on découvre par les plaintes)
Est-ce que ma nouvelle fonctionnalité agent maintient le niveau qualité antérieur ? (Sans eval : on fait confiance)

1.2 Le cycle « prompt → eval → improve → repeat »

C'est le cycle de référence du LLMOps moderne (cf. la fiche Context engineering & coûts sur la gouvernance prompts) :

1

Prompt v1 — run sur le dataset golden → score initial

↓

2

Analyse des erreurs — identification des patterns récurrents de défaillance

↓

3

Prompt v2 — corrections appliquées, re-run sur golden → score actualisé

↓

4

Comparaison v2 vs v1 — on garde la version qui améliore le score, sinon retour à v1

→ Sans dataset golden et scoring automatique, ce cycle est impossible.

2

Section 2

Construire le dataset golden minimum

2.1 Le format type

Pour chaque cas du golden :

Input : le prompt utilisateur réel ou représentatif
Contexte (si applicable) : documents RAG, historique conversation
Expected output : la réponse idéale (ou les caractéristiques d'une bonne réponse)
Tags : catégorie de cas (facile/moyen/difficile, type de question, etc.)
Source : d'où vient le cas (utilisateur réel anonymisé, cas synthétique, edge case)

2.2 Les 4 sources de cas pour ton golden

Cas réels anonymisés : extraits de tes logs production (anonymise les PII). Reflète la distribution réelle des usages.
Cas edge : situations rares mais critiques (questions ambiguës, cas limites, erreurs typiques).
Cas adverses : prompts de stress test (jailbreak attempts, prompt injection, requêtes hors scope).
Cas synthétiques : générés par LLM puis revus humain — pour étendre la couverture.

2.3 Sweet spot PME : 50-200 cas

Volume	Niveau
< 30 cas	Insuffisant, statistiques non représentatives
30-50 cas	Minimum viable pour démarrer
50-200 cas	Sweet spot PME, équilibre coût annotation vs représentativité
200-1000 cas	Pour cas à fort enjeu, demande processus d'annotation industriel
> 1000 cas	Généralement proportionné aux ETI / scale-ups

3

Section 3

Les 3 types d'evals à combiner

3.1 Evals règle-based (rapides, déterministes)

Vérifications automatiques sans LLM :

Format : JSON valide selon schéma, XML conforme, longueur
Mots-clés : présence obligatoire, mots interdits (data leak, vulgarité)
Patterns regex : numéros au bon format, dates valides
Latence : temps de réponse sous SLA

→ Coût : quasi-nul. Vitesse : milliseconde. À automatiser systématiquement.

3.2 Evals sémantiques (similarity scoring)

Comparaison entre la sortie générée et une référence :

BLEU / ROUGE : métriques classiques (utiles mais imparfaites)
Embedding similarity : cosine similarity entre embedding de la sortie et de la référence
BERTScore : variante avancée

→ Coût : faible. Vitesse : 100ms-1s. Utile pour fact-checking et tâches structurées.

3.3 Evals LLM-as-judge (qualité narrative)

Un LLM juge la qualité d'une sortie d'un autre LLM, selon des critères définis :

Critères : précision, cohérence, ton, complétude, absence d'hallucination
Échelle : 1-5 ou 1-10, avec rationale obligatoire
Modèle juge : généralement plus puissant que le modèle évalué (ex : Claude Opus juge Claude Sonnet)

→ Coût : significatif (chaque eval = 1 appel LLM puissant). À utiliser parcimonieusement, en complément des règle-based.

3.4 Stratégie type PME

Règle-based sur 100 % des cas (rapide, gratuit)
Sémantique sur 100 % des cas où une référence existe (fact-checking)
LLM-as-judge sur 20-30 % des cas (échantillonnage qualité narrative, coût maîtrisé)

3.5 Définitions canoniques Anthropic (mai 2026)

Référentiel terminologique à adopter pour aligner le vocabulaire interne aux pratiques 2026 (Anthropic Engineering, « Demystifying evals for AI agents ») :

Terme	Définition
eval	Mesure quantifiable de la qualité d'une sortie ou d'une décision agent sur une tâche donnée
harness	Cadre d'exécution qui orchestre l'agent + les tools + les gates + les évaluations (cf. Context engineering §3bis — Du context au harness)
multi-turn evaluations	Évaluation sur une séquence d'échanges, pas seulement un appel unique
state-modifying agents	Agents qui modifient un état externe (fichier, DB, API) — évaluation = vérification de l'état post-action, pas seulement de la réponse

3.6 Heuristique « eval first, optimize second »

Construire les évaluations AVANT d'optimiser l'agent.

Pourquoi : sans baseline d'évaluation, toute optimisation est mesurée à l'aveugle. Les premiers gains paraissent grands (« ça marche mieux ») mais on découvre 6 mois plus tard que la qualité est restée stable, voire a régressé. Cette heuristique est l'équivalent qualité du « single LLM call d'abord » côté architecture (voir Cadrer un projet IA — Heuristique anti-hype).

3.7 Bruit infra vs régression modèle — comment distinguer

Source complémentaire : Anthropic « Quantifying infrastructure noise in agentic coding evals » (mai 2026).

Quand un eval baisse, deux causes possibles :

Régression modèle : le modèle de base a changé, ou le prompt a dérivé
Bruit infra : latence variable, indisponibilité ponctuelle d'un tool, instabilité de l'API

Méthode pour distinguer : répéter l'eval N fois sur le même input et mesurer la variance.

Variance haute → bruit infra (à corriger côté infra avant de modifier l'agent)
Variance basse mais score bas → régression réelle (à investiguer côté modèle/prompt)

🔗 Couples opérationnels : les gates TOML (Agents en production §8.2) sont un type d'eval mécanique exécuté à chaque sortie. Le failure receipt (§8.5) documente les échecs lorsqu'un eval n'a pas suffi. Eval = mesure du succès, failure receipt = forensique de l'échec.

4

Section 4

Outils d'évaluation 2026

4.1 Stack open-source self-hosted

Outil	Rôle	Notes
Phoenix Arize	Eval + tracing OSS, open-source	Référence open-source 2026
Langfuse	Eval + observabilité (cf. fiche Agents en production : observabilité)	Eval intégrée à l'observabilité
DeepEval	Bibliothèque Python eval pure	Bien pour tests automatisés CI
PromptBench (Microsoft)	Eval suite robustness	Pour stress test
Eleuther LM Eval Harness	Standard eval communauté open	Pour benchmarks modèles

4.2 Stack SaaS

Outil	Rôle	Coût typique PME
Comet Opik	Eval + observabilité (cf. fiche Observabilité)	Free tier puis ~50-200 €/mois
LangSmith	Eval intégrée à LangChain	~30-200 €/mois
Patronus AI	Eval enterprise spécialisé	Devis
Braintrust	Eval-first SaaS	Free tier puis variable

4.3 Recommandation pratique

Pour démarrer en PME : Phoenix Arize self-hosted + DeepEval pour tests CI. Stack gratuit, contrôle, EU.

Si manque de bandwidth ops : Comet Opik free tier + DeepEval pour CI.

5

Section 5

Mettre en place les regression checks

5.1 Le principe

À chaque modification (nouveau prompt, nouveau modèle, nouvelle pipeline RAG) : run automatique sur le golden + comparaison avec la baseline. Si dégradation > seuil défini → bloquer le déploiement.

5.2 Workflow type CI/CD pour LLM

Pour la phase production runtime, voir la fiche Agents en production : observabilité.

1

Modification (PR) — un développeur ouvre une pull request sur le code ou les prompts → déclenche le pipeline CI

↓

2

Run de l'eval golden — exécution automatique des 50-200 cas du dataset de référence

↓

3

Comparaison des scores — confrontation des résultats de la PR avec ceux de la branche main

↓

✗

Si dégradation > 5 % → blocage automatique du merge, retour développeur

✓

Si amélioration ou stabilité → autorisation du merge sur la branche principale

↓

4

Déploiement en production

↓

5

Monitoring en production — cf. la fiche Agents en production : observabilité

5.3 Outils CI/CD compatibles

GitHub Actions : runners gratuits pour OSS, payants à grand volume
GitLab CI : équivalent
Argo Workflows : pour pipelines plus complexes self-hosted

→ Setup PME : 1-3 jours pour wirer une PR avec un run d'eval automatique.

6

Section 6

A/B testing en production

6.1 Pourquoi A/B tester

Pour valider l'impact réel d'une amélioration sur les utilisateurs (vs amélioration mesurée sur le golden, qui peut être un overfitting).

6.2 Pattern type

50 % des sessions → variante A (baseline)
50 % des sessions → variante B (nouvelle)
Mesure des KPI : satisfaction explicite (👍/👎), conversion, drop-off, NPS
Durée minimum : 1-2 semaines pour signal statistique

6.3 Outils

LiteLLM gateway (cf. la fiche Inférence SaaS vs self-hosted) supporte le routage A/B nativement
Statsig, Eppo, Optimizely : plateformes A/B testing établies

7

Section 7

Plan d'action 30 jours pour une eval pipeline minimale

1

Jours 1-7 — Préparation

Identifier les cas d'usage à mesurer (le cas critique en priorité)
Construire le golden initial : 50 cas (mix réels anonymisés + edge cases)
Définir les KPI cibles (score précision, latence p95, coût/requête)

2

Jours 8-15 — Setup outillage

Choisir stack (Phoenix Arize self-hosted ou Comet Opik free tier)
Implémenter evals règle-based (format, mots-clés, patterns)
Implémenter evals sémantiques sur cas avec référence

3

Jours 16-23 — Intégration CI/CD

Wirer une PR à un run d'eval automatique
Définir seuil de blocage (ex : -5 % qualité = bloque le merge)
Communiquer le workflow à l'équipe

4

Jours 24-30 — LLM-as-judge échantillonné

Déployer LLM-as-judge sur 20 % des cas (qualité narrative)
Calibrer les prompts juges sur 10-20 cas annotés humain
Run quotidien automatique avec alerte sur dégradation

📚

Pour aller plus loin

📚 Bibliographie transverse : les ressources de fond (eval et observabilité LLM) sont centralisées sur la page Ressources → Bibliographie. Cette section ne liste que les ressources spécifiques à ce cadrage évaluation.

📰 Articles de fond

Avi Chawla — Eval & observability layersPilier 8 LLM Engineering Roadmap
Anthropic Engineering — Building evaluationsPratiques de référence
LangChain — State of Agent Engineering 2026Étude annuelle, qualité = blocker n°1
Anthropic Engineering — Demystifying evals for AI agentsMai 2026 — terminologie canonique (eval, harness, multi-turn, state-modifying) + heuristique « eval first »
Anthropic Engineering — Quantifying infrastructure noise in agentic coding evalsMai 2026 — méthode variance N runs pour distinguer bruit infra vs régression modèle

🎓 Tutoriels & cas pratiques

Phoenix Arize DocsEval + tracing open-source
DeepEval GitHubBibliothèque eval Python
PromptBench (Microsoft)Stress test prompts

📚 Documentation officielle & études

Comet Opik docsPratique eval + observabilité
LangSmith — Evaluation guideRéférence LangChain ecosystem
Eleuther LM Eval HarnessStandard communauté open

👥 Communautés & veille

Phoenix Arize SlackCommunauté open-source
LangChain DiscordÉchanges eval pratique