Pourquoi cette page ?
Le choix d'architecture IA conditionne la faisabilité d'un cas d'usage autant que le cas d'usage lui-même. Un même besoin métier (par exemple un agent IA qui traite des CV candidats) peut être impossible en SaaS propriétaire (RGPD strict + AI Act haut risque) mais parfaitement réalisable sur une stack open-source hébergée en cloud souverain. Cette page documente les 4 patterns canoniques + l'hybride pour t'aider à choisir.
Pourquoi le choix d'architecture conditionne la faisabilité
La majorité des contenus IA pour PME / ETI parle « d'outils » (Claude, GPT, Mistral) ou « de cas d'usage » (extraction factures, RAG, voicebot). Ces deux dimensions sont nécessaires mais pas suffisantes. Entre les deux, il y a une dimension structurante : le pattern d'architecture choisi pour héberger le modèle et orchestrer les flux de données.
Plusieurs familles de cas d'usage illustrent cette dépendance :
- RH (tri de CV, entretiens) : usage haut risque au sens AI Act → architecture A2/A3/A4 obligatoire, A1 déconseillée fortement
- Conformité RGPD & AI Act : recense les usages où la souveraineté EU est non négociable
- Finance & comptabilité : factures fournisseurs avec données personnelles → A2/A3 recommandé, A1 sous condition stricte
- Workflows email / CRM clients : flux mixtes → souvent hybride (A1 pour FAQ génériques, A3 pour données client sensibles)
Cette page documente les 4 patterns canoniques + l'hybride. Pour chaque pattern : description, quand l'utiliser, quand l'éviter, exemples d'outils, implications souveraineté/coût/complexité, modules CU compatibles ou incompatibles.
Pattern A1 — SaaS propriétaire (cloud public)
☁️ SaaS propriétaire en cloud public
L'accès direct au modèle propriétaire via l'API ou l'interface du fournisseur, hébergé sur son cloud public mondial.
Exemples typiques
- ChatGPT via API OpenAI ou interface chat.openai.com
- Claude via API Anthropic ou claude.ai
- Gemini via API Google AI Studio ou gemini.google.com
- Le Chat de Mistral via le Mistral cloud EU (cas particulier : modèle propriétaire mais éditeur EU)
- Outils SaaS productivité avec IA intégrée : Notion AI, Slack AI, Microsoft 365 Copilot grand public
✅ Quand l'utiliser
- Données non sensibles ou publiques (recherche augmentée, brainstorming, idéation, rédaction de contenu marketing public)
- Usages individuels où l'employeur a établi une charte d'usage explicite
- Prototypes et POC pour valider rapidement un cas d'usage avant industrialisation
- Tâches sans engagement contractuel ou réglementaire fort
- Time-to-value critique où la souveraineté n'est pas un blocker
❌ Quand l'éviter
- Données personnelles à risque (santé, RH, mineurs, données sensibles RGPD article 9)
- Données stratégiques de l'entreprise (BP, propriété intellectuelle, contrats, R&D, données financières)
- Usages haut risque AI Act (recrutement, crédit, infrastructures critiques, services publics)
- Secteurs régulés (banque, assurance, défense, énergie critique)
- Toute organisation avec exigence de conformité RGPD / AI Act renforcée pour ses clients ou partenaires
⚠️ Risques principaux
- Transferts hors UE : la majorité des fournisseurs SaaS US n'offrent pas de garantie effective de localisation EU
- Persistance dans les modèles : selon les CGU, les contenus utilisateurs peuvent alimenter l'entraînement des futurs modèles (à vérifier au cas par cas, certains plans Enterprise désactivent cette persistance)
- Vendor lock-in : dépendance forte à un fournisseur qui peut changer ses tarifs, ses CGU ou cesser le service
- Shadow AI invisible : sans politique d'usage explicite, les collaborateurs utilisent souvent des comptes personnels qui exposent l'organisation
Coût indicatif
- Plan grand public : 0 à 30 €/mois/utilisateur (Claude Pro 18 €, ChatGPT Plus 20 €)
- API usage : ~0,01 à 0,10 € pour 1k tokens selon modèle. Coût mensuel typique PME : 50 à 500 € selon volume
- Plans Enterprise : 25-60 €/mois/utilisateur pour des garanties contractuelles renforcées (no-training, audit, SLA)
Pattern A2 — Propriétaire managé (cloud privé / data residency)
🏢 Propriétaire hébergé en cloud privé / managé
Le modèle reste propriétaire (Anthropic, OpenAI, Cohere, etc.) mais est déployé dans un environnement cloud sous contrôle du client, avec data residency garantie (souvent EU).
Exemples typiques
- AWS Bedrock : Anthropic Claude, Cohere, AI21, Stability hébergés sur ton tenant AWS, région EU disponible (Paris ou Francfort)
- Azure OpenAI Service : OpenAI GPT-4/5 hébergés sur Azure, région EU (Suède, France)
- Google Vertex AI : Gemini hébergé sur GCP, région EU disponible
- Anthropic Claude on Vertex AI et Cohere on Vertex AI : combinaisons hybrides
- OpenAI Enterprise avec engagement no-training et data residency EU
✅ Quand l'utiliser
- Données personnelles RGPD à risque modéré nécessitant une data residency EU
- Secteurs avec exigences réglementaires moyennes (services B2B, e-commerce, services pros)
- Organisations déjà engagées sur AWS / Azure / GCP pour leur SI général (intégration native, contrats consolidés)
- Volumes industriels où la qualité du modèle propriétaire est critique mais où la souveraineté est aussi exigée
- Cas où la qualité frontière (Claude Opus 4.6, GPT-5.4) est nécessaire mais où le SaaS public direct est jugé trop exposé
❌ Quand l'éviter
- Souveraineté EU stricte exigée (les clouds hyperscalers restent juridiquement US, exposés au CLOUD Act)
- Très petites structures (TPE) sans compte cloud existant — le setup initial peut peser
- Cas où un modèle open-source mature suffit — l'investissement A2 est alors disproportionné
⚠️ Subtilité « souveraineté »
A2 offre une data residency contrôlée (les données restent en EU pendant le traitement) mais pas une souveraineté juridique complète : AWS, Azure, GCP sont des entités US soumises au CLOUD Act, qui peut théoriquement contraindre la divulgation de données à des autorités US même si les données sont stockées en EU. Pour les données vraiment stratégiques, A3 ou A4 sont préférables. Pour les données « simplement RGPD », A2 est une réponse pragmatique.
Coût indicatif
- Modèle de tarification au token, équivalent au SaaS direct mais avec un overhead infrastructure (~10-20 % de surcoût)
- Coût initial setup compte cloud / VPC : ~5-15 K€ si pas déjà en place
- Coût récurrent typique PME/ETI : 200-2 000 €/mois selon volume
Pattern A3 — Open-source / open-weight cloud souverain
🇪🇺 Open-source / open-weight hébergé en cloud souverain EU
Modèles à poids ouverts (Mistral, Lucie, Pleias, Llama) hébergés sur des clouds européens souverains (OVHcloud, Scaleway, Outscale, Numspot). Souveraineté juridique EU + auditabilité du modèle.
Exemples typiques
- Mistral Cloud EU : Mistral Large 2, Codestral, Voxtral hébergés en région EU par Mistral AI directement
- Lucie / OpenLLM-France via OVHcloud, Scaleway ou Outscale
- Pleias-RAG hébergé sur infrastructure souveraine EU pour les usages juridique / compliance
- Llama 3.x / Mixtral auto-hébergés sur OVHcloud / Scaleway avec instances GPU
- Mistral Forge pour fine-tuning souverain sur dataset propriétaire
- Hugging Face Inference Endpoints en région EU pour des modèles open-weight précis
✅ Quand l'utiliser
- Données personnelles sensibles avec exigence souveraineté EU forte
- Données stratégiques de l'entreprise (BP, propriété intellectuelle, contrats stratégiques)
- Secteurs régulés (banque, assurance, santé en mode externalisé contrôlé)
- Organisations qui veulent un message clair vers leurs clients sur la souveraineté
- Cas où la qualité d'un modèle open-source mature (Mistral Large 2, Llama 3.3) est suffisante (en pratique : 80-90 % des cas PME/ETI)
- Préparation à une éventuelle bascule vers A4 (on-premise) à terme
❌ Quand l'éviter
- TPE sans compétence DevOps ni budget pour un setup intégration
- Cas où la qualité frontière (Claude Opus 4.6, GPT-5.4) est strictement nécessaire — les open-source EU restent compétitifs mais pas systématiquement frontière
- Time-to-value critique < 1 mois — préférer un POC en A1 puis bascule vers A3 une fois validé
💡 Avantage différenciant
A3 offre la combinaison rare de la souveraineté EU juridique forte (cloud non soumis au CLOUD Act) ET de l'auditabilité du modèle (poids ouverts inspectables). Pour les organisations qui doivent à la fois respecter le RGPD strict et démontrer une maîtrise de leur stack IA, c'est le compromis le plus pragmatique en 2026.
Coût indicatif
- API Mistral Cloud EU : ~0,002 à 0,008 € / 1k tokens (compétitif avec OpenAI)
- Infrastructure GPU sur OVHcloud / Scaleway pour auto-hébergement open-weight : ~80-300 €/mois pour un déploiement TPE/PME (modèle moyen, charge modeste)
- Coût initial setup : 5-20 K€ selon ambition (PoC vs déploiement industriel)
- Hugging Face Inference Endpoints EU : tarification à l'heure GPU + bande passante
Pattern A4 — Open-source on-premise / local
🔒 Open-source on-premise / déploiement local
Modèles open-source/open-weight déployés sur infrastructure cliente : data centers internes, GPU on-premise, edge devices. Aucune donnée ne sort de l'organisation.
Exemples typiques
- Lucie / Mistral / Llama / Mixtral auto-hébergés sur GPU internes (NVIDIA H100, A100, ou stations DGX)
- Ollama + llama.cpp pour des déploiements légers (modèles 7B-13B sur stations de travail)
- vLLM ou TGI (Text Generation Inference) pour des déploiements industriels
- LightOn Paradigm en mode on-premise pour grandes administrations
- Edge AI sur appareils embarqués (NVIDIA Jetson, smartphones, IoT industriel)
✅ Quand l'utiliser
- Données ultra-stratégiques où aucune sortie de l'organisation n'est tolérable (défense, santé sensible, R&D protégée)
- Réglementations sectorielles strictes (OIV, OSE, secteurs à exigences nationales spécifiques)
- Volumes très importants où l'amortissement du hardware devient économiquement supérieur au cloud (millions de requêtes/jour)
- Cas d'usage avec contraintes de latence ultra-critique (edge industriel, robotique)
- Capacité à mobiliser une équipe DevOps / MLOps interne ou via prestataire dédié
❌ Quand l'éviter
- TPE / PME sans compétence DevOps interne ni budget setup ≥ 50 K€
- Cas d'usage où A3 (cloud souverain EU) suffit — éviter le sur-engagement
- Volumes faibles à moyens où le coût d'amortissement hardware ne se justifie pas
- Organisations qui privilégient l'agilité (mises à jour régulières des modèles) — A4 demande une discipline d'évolution lourde
⚠️ Coûts cachés à anticiper
- Hardware GPU : 30-150 K€ pour une station ou serveur GPU industriel adapté
- MLOps : 0,5 à 1 ETP pour assurer le run, les mises à jour, le monitoring
- Énergie : 1-3 K€/mois selon la charge (impact carbone à documenter)
- Mises à jour modèles : un nouveau modèle open-source majeur sort tous les 3-6 mois — réinstallation, fine-tuning, validation
- Sécurité physique et logique : si on choisit on-premise, c'est aussi parce qu'on prend en charge la sécurité de bout en bout
Pattern transverse — Hybride
🎭 Architecture hybride : panacher selon la sensibilité du flux
Combiner plusieurs patterns dans un même système, en orientant chaque flux vers l'architecture adaptée à sa sensibilité. Le pattern le plus fréquent en réalité opérationnelle.
Pattern type
Une PME / ETI typique en 2026 a souvent une stack hybride même sans s'en rendre compte :
- Les collaborateurs utilisent ChatGPT / Claude grand public pour des usages individuels (pattern A1, recherche augmentée, reformulation)
- L'équipe technique utilise Mistral Cloud EU pour les agents IA traitant des données client (pattern A3)
- Les cas d'usage haut risque (RH, finance) utilisent AWS Bedrock avec data residency EU (pattern A2)
- Le cas d'usage stratégique (R&D protégée) tourne sur Mistral self-hosted en on-premise (pattern A4)
Pourquoi c'est rationnel
Forcer un seul pattern pour tous les usages = inefficacité économique et organisationnelle. Tout passer en A4 coûterait une fortune et ralentirait massivement les cas d'usage légers. Tout passer en A1 exposerait l'organisation sur ses cas critiques. Le bon design est orienté flux : chaque cas d'usage est analysé pour sa sensibilité, et la stack est calibrée en conséquence.
Discipline à inscrire
- Politique IA documentée qui précise quel pattern utiliser pour quel type de données (cartographie des usages, classification de sensibilité, dispositif RGPD/AI Act)
- Cartographie Shadow AI pour identifier les usages individuels A1 et les encadrer
- Choix technologiques convergents : essayer de limiter à 2-3 patterns max pour éviter la complexité de maintenance
- Mise à jour régulière de la cartographie : les usages évoluent, les contraintes aussi
Anti-patterns hybrides
- « Cloud-first sans réflexion » : tout pousser en A1 par défaut sans cartographier la sensibilité = exposition silencieuse
- « Souverain partout » : tout en A3/A4 même pour usages anodins = sur-coût et lenteur de déploiement
- « Patchwork ingérable » : utiliser 5 patterns différents avec 8 fournisseurs = dette technique massive
Tableau comparatif synthétique
| Critère | A1 SaaS | A2 Managé | A3 OS souverain | A4 On-premise |
|---|---|---|---|---|
| Souveraineté juridique | 🔴 Faible | 🟡 Moyenne (CLOUD Act) | 🟢 EU forte | 🟢 Maximale |
| Complexité de mise en œuvre | 🟢 Plug & play | 🟡 Setup léger | 🟠 Intégration | 🔴 Projet lourd |
| Time to value | 🟢 Quelques heures | 🟡 Quelques semaines | 🟠 1-3 mois | 🔴 3-12 mois |
| Coût d'entrée | 🟢 0-30 €/mois | 🟡 200-2 000 €/mois | 🟡 80-300 €/mois | 🔴 50 K€+ initial |
| Qualité du modèle | 🟢 Frontière | 🟢 Frontière | 🟡 Très bonne | 🟡 Bonne (selon HW) |
| Auditabilité du modèle | 🔴 Boîte noire | 🔴 Boîte noire | 🟢 Poids ouverts | 🟢 Contrôle total |
| RGPD données sensibles | 🔴 Risqué | 🟡 Possible avec garanties | 🟢 OK | 🟢 OK |
| AI Act haut risque | 🔴 Déconseillé | 🟡 Conditionnel | 🟢 Recommandé | 🟢 Recommandé |
| Vendor lock-in | 🔴 Fort | 🟠 Modéré (cloud + modèle) | 🟢 Faible (open-weight) | 🟢 Aucun |
| Cas d'usage typique PME | POC, brainstorming, rédaction marketing | Production B2B, RGPD modéré | Production sensible, données client/stratégiques | R&D protégée, défense, OIV |
Méthode de choix — 5 critères pour décider
Pour chaque cas d'usage IA envisagé, parcourir ces 5 questions dans l'ordre. La réponse à chacune oriente vers un pattern (ou écarte un pattern). Méthode pragmatique qui produit une décision en 30-60 minutes.
-
Quelle est la sensibilité des données traitées ?
- Publiques ou non sensibles → A1 OK
- Personnelles RGPD modérées → A2 ou A3
- Personnelles RGPD article 9 (santé, biométrie, opinions) ou stratégiques entreprise → A3 ou A4
- Ultra-stratégiques (R&D protégée, défense, OIV) → A4
-
Le cas d'usage est-il classé haut risque AI Act ?
- Non (risque minimal ou limité) → tous patterns possibles
- Oui (recrutement, crédit, scoring salariés, infrastructures critiques) → A2 minimum recommandé, A3/A4 préférable
-
Quel est le time-to-value attendu ?
- < 1 semaine → A1 obligatoire (mais à reconfirmer une fois validé)
- 1-3 mois → A2 ou A3 envisageables
- > 3 mois → A3 ou A4 selon enjeu souveraineté
-
Quelle est la maturité technique disponible (interne ou via prestataire) ?
- Aucune → A1 (ou A2 via cabinet conseil)
- Compétence n8n / orchestration → A2 ou A3 accessibles
- Équipe DevOps / MLOps interne ou prestataire spécialisé → A3 ou A4
-
Quel est le budget annuel mobilisable (capex + opex) ?
- < 5 K€/an → A1 ou A2 light
- 5-30 K€/an → A2 ou A3 confortablement
- > 30 K€/an → A3 ou A4 selon enjeu
Une fois ces 5 critères passés en revue, le pattern à privilégier émerge généralement clairement. Si plusieurs patterns restent envisageables, privilégier celui qui maximise la souveraineté à coût et complexité comparables — la valeur supplémentaire de A3 vs A1 sur les cas sensibles dépasse largement le surcoût.
Patterns complémentaires (à surveiller)
Au-delà des 4 patterns canoniques + hybride, plusieurs approches émergent en 2025-2026 qui méritent surveillance sans avoir encore atteint la maturité d'un pattern de référence pour PME / ETI.
Edge AI — IA embarquée sur device
Modèles compacts (Phi-4, Llama 3.2 1B/3B, Florence-2, Mistral 7B quantifiés) tournant directement sur smartphones, PC, ou IoT industriels. Avantages : latence ultra-faible, fonctionnement déconnecté, confidentialité par design. Limites : qualité modèle plus modeste, coût matériel intégré, gestion mises à jour par device. Cas pertinents : applications mobiles avec assistant IA, robotique industrielle, IoT défense / médical.
Hugging Face Inference Endpoints
Pattern intermédiaire entre A3 et A4 : infrastructure managée par Hugging Face avec choix du modèle open-weight, déploiement en région EU possible, tarification à l'heure GPU. Permet de tester des modèles spécifiques sans monter une infrastructure complète. Très utile pour POC A3 / A4 ou pour des modèles spécialisés (Pleias, Florence, etc.).
Coopératives de calcul EU
Émergence d'initiatives européennes pour mutualiser des infrastructures GPU (Numspot, projets coopératifs sectoriels). Pattern intéressant pour les ETI qui veulent bénéficier d'A3 / A4 sans portage individuel complet, mais maturité encore limitée en 2026 — à suivre à 18-24 mois.
Federated Learning & Confidential Computing
Techniques avancées qui permettent l'entraînement ou l'inférence sur données chiffrées (homomorphic encryption, enclaves SGX/SEV/TDX). Très pertinent pour des cas d'usage multi-organisations (consortiums sectoriels, données médicales partagées). Maturité industrielle encore variable, à surveiller.
« BYOM » (Bring Your Own Model) sur infrastructures partenaires
Certains acteurs cloud souverains (OVHcloud, Scaleway, Numspot) proposent désormais d'héberger des modèles fournis par le client, avec engagement contractuel renforcé. C'est une variante de A3 / A4 hybride qui combine l'agilité cloud et la souveraineté contractuelle.
Pour aller plus loin
Ressources externes pour approfondir les choix d'architecture, la souveraineté et la sécurité opérationnelle de l'IA en entreprise.
📚 Cadrages réglementaires et institutionnels
🛡️ Sécurité & risques opérationnels IA
☁️ Documentation officielle des plateformes (par pattern)
- A2 — Propriétaire managé : AWS Bedrock, Azure OpenAI Service, Google Vertex AI
- A3 — Open-source cloud souverain : Mistral AI, Lucie (Linagora), Pleias, Scaleway AI, OVHcloud AI
- A4 — Open-source on-premise : Ollama, llama.cpp, vLLM, LightOn Paradigm