Préalables data & SI — Hub IA Learning Center

⚡ L'essentiel en 90 secondes

Pourquoi cette page ?

La vraie puissance de l'IA générative en entreprise vient de l'orchestration : RAG sur les bases internes, function calls vers les ERP/CRM/outils métier, pipelines d'agents. Pour faire ça, il faut des fondations techniques : données propres, APIs ouvertes, architecture modulaire. Sans ces préalables, le projet IA s'arrête à « ChatGPT pour résumer des emails ». 4 piliers techniques + 12 critères d'audit pour évaluer la maturité du SI cible avant de lancer un projet IA significatif.

1

Données structurées et propres. Le RAG ou un agent IA n'extraient de la valeur que de données qualifiées. Si tes données métier sont éparpillées dans 12 outils non interconnectés, le préalable est le travail data, pas l'IA.

2

APIs ouvertes. Sans API exploitable sur l'ERP, le CRM, les outils métier, l'IA ne peut pas agir — elle peut au mieux générer du texte. Les agents IA modernes (workflows email-CRM, multi-agents) reposent tous sur cette couche.

3

Architecture modulaire. Un SI legacy monolithique de 20 ans est presque impossible à connecter à un agent IA. Une architecture modulaire (services découplés, événements, queues) permet l'orchestration agentique avec un coût raisonnable.

4

Sécurité & gouvernance. Connecter un LLM aux données internes ouvre des risques (fuites, prompt injection, exfiltration). Sans logs, contrôles d'accès, sandbox, le projet IA crée plus de risque qu'il n'apporte de valeur.

4

Piliers techniques

12

Critères d'audit

2-3 mois

Audit + remédiations critiques

15 min

Lecture

1

Pourquoi la data est le 1er sujet (avant l'IA)

📊 Le constat France. 76 % des PME et ETI françaises ont engagé leur transformation digitale en 2024 (Bpifrance Le Lab juin 2025), contre 72 % en 2017 — soit un rythme de digitalisation de +1 % par an seulement. 43 % n'analysent toujours pas leurs données pour piloter leur activité. Une entreprise qui analyse ses données est 2,5× plus susceptible d'utiliser une IA. Une entreprise qui a engagé sa transformation digitale est 5× plus susceptible d'utiliser une IA. La data est le préalable à l'IA.

Le réflexe spontané face à un projet IA est de regarder les modèles, les outils, les frameworks. C'est l'erreur n°1. L'IA ne crée de valeur qu'en s'appuyant sur des données qualifiées et accessibles. Sans données structurées, le LLM n'a rien de pertinent à dire sur ton activité — il reste générique.

La vraie puissance de l'IA générative vient de l'orchestration : connecter le modèle aux données internes via du RAG, construire des pipelines d'agents autonomes capables d'enchaîner des tâches, intégrer des function calls pour que l'IA puisse agir directement dans les systèmes métier. Pour faire ça, il faut des données propres, des APIs ouvertes et une architecture modulaire — au minimum.

La conséquence opérationnelle est claire : avant de te lancer dans un cas d'usage IA (l'ensemble des cas d'usage), fais un audit data & SI. Si l'audit révèle des trous structurels, traite-les d'abord — c'est plus court et moins coûteux que de tenter un projet IA voué à l'échec sur des fondations fragiles.

Bonne nouvelle : les PME et ETI agiles ont souvent un SI plus simple à auditer et à remédier qu'une grande entreprise. Le travail est faisable en 2-3 mois pour la majorité des structures qui démarrent.

2

4 piliers techniques d'un SI prêt pour l'IA

Pilier 1 — Qualité des données

Les données doivent être structurées, à jour, sans doublons critiques, avec une définition métier partagée. Un CRM avec 30 % de fiches en doublon, un ERP où le champ « client » n'a pas la même définition que dans le système comptable, un drive avec 50 versions du même document — c'est du bruit qui fera halluciner ton agent IA. La règle : garbage in, garbage out reste vraie en 2026.

Exigence minimale : avoir nettoyé les données du périmètre cible (le CRM si tu lances un agent commercial, l'ERP si c'est un agent finance, les contrats si c'est du RAG juridique). Un nettoyage initial prend 2-6 semaines sur un périmètre PME, c'est un investissement obligatoire.

Pilier 2 — APIs ouvertes

Sans API exploitable sur tes systèmes (ERP, CRM, drive, outils métier), un agent IA ne peut pas agir — il peut au mieux suggérer du texte qu'un humain devra ensuite ressaisir. La plupart des outils modernes (HubSpot, Pennylane, Qonto, Salesforce, Pipedrive) exposent des APIs REST. Les outils anciens (Sage 30 sans extension, Ciel, Excel partagé en réseau) ne le font pas — c'est rédhibitoire pour la majorité des cas d'usage agentiques.

Exigence minimale : pour chaque système central (ERP, CRM, drive, outil métier), vérifier qu'il expose une API REST documentée et que tu as les credentials pour t'y connecter. Si non, prévoir une migration ou un connecteur intermédiaire (n8n, Make).

Pilier 3 — Architecture modulaire

Un SI monolithique (1 gros logiciel maison qui fait tout, code couplé) est presque impossible à interconnecter à un agent IA. Une architecture modulaire (services découplés, événements, queues, APIs claires) permet l'orchestration agentique avec un coût raisonnable. Pour une PME / ETI, ce n'est pas un sujet bloquant si les outils principaux sont des SaaS modernes (Pennylane + HubSpot + Slack + Notion = c'est déjà modulaire).

Exigence minimale : pas d'architecture parfaite à atteindre. Évaluer simplement si chaque outil clé peut être substitué ou interconnecté indépendamment des autres. Si tout est imbriqué dans 1 outil-mammouth, c'est l'occasion d'une refonte progressive.

Pilier 4 — Sécurité & gouvernance

Connecter un LLM aux données internes ouvre des risques nouveaux (fuites, prompt injection, exfiltration). Sans logs, contrôles d'accès, sandbox d'exécution, le projet IA crée plus de risque qu'il n'apporte de valeur. C'est aussi le préalable à la conformité RGPD & AI Act et à la sécurité opérationnelle (cf. Sécurité IA & risques opérationnels).

Exigence minimale : authentification SSO sur les outils internes, logs d'accès aux données sensibles, sandbox d'exécution pour les agents avec actions externes, registre des accès IA aux bases métier.

3

Audit SI en 12 critères

Check-list à parcourir avec ton DSI ou prestataire SI avant de lancer un projet IA significatif. Réponse Oui / Partiel / Non sur chaque critère. Si ≥ 3 critères répondent Non sur les bloquants (B1-B6), reporter le projet IA et traiter d'abord les fondations.

4

Stratégies legacy vs greenfield

Selon le diagnostic posé par l'audit, deux stratégies de déploiement IA possibles.

Stratégie 1 — Greenfield IA-first sur SI mature

Si ton audit ressort majoritairement Oui (≥ 8 critères Oui sur 12), tu peux lancer un projet IA structurant immédiatement. Le SI est prêt à accueillir une couche agentique sans refonte majeure. C'est typiquement le cas des PME / ETI qui ont migré sur des SaaS modernes ces 3-5 dernières années (Pennylane, HubSpot, Notion, n8n, Slack).

Plan d'action : choisir un cas d'usage cadré (cf. les 26 modules cas d'usage), formaliser le mandat exécutif (cf. Maturité organisationnelle), déployer en 6-12 semaines avec un fournisseur souverain (Mistral, Lucie, Pleias-RAG, etc.), mesurer le ROI, étendre.

Stratégie 2 — Brownfield IA progressif sur SI legacy

Si ton audit ressort majoritairement Non ou Partiel sur les bloquants (3+ Non sur B1-B6), traiter d'abord les fondations avant de viser l'IA structurante. Plan d'action : audit complet par le DSI / prestataire, plan de remédiation sur 3-6 mois (migration outils legacy, ouverture APIs, nettoyage données), puis projet IA cadré.

Pendant la phase de remédiation, possibilité de lancer des cas d'usage IA légers et périphériques qui n'attaquent pas le cœur du SI : assistant rédactionnel personnel (cf. Assistant rédactionnel), recherche augmentée (cf. Recherche & veille), CR de réunion (cf. CR de réunion), traduction (cf. Traduction). Ces cas d'usage produisent de la valeur sans dépendre d'intégrations SI complexes.

Trois cas d'usage particulièrement sensibles aux préalables data couverts dans ce préalable : le module Knowledge base RAG dépend totalement de la qualité du corpus documentaire ingéré ; le module Workflow email-CRM dépend des APIs CRM disponibles et propres ; le module Multi-agents par fonction métier est le plus exigeant en maturité SI (mémoire partagée, APIs structurées).

Le piège à éviter : la stratégie « grand soir »

Refondre tout le SI en 18 mois pour préparer l'arrivée de l'IA = piège classique. Refonte ciblée + déploiement progressif est plus court et plus sûr. Le SI parfait est un horizon, pas un préalable. La majorité des PME / ETI peuvent démarrer un cas d'usage IA opérationnel en 6-12 semaines même avec un SI imparfait, à condition de bien choisir le cas d'usage et de cadrer le périmètre data.

🏗️ Tu as cadré ta data ? L'étape suivante est de choisir comment tu déploies. Quatre patterns canoniques (SaaS propriétaire, propriétaire managé, open-source cloud souverain, open-source on-premise) + l'option hybride conditionnent la faisabilité juridique, économique et technique de ton cas d'usage. Va voir les 4 patterns d'architecture pour choisir ton mode de déploiement.

5

Pour aller plus loin

📚 Sources et références

CNIL — Recommandations data & IA Bonnes pratiques data quality + sécurité applicables aux projets IA
France Num — Guides data PME Cadrages pédagogiques data pour TPE et PME
Bpifrance — Diag Data IA Parcours d'audit gratuit pour PME accompagnées