Mardi 12 mai 2026
IA générative en entreprise : pourquoi le vrai sujet commence par la donnée
Quand une entreprise lance un projet d’IA générative, la première question posée est souvent : “Quel modèle faut-il utiliser ?”
GPT, Claude, Gemini, Mistral, modèle open-source, API managée, modèle hébergé en interne… Le débat arrive très vite. Il est important, bien sûr. Le choix du modèle peut avoir un impact réel sur la qualité des réponses, les coûts, la sécurité ou encore les contraintes d’hébergement.
Mais dans la majorité des projets que nous voyons, ce n’est pas uniquement le choix du modèle qui fait la réussite ou l’échec d’un projet.
C’est d’abord la donnée.
Pas parce qu’elle manque. Au contraire : les entreprises disposent souvent d’un volume important d’informations. Documents internes, bases de connaissances, tickets support, comptes rendus, historiques projets, contrats, procédures, échanges clients… La matière existe.
Le problème, c’est que ces données sont rarement prêtes à être utilisées par un système IA.
Elles sont dispersées, hétérogènes, parfois obsolètes, parfois contradictoires. Et quand on branche un LLM dessus trop vite, on ne crée pas de l’intelligence augmentée. On crée une interface très convaincante au-dessus d’un désordre documentaire.
Le sujet n’est donc pas d’opposer le modèle et la donnée. Un bon modèle ne compensera pas durablement une donnée mal structurée, mais une bonne donnée doit aussi être servie par une architecture adaptée et un modèle pertinent.
Un projet IA fiable repose sur un équilibre : des sources maîtrisées, un modèle adapté, une architecture robuste et des utilisateurs accompagnés dans leurs usages.
Qui maintient la base documentaire ?
Qui décide qu’un document est obsolète ?
Qui arbitre quand deux sources se contredisent ?
Qui est responsable si l’assistant donne une mauvaise réponse ? Ces questions peuvent sembler lourdes. Elles sont pourtant indispensables dès que l’IA sort du cadre de la démonstration. Mais la réussite ne dépend pas uniquement de la stack technique ou de la qualité documentaire. Un assistant IA ne devient pas utile simplement parce qu’il est bien conçu. Il doit aussi être compris, adopté et utilisé correctement par les équipes. Hugo le souligne également à travers son expérience en mission : “Une fois l’outil disponible, on voit vite que la technique ne suffit pas. Les utilisateurs doivent comprendre ce que l’assistant peut faire, mais aussi ce qu’il ne peut pas faire. Il faut leur expliquer comment formuler leurs demandes, comment lire les réponses, quand faire confiance au système et quand garder une validation humaine. Sans accompagnement, même une bonne architecture et une base documentaire propre peuvent être sous-utilisées ou mal utilisées.” La formation et l’accompagnement des équipes sont donc des leviers aussi importants que le choix du modèle, la structuration des données ou l’architecture technique. C’est souvent cette combinaison qui fait la différence entre un prototype intéressant et un outil réellement utilisé au quotidien.
Le fantasme du “chatbot qui sait tout”
Beaucoup de projets IA commencent avec une idée simple : “On va connecter un chatbot à notre documentation interne, et les collaborateurs pourront lui poser toutes leurs questions.” Sur le papier, c’est séduisant. En pratique, c’est rarement aussi simple. Un collaborateur demande : “Quelle est la procédure à suivre pour valider une demande client spécifique ?” Le système récupère trois documents :- une procédure officielle de 2023 ;
- une note interne plus récente mais jamais validée ;
- un compte rendu de réunion qui évoque une exception.
Le premier chantier : identifier les sources de vérité
Avant même de parler de RAG, d’embeddings ou de vector store, il faut répondre à une question beaucoup plus simple : quelles sont les sources fiables ? Toutes les données ne se valent pas. Une procédure validée par une direction métier n’a pas la même valeur qu’un document de travail. Un contrat signé n’a pas la même valeur qu’un modèle de contrat. Une documentation technique maintenue dans le repository n’a pas la même valeur qu’une page Notion oubliée depuis deux ans. Pour qu’un système IA soit fiable, il faut lui donner une hiérarchie documentaire explicite. Cela peut passer par des métadonnées simples :- statut du document : brouillon, validé, obsolète ;
- propriétaire métier ;
- date de dernière mise à jour ;
- périmètre concerné ;
- niveau de confidentialité ;
- priorité en cas de conflit avec une autre source.
Le deuxième chantier : nettoyer sans tout refaire
La tentation, face à une base documentaire désordonnée, est de vouloir tout nettoyer avant de commencer. C’est rarement réaliste. Les entreprises vivent avec de la dette documentaire, comme elles vivent avec de la dette technique. Vouloir tout corriger avant de lancer un projet IA revient souvent à ne jamais lancer le projet. La bonne approche est plus pragmatique : prioriser. On identifie d’abord les cas d’usage à forte valeur. Par exemple :- répondre aux questions fréquentes des équipes support ;
- aider les commerciaux à retrouver les bons éléments d’un dossier client ;
- accélérer l’onboarding des nouveaux développeurs sur une codebase ;
- assister les équipes RH ou juridiques dans la recherche documentaire interne.
Le troisième chantier : gérer les droits d’accès
C’est l’un des sujets les plus sous-estimés. Dans une entreprise, tout le monde n’a pas accès aux mêmes informations. Un document financier, un contrat client, une donnée RH ou une note stratégique ne doivent pas être restitués à n’importe quel utilisateur sous prétexte qu’un assistant IA y a accès. Le problème est que beaucoup de prototypes IA sont construits comme si l’accès à la donnée était binaire : soit le système connaît le document, soit il ne le connaît pas. En production, ce n’est pas suffisant. Il faut que le système respecte les permissions existantes. Si un utilisateur n’a pas le droit de lire un document dans SharePoint, Google Drive, Notion ou Confluence, il ne doit pas pouvoir en obtenir le contenu via l’IA. Cela suppose une architecture sérieuse :- authentification de l’utilisateur ;
- filtrage des documents récupérés selon ses droits ;
- logs d’accès ;
- règles de masquage pour les données sensibles ;
- vérification des outputs avant restitution dans les cas critiques.
Le quatrième chantier : traiter l’obsolescence comme un risque produit
Une réponse IA peut être fausse pour deux raisons. La première : le modèle hallucine. La seconde, plus fréquente en entreprise : le modèle s’appuie sur une information qui était vraie hier, mais ne l’est plus aujourd’hui. C’est particulièrement critique pour les procédures internes, les offres commerciales, les règles RH, les politiques de sécurité ou les engagements contractuels. Un bon système doit donc savoir gérer la temporalité :- privilégier les documents récents ;
- signaler quand une source est ancienne ;
- exclure les documents explicitement obsolètes ;
- afficher les sources utilisées ;
- permettre à un utilisateur de remonter une réponse incorrecte.
Pourquoi le sujet est autant organisationnel que technique
La donnée n’appartient pas uniquement aux équipes IT. Les métiers savent quels documents font foi. Les équipes sécurité savent quelles informations sont sensibles. Les équipes juridiques savent quelles formulations ne doivent pas être généralisées. Les développeurs savent comment construire le pipeline. Le produit sait quel niveau de réponse est acceptable pour l’utilisateur. Un projet IA sérieux oblige donc l’entreprise à clarifier ses responsabilités. Qui valide les sources ?Qui maintient la base documentaire ?
Qui décide qu’un document est obsolète ?
Qui arbitre quand deux sources se contredisent ?
Qui est responsable si l’assistant donne une mauvaise réponse ? Ces questions peuvent sembler lourdes. Elles sont pourtant indispensables dès que l’IA sort du cadre de la démonstration. Mais la réussite ne dépend pas uniquement de la stack technique ou de la qualité documentaire. Un assistant IA ne devient pas utile simplement parce qu’il est bien conçu. Il doit aussi être compris, adopté et utilisé correctement par les équipes. Hugo le souligne également à travers son expérience en mission : “Une fois l’outil disponible, on voit vite que la technique ne suffit pas. Les utilisateurs doivent comprendre ce que l’assistant peut faire, mais aussi ce qu’il ne peut pas faire. Il faut leur expliquer comment formuler leurs demandes, comment lire les réponses, quand faire confiance au système et quand garder une validation humaine. Sans accompagnement, même une bonne architecture et une base documentaire propre peuvent être sous-utilisées ou mal utilisées.” La formation et l’accompagnement des équipes sont donc des leviers aussi importants que le choix du modèle, la structuration des données ou l’architecture technique. C’est souvent cette combinaison qui fait la différence entre un prototype intéressant et un outil réellement utilisé au quotidien.
Notre approche chez Olympp
Chez Olympp, nous abordons les projets IA par le cas d’usage, pas uniquement par le modèle. Avant de choisir une stack technique, nous cherchons à comprendre :- quelles questions l’utilisateur doit pouvoir poser ;
- quelles sources sont nécessaires pour y répondre ;
- quelles données sont sensibles ;
- quel niveau d’erreur est acceptable ;
- quelles réponses doivent être validées par un humain ;
- quelles traces doivent être conservées ;
- quels utilisateurs doivent être formés ou accompagnés dans l’usage de la solution.