Joe Rose, président de JBS Dev, estime que l’une des idées reçues les plus fréquentes autour des systèmes d’IA générative et d’IA « agentique » concerne la qualité des données. Selon lui, il n’est pas nécessaire d’attendre que tout soit parfaitement structuré avant de démarrer des projets. Le véritable enjeu réside plutôt dans la manière de concevoir le déploiement, d’encadrer les résultats et d’organiser l’industrialisation.
Son propos s’inscrit dans une logique de pragmatisme : les outils ont progressé au point de permettre de tirer parti de données imparfaites, même lorsque l’information est partielle, mal formatée ou issue de sources hétérogènes.
Des données imparfaites : une contrainte à encadrer, pas un prérequis
Joe Rose met en avant le fait que, dans les phases de conception, les éditeurs et les consultants orientent souvent les équipes vers des programmes de transformation lourds, avec de vastes lacs de données et des chantiers s’étalant sur plusieurs années. Cette approche peut créer une forme de blocage côté direction : elle donne l’impression qu’il faut tout refaire avant d’obtenir un bénéfice.
Pourtant, d’après lui, les capacités actuelles des modèles de langage permettent de comprendre et d’exploiter des contenus dont la qualité est loin d’être parfaite, à condition de mettre en place les garde-fous adaptés. « Le tooling n’a jamais été aussi performant pour traiter des données de mauvaise qualité », souligne-t-il, en rappelant qu’un LLM peut déjà tirer des informations à partir de prompts même lorsque le contexte transmis est incomplet.
Cette approche implique aussi d’accepter l’imprévisibilité inhérente aux modèles. Concrètement, elle suppose de prévoir des mécanismes pour gérer les sorties erronées et d’intégrer un « human in the loop », c’est-à-dire une validation humaine lorsque c’est nécessaire. Les workflows ne doivent donc pas être conçus sur le modèle « on construit, ça marche, on oublie » : ils doivent rester observables et itératifs.
Exemple en santé : documents et données structurées qui s’assemblent
Pour illustrer ses propos, Joe Rose cite un cas dans le secteur médical. L’objectif était de migrer vers un autre système de conciliation de facturation. Les dossiers n’étaient pas homogènes : certaines informations provenaient de fichiers PDF, d’autres d’images. De plus, des incohérences apparaissaient dans la mise en correspondance des noms, où l’on pouvait retrouver des éléments parfois associés à la mauvaise entité (par exemple, un nom de médecin placé dans le champ du patient, ou l’inverse).
Dans ce contexte, l’IA générative a servi à identifier et extraire une forme de données « propres » à partir d’instructions relativement simples, en mobilisant des étapes comme l’OCR pour les images et l’extraction de texte pour les PDF. Une fois le socle établi, des approches plus « agentiques » ont ensuite été superposées, par exemple en comparant un enregistrement client à un contrat d’assurance afin de vérifier le taux de facturation appliqué.
Le point central, selon lui, est la construction progressive : on peut commencer par un niveau d’automatisation modéré, puis augmenter graduellement la part automatisée une fois que les résultats sont suffisamment fiables. L’important n’est pas seulement d’atteindre un taux de performance initial, mais de planifier une montée en charge maîtrisée.
Le prochain virage : coût, portabilité et « last mile »
À l’avenir, Joe Rose prévoit que les discussions se déplaceront davantage vers la soutenabilité économique et la portabilité des systèmes plutôt que vers des « sauts » uniquement centrés sur la capacité des modèles. Autrement dit, la question n’est plus seulement : « de quoi le modèle est-il capable ? », mais « comment rendre l’usage durable en limitant les coûts, sans devoir multiplier les infrastructures coûteuses ».
Il reprend également l’idée de « last mile » : faire en sorte que ces systèmes puissent fonctionner sur des équipements plus modestes, tels qu’un ordinateur portable ou un smartphone, plutôt que de dépendre systématiquement d’un centre de données. Il souligne que les modèles ont déjà été entraînés sur de très grandes quantités de données issues du Web et d’autres sources ; dans ce cadre, la prochaine avancée ne viendra pas nécessairement d’un flux illimité de données supplémentaires, mais plutôt de l’optimisation de l’exécution et du déploiement.
En parallèle, il anticipe un débat plus transversal sur les choix de livraison logicielle. Il estime qu’il existe souvent des options pour démarrer sans passer par l’achat de licences SaaS supplémentaires, en s’appuyant sur des environnements cloud déjà disponibles en interne.
Produits : accélérer un déploiement local et maîtriser les coûts
Pour les équipes qui cherchent à expérimenter avec des approches plus proches de l’exécution locale, certaines solutions peuvent aider à industrialiser des workflows sans multiplier les dépenses. Par exemple, des outils comme des kits et composants orientés inférence LLM peuvent servir de base à des tests, à condition de dimensionner correctement l’infrastructure et la gouvernance des données.
De la même manière, pour gérer la complexité d’une chaîne de traitement (extraction, transformation, validation), un logiciel OCR orienté traitement par lots peut être utile lorsque les documents ne sont pas uniformes. L’objectif reste le même : fiabiliser l’entrée pour mieux encadrer la sortie des modèles.

