L’intelligence artificielle change vite, et avec elle apparaît un vocabulaire foisonnant. Entre LLM, RAG, RLHF et d’autres sigles, il est facile de décrocher ou de croire qu’on a compris alors qu’il reste des zones d’ombre. Cet article propose une mise au point pédagogique, en replaçant les principaux termes dans leur rôle concret, comme une grammaire utile pour mieux lire ce que fait l’IA aujourd’hui.
L’AGI (Artificial General Intelligence, intelligence artificielle générale) reste un concept controversé. En pratique, le terme désigne une IA capable, globalement, d’être aussi performante qu’un humain sur un large éventail de tâches. Les définitions varient selon les acteurs : certains évoquent une supériorité dans la plupart des activités à valeur économique, d’autres insistent sur une capacité au niveau des performances humaines dans de nombreuses tâches cognitives. Cette diversité d’approches explique pourquoi même des spécialistes du secteur ne donnent pas toujours exactement le même sens au sigle.
Agents IA et automatisation
Un agent IA n’est pas seulement un chatbot. Il s’agit plutôt d’un système capable d’exécuter une suite d’actions pour atteindre un objectif, étape par étape : organiser des tâches, passer des commandes, gérer des éléments administratifs ou encore contribuer au développement de logiciels. Selon les produits, l’expression recouvre des architectures différentes, mais l’idée centrale est celle d’une autonomie opérationnelle, souvent appuyée par plusieurs briques d’IA.
Pour agir dans le monde numérique, ces systèmes s’appuient fréquemment sur des API et leurs points d’accès (parfois assimilés à des boutons cachés). Concrètement, une API permet à un programme de déclencher des fonctions : récupérer des données, créer une réservation ou lancer une opération dans un service tiers. À mesure que les agents gagnent en capacités, ils peuvent repérer et utiliser ces interfaces de manière plus autonome, ce qui élargit les possibilités — mais aussi les exigences en matière de contrôle.
Raisonner, étape par étape
Certains problèmes nécessitent des étapes intermédiaires. En langage IA, la logique “chain-of-thought” renvoie à l’idée de décomposer un raisonnement en sous-étapes afin d’améliorer la qualité du résultat final, notamment dans des contextes de logique ou de programmation. Cette approche vise souvent à renforcer la précision, au prix d’un raisonnement plus long.
Dans la même famille d’objectifs, un agent de codage pousse plus loin l’automatisation : plutôt que de proposer uniquement du code à relire, il peut écrire, tester et corriger des modules de manière itérative. L’efficacité repose sur une capacité à gérer des cycles d’essais et d’erreurs, tout en nécessitant, en pratique, une validation humaine pour limiter les risques.
Puissance de calcul, réseaux et apprentissage
Compute désigne la puissance de calcul qui rend l’entraînement et l’exécution des modèles possibles. Dans l’industrie, le terme sert souvent aussi de raccourci pour parler du matériel : GPUs, CPUs, TPUs et autres accélérateurs, indispensables pour entraîner des modèles de grande taille.
Le deep learning repose sur des réseaux de neurones à plusieurs couches. Leur principe est d’apprendre des corrélations complexes à partir de données, au lieu de dépendre d’un ensemble de règles pré-définies. En contrepartie, ces modèles demandent généralement de grandes quantités de données et des coûts d’entraînement plus élevés.
Génération d’images, textes et modèles spécialisés
La diffusion est une technique utilisée par de nombreux modèles génératifs (images, mais aussi d’autres types de contenus). L’approche consiste à ajouter progressivement du bruit jusqu’à détruire la structure initiale, puis à apprendre un processus “inverse” pour reconstituer des données réalistes à partir de ce bruit.
La distillation vise, elle, à transférer la “connaissance” d’un modèle plus grand vers un modèle plus petit. On fait travailler un modèle enseignant sur des entrées, puis on entraîne un modèle étudiant à reproduire autant que possible ses sorties, afin d’obtenir une solution souvent plus rapide et plus efficace. Dans l’écosystème, ce levier est utilisé pour optimiser les performances et les coûts.
Certaines méthodes consistent également à ajuster davantage un modèle pour une tâche spécifique, via un nouvel entraînement sur des données orientées “cas d’usage”. Les startups combinent souvent un modèle général avec du contenu propre à un secteur pour améliorer l’utilité.
Hallucinations et limites de la génération
Le terme d’hallucination désigne le fait qu’un modèle peut produire une réponse incorrecte ou inventée. Le phénomène peut être alimenté par des lacunes de données d’entraînement ou par des situations où le modèle “raisonne” sans avoir l’information exacte. Dans les cas sensibles (santé, finance, sécurité), ces erreurs peuvent entraîner des conséquences concrètes, ce qui explique l’intérêt croissant pour des modèles plus spécialisés ou des dispositifs de vérification.
Inférence, entraînement et mémoire
L’inférence correspond au moment où le modèle effectue des prédictions ou produit des réponses à partir de ce qu’il a appris. Elle dépend forcément de l’entraînement préalable. Selon la taille du modèle et les ressources disponibles, l’inférence peut être plus ou moins rapide : un même traitement peut prendre beaucoup plus de temps sur un appareil standard que dans un environnement de calcul optimisé.
Pour améliorer l’efficacité, on utilise des mécanismes comme la mise en cache (caching). L’idée est de conserver certains résultats de calcul afin d’éviter de refaire systématiquement les mêmes opérations. Par exemple, dans certains modèles à base de transformeurs, la KV cache réduit le travail nécessaire lors des prochains tokens, ce qui peut accélérer les réponses.
LLM, tokens et “débit”
Les grands modèles de langage (LLM) sont au cœur des assistants IA : ils traitent les demandes et génèrent des réponses à partir d’un apprentissage sur de vastes corpus. Ils se composent de milliards de paramètres numériques qui modélisent des relations entre mots et expressions.
La communication entre l’utilisateur et le modèle passe par des tokens. Le texte est découpé en fragments (parfois plus petits qu’un mot complet) afin d’être interprété par le système. Dans les environnements professionnels, les tokens servent aussi à mesurer le coût d’usage. Le throughput (débit) décrit, quant à lui, la quantité de calcul produite sur une période donnée : plus il est élevé, plus le système peut servir d’utilisateurs en parallèle ou répondre rapidement.
Apprentissage supervisé, renforcement et fine-tuning
Le training consiste à nourrir un modèle avec des données pour lui permettre d’apprendre des motifs et produire des sorties utiles. L’opération peut devenir coûteuse : volumes de données, temps de calcul et énergie. Pour réduire la dépendance au “tout nouveau départ”, on recourt souvent à des approches hybrides et à des ajustements progressifs.
Le transfer learning réutilise un modèle pré-entraîné pour une tâche proche, afin de gagner du temps. Mais il ne dispense pas toujours d’un nouvel entraînement : selon le domaine, le modèle peut nécessiter des données supplémentaires pour atteindre un niveau suffisant.
Le renforcement (reinforcement learning) repose sur un système d’essais et de récompenses : le modèle apprend en testant des actions et en recevant un signal indiquant ce qui fonctionne. Des variantes comme le RLHF (apprentissage par renforcement à partir de retours humains) sont souvent utilisées pour aligner les sorties sur des critères d’utilité et de sécurité.
Des notions “sous le capot”
Weights et validation loss font partie du pilotage de l’apprentissage. Les weights représentent l’importance accordée à certaines caractéristiques lors de la prédiction, tandis que la validation loss sert d’indicateur pour juger si l’apprentissage se fait correctement et éviter notamment l’overfitting, c’est-à-dire la tendance à mémoriser plutôt qu’à généraliser.
Open source renvoie à la disponibilité du code pour inspection et modification. À l’inverse, les solutions “closed source” gardent le fonctionnement interne propriétaire. Ce contraste structure une partie des débats du secteur : transparence, sécurité, réutilisation et audit.
La parallelization (parallélisation) est essentielle pour accélérer l’entraînement et l’inférence. En répartissant des calculs sur plusieurs cœurs ou plusieurs machines, on réduit le temps nécessaire. Les gains de productivité reposent aussi sur la capacité à exploiter efficacement ce parallélisme avec le matériel disponible.
Enfin, le terme RAMageddon (jeu de mots) illustre une réalité plus terre-à-terre : la tension sur certains composants mémoire. Dans des périodes de forte demande, les prix peuvent augmenter, ce qui impacte des secteurs dépendants des serveurs et des systèmes de calcul intensifs.
Pour mieux se repérer : deux outils utiles
Pour travailler concrètement sur des modèles et des expériences liées au machine learning, beaucoup d’équipes apprécient des environnements de développement capables de gérer des bibliothèques et des workflows techniques. Un ordinateur portable bien équipé, comme le laptop avec 16 Go de RAM et un SSD, peut déjà faciliter des tests locaux, selon les besoins. Pour l’infrastructure plus orientée calcul, les équipes se tournent aussi vers des solutions de stockage fiables pour gérer données et modèles, par exemple via un SSD externe NVMe 1 To.
En définitive, derrière chaque sigle se cachent des mécanismes différents : capacité du modèle (LLM, architecture), manière de l’entraîner (apprentissage, distillation, renforcement), et conditions d’exécution (inférence, débit, mémoire). Mieux comprendre ces briques permet de garder une lecture plus stable face à l’évolution rapide de l’IA.

