GPT-5.5 : le modèle d’IA agentique le plus performant d’OpenAI jusqu’à présent


OpenAI présente GPT-5.5 comme une avancée majeure dans l’« intelligence agentique », c’est-à-dire des systèmes d’IA capables de traiter des tâches de bout en bout : planifier, utiliser des outils, vérifier leurs propres sorties et avancer de manière plus autonome. Le modèle est annoncé comme conçu spécifiquement pour des workflows réels, avec pour objectif de réduire la dépendance aux multiples relances et aux interventions humaines en cours de traitement.

Un modèle pensé pour l’autonomie et l’exécution de tâches

GPT-5.5 a été lancé le 23 avril. OpenAI affirme qu’il s’agit du modèle agentique le plus abouti à ce jour, construit « de la base » avec des capacités visant l’exécution indépendante. Dans cette logique, le modèle serait moins limité par des contraintes de saisie très cadrées : il chercherait à organiser la démarche, recourir à des outils et consolider ses résultats avant de les restituer.

Sur le plan du développement, GPT-5.5 serait le premier modèle de base retrainé depuis GPT-4.5, co-conçu avec les systèmes NVL72 de NVIDIA (dans la continuité des racks GB200/GB300). OpenAI indique que, pour les utilisateurs, l’intérêt pratique se traduirait par une meilleure prise en charge de tâches qui nécessitaient auparavant plusieurs étapes prompts et des ajustements manuels.

Le déploiement concerne ChatGPT et Codex, d’abord pour les offres Plus, Pro et Business, puis pour les clients Enterprise, avec un accès API annoncé dès le 24 avril.

Les performances annoncées : planning en terminal, résolution de tickets, contexte long

OpenAI met particulièrement en avant des résultats sur des évaluations orientées vers l’exécution outillée et la coordination de flux de travail.

  • Terminal-Bench 2.0 : GPT-5.5 atteindrait 82,7%, contre 75,1% pour GPT-5.4 et 69,4% pour Claude Opus 4.7. Ce benchmark vise des scénarios en ligne de commande, exécutés dans un environnement isolé.

  • SWE-Bench Pro : pour la résolution d’issues sur GitHub, le modèle afficherait 58,6%, avec davantage de correctifs potentiellement réalisés en une seule passe.

  • Expert-SWE (benchmark interne) : des tâches estimées à environ 20 heures en complétion humaine médiane seraient mieux gérées, avec un score de 73,1% (contre 68,5% pour GPT-5.4).

  • MRCR v2 en contexte long (jusqu’à 1 million de tokens) : sur un test de récupération d’une information enfouie dans un long document, GPT-5.5 obtiendrait 74,0% contre 36,6% pour GPT-5.4.

Toutefois, OpenAI souligne aussi des limites sur certains repères. Sur MCP Atlas, un benchmark lié à l’usage d’outils via le protocole MCP, aucun score n’est reporté pour GPT-5.5 dans la table associée. Cette absence est présentée comme un élément à considérer dans l’interprétation globale.

Efficacité et prix : des gains dépendants du type de travail

Sur le volet facturation API, GPT-5.5 est annoncé à des tarifs plus élevés que GPT-5.4 : 5 dollars pour un million de tokens en entrée et 30 dollars pour un million en sortie. OpenAI explique cette hausse par une meilleure efficacité en nombre de tokens pour des tâches comparables, ce qui ramènerait le coût effectif à un niveau proche (environ 20% au-dessus) une fois l’efficacité prise en compte. Cette approche est discutée avec validation par des mesures d’un laboratoire d’évaluation tierce.

Côté offre Pro, accessible pour les clients Pro, Business et Enterprise, la grille ferait apparaître 30 dollars par million de tokens en entrée et 180 dollars par million de tokens en sortie, avec des ressources de calcul supplémentaires sur les problèmes plus difficiles.

Dans tous les cas, le rapport coût-performance dépend de la nature des tâches : un modèle plus performant peut réduire le nombre d’itérations et de reprises, mais les calculs varient selon les environnements, les contraintes et les volumes traités. Avant un basculement, il est donc pertinent de tester sur des cas d’usage représentatifs.

Qu’en est-il en conditions réelles ?

OpenAI affirme que l’adoption de Codex est déjà significative en entreprise. L’exemple mis en avant décrit une équipe communication qui exploiterait des données de demandes sur plusieurs mois afin de construire un cadre de scoring et d’évaluation des risques, visant à automatiser les validations jugées faibles en risque.

Le discours d’OpenAI insiste aussi sur une amélioration de la latence : le modèle fournirait une vitesse de réponse comparable à GPT-5.4 par token, tout en augmentant le niveau d’intelligence. L’enjeu, pour les équipes qui déploient des chaînes agentiques, sera de vérifier si les gains observés dans les benchmarks se traduisent concrètement par moins d’allers-retours, moins d’échecs et un pilotage plus stable en production.

Pour évaluer ce type de gains dans des environnements de développement, les équipes peuvent s’appuyer sur des outils de productivité qui aident à structurer et exécuter des workflows automatisés. Par exemple, l’usage d’un moniteur portable peut faciliter le suivi d’exécutions et de validations lors de tests itératifs de pipelines (sans être spécifique à GPT, il répond à un besoin pratique de productivité).

À l’échelle des environnements d’exécution et de coordination, la qualité du « tool-use orchestration » reste un point déterminant. Un hub USB avec connectivité réseau peut aussi aider à stabiliser certains setups techniques (références d’outils, accès à des environnements de test) lors de campagnes de validation.

Ce qui reste à confirmer

Les scores publiés suggèrent des progrès notables pour des agents capables d’opérer en terminal, de traiter des tâches de correction et de mieux exploiter des contextes très longs. Mais la question centrale demeure : dans quelle mesure ces performances se traduisent-elles, de façon mesurable, par des gains de productivité sur des chaînes agentiques réelles, avec leurs contraintes (données imparfaites, contrôle qualité, outillage variable, exigences de sécurité) ? Les prochaines évaluations pratiques permettront de mieux trancher.