
Les débats autour de la “mise à l’épreuve” de l’intelligence artificielle se heurtent à un problème central : sans critères clairement définis, le processus risque d’être influencé par la politique. Plusieurs responsables et experts estiment qu’un contrôle public mal conçu pourrait mener à une approche où chaque camp cherche à orienter les règles du test pour renforcer ses propres positions.
Le risque d’un système façonné par le pouvoir
En l’absence de standards établis, la procédure pourrait devenir un levier politique, avertit Kreps. L’enjeu n’est pas seulement technique : il s’agit d’éviter un cadre où “celui qui détient le pouvoir” détermine la manière dont les évaluations sont menées. Or, pour l’instant, aucune des administrations américaines successives n’a proposé de mécanisme jugé capable de neutraliser ce risque.
Contrôler sans décider du contenu
Dans sa communication, Microsoft évoque la coopération avec la CAISI et le NIST pour développer les méthodes d’évaluation, notamment via des tests “adversariaux”. L’idée consiste à examiner comment les systèmes réagissent à des scénarios inattendus, à des voies potentielles de mauvaise utilisation et à différents modes de défaillance. Microsoft compare ce travail à des tests de sécurité menés sur des équipements critiques — comme des airbags ou des freins — afin d’assurer une fiabilité sous contrainte.
Pourtant, l’approche ne convainc pas entièrement Gregory Falco, chercheur à l’université Cornell. Il met en garde contre une surveillance qui se limiterait à une validation politique des sorties d’un modèle. Le contrôle de l’État ne devrait pas devenir un outil permettant de trancher si un système produit des propos jugés favorables ou défavorables à une administration en place.
Vers un audit indépendant plutôt qu’un contrôle partisan
Falco plaide plutôt pour une forme d’audit indépendant, capable d’évaluer la sécurité et la robustesse sans chercher à contrôler le contenu. L’idée est simple : si les entreprises savent que leurs modèles peuvent être audités à tout moment, elles auront davantage d’incitations à renforcer leurs tests internes et à réduire les déploiements risqués. Dans cette logique, l’audit serait accompagné de “conséquences réelles” en cas de négligence.
Il estime par ailleurs que le gouvernement fédéral ne dispose pas aujourd’hui des compétences techniques, de l’infrastructure et du suivi opérationnel nécessaires pour évaluer directement ces systèmes à grande échelle. D’où l’intérêt, selon lui, de s’appuyer sur une évaluation structurée et externalisée, plutôt qu’un dispositif strictement interne.
Un cadre de sécurité qui reste à construire
Au-delà des intentions, la réussite de ces démarches dépendra de détails souvent déterminants : qui fixe les critères, comment sont conduits les tests, comment sont gérés les résultats sensibles et quelle place est donnée à l’indépendance des évaluateurs. Sans ces garde-fous, la sécurité de l’IA pourrait se retrouver fragilisée par des logiques de gouvernance difficilement compatibles avec l’objectif de protection du public.
- Pour mieux suivre l’évolution des outils de test et de validation, certains lecteurs se tournent vers des ressources générales sur l’évaluation des systèmes d’IA, comme un ouvrage sur l’évaluation des modèles de machine learning.
- Dans une démarche pratique de compréhension des principes de sécurité logicielle, des lecteurs privilégient aussi des livres dédiés à l’apprentissage adversarial, afin de saisir les méthodes utilisées pour explorer des comportements inattendus.

