Goodfire, une startup spécialisée dans l’analyse interne des modèles d’IA, annonce Silico, un outil orienté « interpretabilité mécanistique ». L’objectif est de mieux comprendre ce qui se passe à l’intérieur de certains grands modèles de langage (LLM) afin d’en diagnostiquer les faiblesses et, à terme, d’améliorer la façon de les entraîner. Une approche qui vise à rendre le développement moins dépendant d’essais successifs.
Comprendre le fonctionnement interne des LLM
Les LLM performants peuvent produire des résultats utiles, mais leur logique interne reste difficile à décrypter. Goodfire s’appuie sur une méthode de recherche connue sous le nom d’interpretabilité mécanistique : elle consiste à cartographier des neurones et des connexions pour relier des comportements du modèle à des mécanismes internes.
Selon l’entreprise, ce travail aide à identifier les causes de certains dysfonctionnements, notamment lorsque le modèle produit des sorties indésirables.
De l’audit à l’ingénierie pendant l’entraînement
Jusqu’ici, l’interpretabilité mécanistique est souvent utilisée pour analyser des modèles déjà entraînés. Goodfire veut aller plus loin en l’intégrant plus tôt dans le processus : utiliser ces informations pour influencer la conception et le réglage du modèle, avec l’idée de réduire la part de tâtonnement.
La startup décrit cette démarche comme une évolution vers une forme de « précision » dans le développement, en exposant davantage de paramètres exploitables pendant l’entraînement.
Un outil automatisé via des agents
Silico s’appuie sur des agents capables d’automatiser une partie du travail complexe habituellement réalisé par des chercheurs. L’entreprise affirme que ce passage à l’automatisation permet de combler un écart entre l’analyse effectuée manuellement et une utilisation plus « plateforme » par des équipes clientes.
Goodfire indique aussi avoir déjà appliqué ses méthodes pour ajuster certains comportements, par exemple en cherchant à réduire les hallucinations.
Un avis nuancé dans la communauté
Des chercheurs reconnaissent l’intérêt de l’outil, tout en restant prudents sur l’ampleur des promesses. Un chercheur impliqué dans ce domaine estime que l’approche rend le processus plus « précis », tout en suggérant que l’on gagnerait moins en maîtrise théorique qu’en pratique.
Éléments à surveiller lors de l’adoption
-
La capacité de Silico à généraliser ses analyses à différents modèles et configurations, au-delà de quelques cas étudiés.
-
La robustesse des diagnostics : distinguer clairement ce qui relève d’un mécanisme interne identifiable et ce qui relève de corrélations.
-
L’intégration opérationnelle dans un pipeline de formation ou de test, notamment pour des équipes non spécialisées en recherche.
Pour mener des expérimentations autour de l’analyse de modèles et du prototypage d’évaluations, certaines équipes s’appuient aussi sur des environnements de calcul adaptés. Par exemple, un serveur équipé de GPU pour l’entraînement et l’analyse peut faciliter les tests répétés, tandis qu’un outil de suivi et d’évaluation des modèles peut aider à structurer les mesures de qualité et à observer l’impact des ajustements.

