L’outil d’interprétabilité mécaniste de cette startup pour diagnostiquer les LLM

Goodfire, une startup spécialisée dans l’analyse interne des modèles d’IA, annonce Silico, un outil orienté « interpretabilité mécanistique ». L’objectif est de mieux comprendre ce qui se passe à l’intérieur de certains grands modèles de langage (LLM) afin d’en diagnostiquer les faiblesses et, à terme, d’améliorer la façon de les entraîner. Une approche qui vise à rendre le développement moins dépendant d’essais successifs.

Comprendre le fonctionnement interne des LLM

Les LLM performants peuvent produire des résultats utiles, mais leur logique interne reste difficile à décrypter. Goodfire s’appuie sur une méthode de recherche connue sous le nom d’interpretabilité mécanistique : elle consiste à cartographier des neurones et des connexions pour relier des comportements du modèle à des mécanismes internes.

Selon l’entreprise, ce travail aide à identifier les causes de certains dysfonctionnements, notamment lorsque le modèle produit des sorties indésirables.

De l’audit à l’ingénierie pendant l’entraînement

Jusqu’ici, l’interpretabilité mécanistique est souvent utilisée pour analyser des modèles déjà entraînés. Goodfire veut aller plus loin en l’intégrant plus tôt dans le processus : utiliser ces informations pour influencer la conception et le réglage du modèle, avec l’idée de réduire la part de tâtonnement.

La startup décrit cette démarche comme une évolution vers une forme de « précision » dans le développement, en exposant davantage de paramètres exploitables pendant l’entraînement.

Un outil automatisé via des agents

Silico s’appuie sur des agents capables d’automatiser une partie du travail complexe habituellement réalisé par des chercheurs. L’entreprise affirme que ce passage à l’automatisation permet de combler un écart entre l’analyse effectuée manuellement et une utilisation plus « plateforme » par des équipes clientes.

Goodfire indique aussi avoir déjà appliqué ses méthodes pour ajuster certains comportements, par exemple en cherchant à réduire les hallucinations.

Un avis nuancé dans la communauté

Des chercheurs reconnaissent l’intérêt de l’outil, tout en restant prudents sur l’ampleur des promesses. Un chercheur impliqué dans ce domaine estime que l’approche rend le processus plus « précis », tout en suggérant que l’on gagnerait moins en maîtrise théorique qu’en pratique.

Éléments à surveiller lors de l’adoption

La capacité de Silico à généraliser ses analyses à différents modèles et configurations, au-delà de quelques cas étudiés.
La robustesse des diagnostics : distinguer clairement ce qui relève d’un mécanisme interne identifiable et ce qui relève de corrélations.
L’intégration opérationnelle dans un pipeline de formation ou de test, notamment pour des équipes non spécialisées en recherche.

Pour mener des expérimentations autour de l’analyse de modèles et du prototypage d’évaluations, certaines équipes s’appuient aussi sur des environnements de calcul adaptés. Par exemple, un serveur équipé de GPU pour l’entraînement et l’analyse peut faciliter les tests répétés, tandis qu’un outil de suivi et d’évaluation des modèles peut aider à structurer les mesures de qualité et à observer l’impact des ajustements.

News Arc

L’outil d’interprétabilité mécaniste de cette startup pour diagnostiquer les LLM

Comprendre le fonctionnement interne des LLM

De l’audit à l’ingénierie pendant l’entraînement

Un outil automatisé via des agents

Un avis nuancé dans la communauté

Éléments à surveiller lors de l’adoption

Plus de publications

VAR : “effet pile ou face”, estime Pep Guardiola, entraîneur de Manchester City

Les meilleures machines à café filtre : sélection de la rédaction (2026)

JPMorgan (JPM) lancera un nouveau fonds tokenisé, dans un contexte d’accélération de la tokenisation à Wall Street

Nos rédacteurs partent à Ibiza, en Afrique du Sud et à Paris en mai : voici ce qu’ils emportent