Les Machines Pensantes veulent créer une IA capable d’écouter vraiment tout en parlant


Thinking Machines, une jeune entreprise d’intelligence artificielle récemment créée par l’ex-responsable scientifique d’OpenAI Mira Murati, affirme vouloir changer la façon dont on dialogue avec les IA. Son annonce porte sur des « interaction models », une approche conçue pour permettre à l’outil de traiter votre demande tout en préparant sa réponse, de manière plus fluide et réactive.

Un modèle d’interaction pensé pour se rapprocher de la conversation

Jusqu’ici, la plupart des systèmes fonctionnent selon un schéma classique : l’utilisateur parle, le modèle « écoute », puis génère une réponse. L’approche de Thinking Machines vise à rompre avec cette alternance. L’idée est de faire fonctionner l’IA comme pendant un échange téléphonique : elle analyse l’entrée en continu tout en produisant la sortie, ce qui peut réduire la sensation de latence.

Le concept technique associé est celui de « full duplex », autrement dit une capacité à fonctionner sur des flux qui se répondent simultanément plutôt que de manière strictement séquencée.

Une promesse de rapidité, mais un aperçu de recherche

La société indique que son modèle, TML-Interaction-Small, serait capable de répondre en environ 0,40 seconde. Si cette valeur est confirmée dans des conditions réelles, elle se rapprocherait davantage du rythme naturel d’une conversation humaine, par rapport à des modèles couramment déployés aujourd’hui.

Pour autant, l’entreprise précise qu’il ne s’agit pas d’un produit grand public. La présentation s’apparente à un « research preview », d’abord réservé à un nombre limité d’utilisateurs, avec une diffusion plus large annoncée plus tard dans l’année.

Ce que cela change… et ce qu’il reste à vérifier

L’intérêt de la proposition réside surtout dans son orientation : faire de l’interactivité une propriété intrinsèque du modèle, plutôt qu’un simple ajout logiciel. Les performances annoncées, notamment au travers d’évaluations internes, semblent encourageantes.

Le point décisif demeure toutefois l’expérience utilisateur. Les métriques ne garantissent pas toujours la qualité perçue : en situation réelle, des facteurs comme la robustesse du traitement de la parole, la gestion des chevauchements et la cohérence des réponses peuvent influencer fortement le ressenti. Pour juger sur pièces, il faudra attendre une mise à disposition suffisamment large.

En pratique : préparer l’environnement pour un dialogue plus naturel

Si l’objectif est de se rapprocher d’une interaction « conversationnelle », l’environnement matériel peut aussi compter. Pour tester des échanges vocaux et réduire les frictions, certains utilisateurs privilégient des équipements pensés pour capter la voix avec plus de précision, par exemple un casque micro dédié comme un micro-casque USB pour visioconférence, ou un dispositif doté d’un contrôle audio fiable comme un casque Bluetooth avec réduction de bruit.