L’entreprise chinoise SenseTime lance un modèle d’images d’intelligence artificielle optimisé pour la rapidité


SenseTime, acteur chinois de l’intelligence artificielle surtout connu pour la reconnaissance faciale, a dévoilé un nouveau modèle open source capable à la fois de générer et d’analyser des images. L’entreprise affirme que SenseNova U1 peut réaliser ces tâches plus rapidement que des modèles de référence développés par des concurrents américains, dans un contexte où elle cherche à regagner des parts sur le marché chinois.

Un modèle conçu pour traiter l’image directement

La particularité mise en avant par SenseTime tient à la manière dont le système “raisonne”. Plutôt que de transformer d’abord les images en texte pour ensuite les interpréter, le modèle peut traiter les visuels sans cette étape préalable. Selon l’entreprise, cette approche accélère le raisonnement et limite les ressources de calcul nécessaires.

Dahua Lin, cofondateur et responsable scientifique de SenseTime, explique que le modèle ne dépend plus uniquement d’un traitement textuel : il peut aussi “raisonner” avec les images. Dans une perspective plus large, de tels systèmes pourraient aider des robots à mieux comprendre leur environnement physique.

Des puces chinoises pour contourner des contraintes externes

SenseTime indique que SenseNova U1 peut fonctionner avec des puces fabriquées en Chine. Plusieurs concepteurs de matériel locaux auraient annoncé, dès le jour du lancement, avoir optimisé la compatibilité avec le modèle.

Cette flexibilité s’inscrit dans un contexte de restrictions d’accès aux technologies de pointe, notamment liées aux contrôles américains sur l’exportation de certains composants. Même si l’entreprise affirme vouloir continuer à entraîner le modèle sur une variété de puces, elle reconnaît que recourir aux meilleures architectures disponibles peut rester nécessaire pour garantir la vitesse d’itération.

Un lancement open source pour accélérer l’amélioration

Le modèle est proposé gratuitement, ce qui s’inscrit dans la stratégie croissante de plusieurs acteurs chinois qui misent sur l’open source pour renforcer leur écosystème. SenseTime affirme que cette ouverture permet de recueillir plus rapidement des retours de chercheurs, afin d’améliorer plus vite le produit.

L’entreprise rappelle aussi que l’open source peut faciliter la collaboration avec des équipes internationales. Cette question intervient dans un climat plus sensible : SenseTime a été visé à plusieurs reprises par des sanctions américaines concernant l’utilisation de sa technologie de reconnaissance faciale dans des systèmes de surveillance. SenseTime conteste ces accusations, et les sanctions limitent toutefois les investissements et certaines transactions technologiques avec des entreprises américaines sans autorisation.

Qualité d’image et priorité à la vitesse

Dans un rapport technique associé au lancement, SenseTime soutient que SenseNova U1 produit des images de meilleure qualité que l’ensemble des modèles open source disponibles. L’entreprise compare sa performance à des systèmes chinois plus fermés, tout en reconnaissant que des leaders industriels — y compris des modèles récents — restent devant en termes de niveau global.

Le point central, selon SenseTime, concerne toutefois la rapidité : le modèle viserait à générer des images nettement plus vite que la concurrence, grâce à une structure technique nommée NEO-Unify, présentée par l’entreprise plus tôt dans l’année.

Repères pour le terrain : ce que cela change pour les utilisateurs

Pour les équipes qui testent ce type de modèle, la vitesse d’inférence peut compter autant que la qualité d’image, notamment pour des cas d’usage interactifs (maquettes visuelles, prototypage rapide, ou génération en flux). Les gains annoncés sur le traitement direct des images peuvent aussi réduire la complexité des chaînes de traitement, puisqu’une conversion préalable en texte n’est plus nécessaire.

En pratique, la mise en œuvre dépendra fortement du matériel disponible. Pour des tests sur station de travail, un ordinateur équipé d’une carte graphique NVIDIA haut de gamme peut aider à évaluer la réactivité du modèle. Pour ceux qui privilégient des environnements plus flexibles, un disque SSD externe de capacité élevée peut être utile afin de stocker modèles, jeux de données et sorties lors des itérations.