Une étude à Harvard révèle que l’IA diagnostique plus précisément les urgences à l’hôpital que deux médecins humains


Une étude récente s’est penchée sur les performances de modèles d’intelligence artificielle de type « langage » dans des situations médicales variées, y compris des cas réels de triage aux urgences. Dans une partie du travail, l’un des modèles s’est montré au moins aussi précis — voire plus — que des médecins.

Les résultats, publiés dans Science, comparent des propositions de diagnostic produites par des modèles à celles de médecins, à partir des informations disponibles dans le dossier médical électronique au moment où la décision devait être prise. Les chercheurs soulignent toutefois que cette étude ne constitue pas une preuve de capacité à remplacer les soignants au lit du patient.

Une comparaison entre IA et médecins lors du triage

Dans une expérience menée auprès de 76 patients pris en charge à l’hôpital Beth Israel, les chercheurs ont comparé les diagnostics proposés par deux médecins spécialistes de médecine interne à ceux générés par deux modèles d’OpenAI (o1 et 4o). Ces diagnostics ont ensuite été évalués par deux autres médecins, sans indication sur leur origine.

Selon l’étude, le modèle o1 a, à plusieurs étapes diagnostiques, obtenu des résultats au niveau ou supérieurs à ceux des deux médecins. Les différences les plus marquées concernaient le premier point de contact, correspondant au triage initial aux urgences, moment où l’information est souvent limitée mais où les décisions doivent être prises rapidement.

Des résultats chiffrés sur la précision des diagnostics

Dans les cas de triage, le modèle o1 a fourni un diagnostic « exact ou très proche » dans 67 % des situations. À titre de comparaison, l’un des deux médecins atteignait ce niveau de précision dans 55 % des cas, tandis que l’autre le faisait dans 50 % des cas.

Les auteurs indiquent avoir testé l’IA sur de nombreux repères et comparaisons, et rapportent que le modèle a surpassé des générations plus anciennes de modèles et aussi des références construites à partir de résultats médicaux.

Des limites importantes avant une utilisation en conditions réelles

L’étude ne conclut pas à une mise en production immédiate de l’IA dans les urgences. Elle met plutôt en avant la nécessité de « essais prospectifs » pour évaluer ces technologies dans des contextes de soins réels, avec des protocoles encadrant l’usage et la responsabilité.

Les chercheurs précisent également que leur évaluation s’appuie sur des informations textuelles. Or, d’autres travaux suggèrent que les modèles actuels sont moins performants lorsqu’ils doivent raisonner à partir d’entrées non textuelles (comme certaines données issues d’examens), ce qui peut limiter la transférabilité des résultats.

Enfin, des cliniciens interrogés estiment qu’il manque encore un cadre formel d’imputabilité autour des diagnostics assistés par IA. Ils soulignent aussi que, pour les premières minutes de prise en charge, l’objectif prioritaire est souvent d’identifier rapidement un risque vital, plutôt que de viser un diagnostic final dès le triage.

Un intérêt certain, mais pas un remplacement automatique

Les résultats mettent en évidence un potentiel pour aider à formuler ou structurer des hypothèses diagnostiques, notamment au moment du triage. Toutefois, l’enjeu pour les équipes médicales est aussi d’intégrer ces outils dans des parcours de soins sûrs, avec une validation clinique, des garde-fous et une clarification du rôle de l’IA par rapport à celui des médecins.

Pour les personnes qui souhaitent se familiariser avec l’univers de la data et de la recherche appliquée à la santé, certains lecteurs jugent utile de disposer d’un ordinateur portable adapté à l’analyse de données afin de suivre les publications et comprendre les méthodes. Dans le même esprit, un ouvrage de référence sur l’IA en médecine peut aider à contextualiser les résultats et leurs limites.