La base de données ArXiv bannira pendant un an les auteurs qui confieront la totalité du travail à l’IA


Le dépôt scientifique en ligne arXiv, très utilisé en informatique et en mathématiques, durcit ses règles contre les articles réalisés avec l’aide de modèles d’intelligence artificielle quand les auteurs ne vérifient pas les résultats. L’institution prévoit une sanction d’un an pouvant aller jusqu’à des exigences supplémentaires avant toute nouvelle publication sur la plateforme.

Une responsabilité totale exigée, quel que soit l’outil utilisé

arXiv précise qu’il ne s’agit pas d’une interdiction générale de recourir aux modèles de langage. Le point central est l’obligation pour les auteurs d’assumer la responsabilité du contenu publié. Autrement dit, même si un texte est généré ou assisté par un outil d’IA, l’équipe reste tenue de contrôler la qualité, l’exactitude et la conformité des éléments présentés.

Les manquements visés incluent notamment :

  • des références inventées ou non vérifiables, dites « hallucinations » ;
  • des éléments laissant penser que les résultats issus de la génération par LLM n’ont pas été contrôlés ;
  • des contenus problématiques tels que erreurs, contenus biaisés ou imprécis, ou encore éléments pouvant induire en erreur.

Une sanction en cas de preuves « irréfutables »

La mesure annoncée prévoit qu’en présence d’éléments jugés « irréfutables » montrant que les auteurs n’ont pas vérifié ce que l’IA a produit, une publication pourra entraîner une interdiction d’un an sur arXiv. En outre, les soumissions ultérieures devront d’abord être acceptées par une revue ou un lieu de publication évalué par un comité de lecture reconnu.

Selon les modalités évoquées, la décision n’est pas automatique : les questions sont remontées par les modérateurs, puis confirmées par les responsables de section. Les auteurs conservent également la possibilité de faire appel.

Pourquoi arXiv renforce ses garde-fous

Cette évolution s’inscrit dans un contexte plus large de vigilance accrue face aux publications de faible qualité. Plusieurs études sur la recherche biomédicale ont documenté une progression des citations fabriquées, un phénomène que l’essor des modèles de langage peut accentuer, notamment lorsque des références sont produites sans contrôle humain.

Dans ce cadre, arXiv tente de limiter l’impact des contenus automatisés insuffisamment relus, tout en maintenant l’objectif initial du dépôt : favoriser la circulation rapide des prépublications, sous réserve de garanties minimales de fiabilité.

Outils utiles pour vérifier et relire avant soumission

Pour réduire le risque de références erronées ou de résultats mal interprétés, beaucoup d’équipes s’appuient sur des workflows de relecture rigoureux et des outils de vérification. Par exemple, un logiciel de gestion bibliographique peut aider à recouper les citations et à harmoniser les références. De même, un outil de détection de similitudes peut compléter les contrôles internes avant dépôt.