Voici à quoi ressemblent les plus grandes banques de logiciels malveillants du monde, empilés comme des disques durs


Des archives de logiciels malveillants, accumulées par des équipes de recherche et des plateformes d’analyse, atteignent aujourd’hui des volumes impressionnants. Certains acteurs évoquent des collections qui se comptent en dizaines de téraoctets, voire en pétaoctets. Pour rendre ces chiffres plus concrets, il est possible de les comparer à une “hauteur” de disques durs empilés, tout en gardant à l’esprit que ces estimations restent approximatives.

Des volumes de données qui changent d’échelle

Un groupe de recherche en sécurité affirme disposer d’une archive de code source et d’éléments associés représentant environ 30 téraoctets de données. De son côté, un service d’analyse largement connu, qui reçoit des échantillons de fichiers provenant des utilisateurs, indique disposer d’environ 31 pétaoctets d’échantillons malveillants. La différence entre téraoctets et pétaoctets illustre le passage à une échelle difficile à appréhender à l’œil nu.

Une comparaison en disques durs empilés

Pour visualiser l’ordre de grandeur, l’exercice consiste à partir d’hypothèses simplificatrices : utiliser des disques durs internes standard d’environ 1 téraoctet capables de s’aligner physiquement, avec une épaisseur d’environ 1 pouce par disque. En supposant que la capacité “théorique” correspond au besoin de stockage, on peut alors convertir des volumes de données en “nombre de disques” et donc en “hauteur”.

Avec ce raisonnement :

  • 30 téraoctets correspondent à environ 30 disques, soit une pile d’environ 30 pouces (près de 2,5 pieds).
  • 31 pétaoctets représentent environ 31 744 disques, ce qui donnerait une hauteur d’environ 2 645 pieds.

Des repères avec des monuments connus

En replaçant ces hauteurs dans des repères familiers, on observe une comparaison frappante : la hauteur attribuée à la collection en pétaoctets se situerait à proximité de celle des très hauts bâtiments emblématiques, et dépasserait nettement celle de la tour Eiffel. L’intérêt de ce type de calcul n’est pas de “mesurer” précisément des infrastructures, mais d’aider à saisir le saut de grandeur entre des volumes exprimés en téraoctets et en pétaoctets.

Pourquoi ces estimations restent théoriques

Ces calculs reposent sur des hypothèses grossières : la capacité réellement utilisable d’un disque varie, une partie de l’espace peut être réservée à d’autres besoins (systèmes de fichiers, redondance), et les données “malware” peuvent être structurées différemment selon les formats, les métadonnées et les mécanismes de compression ou de duplication. En pratique, un centre de données n’est pas constitué d’une simple pile de disques, mais l’exercice donne un ordre de grandeur utile.

Si l’on cherche à se faire une idée de ce que représentent des volumes proches d’un téraoctet, certains utilisateurs explorent des solutions de stockage simples, par exemple via un disque externe conçu pour un usage courant comme un SSD ou disque externe d’environ 1 To, ou bien des modèles orientés archivage et stockage interne comme des disques 3,5 pouces autour de 1 To. Ces choix ne reflètent pas les architectures d’un environnement d’analyse, mais ils aident à visualiser les capacités de base.