De l’empoisonnement des données à l’injection rapide, les menaces contre les applications et les fondations de l’IA d’entreprise commencent à passer de la théorie à la réalité.
Les attaques contre les systèmes et infrastructures d’IA commencent à prendre forme dans des cas concrets, et les experts en sécurité s’attendent à ce que le nombre de ces types d’attaques augmente dans les années à venir. Dans la hâte de tirer parti des avantages de l’IA, la plupart des organisations ont joué un rôle rapide et lâche en matière de renforcement de la sécurité lors du déploiement d’outils et de cas d’utilisation d’IA. En conséquence, les experts préviennent également que de nombreuses organisations ne sont pas préparées à détecter, détourner ou répondre à de telles attaques.
« La plupart sont conscients de la possibilité de telles attaques, mais je ne pense pas que beaucoup de gens sachent pleinement comment atténuer correctement le risque », déclare John Licato, professeur agrégé au Bellini College of Artificial Intelligence, Cybersecurity and Computing de l’Université de Floride du Sud, fondateur et directeur de l’Advancing Machine and Human Reasoning Lab et propriétaire de la start-up Actualization.AI.
Principales menaces pour les systèmes d’IA
Plusieurs types d’attaques contre les systèmes d’IA apparaissent. Certaines attaques, comme l’empoisonnement des données, se produisent pendant l’entraînement. D’autres, comme les entrées contradictoires, se produisent pendant l’inférence. D’autres encore, comme le vol de modèle, se produisent lors du déploiement.
Voici un aperçu des principaux types de menaces contre lesquelles les experts en infrastructure d’IA mettent aujourd’hui en garde. Certains sont plus rares ou théoriques que d’autres, bien que beaucoup aient été observés dans la nature ou démontrés par des chercheurs grâce à des preuves de concept notables.
Empoisonnement des données
L’empoisonnement des données est un type d’attaque dans lequel des acteurs malveillants manipulent, altèrent et polluent les données utilisées pour développer ou former des systèmes d’IA, y compris des modèles d’apprentissage automatique. En corrompant les données ou en introduisant des données défectueuses, les attaquants peuvent modifier, biaiser ou rendre inexactes les performances d’un modèle.
Imaginez une attaque qui indique à un modèle que le vert signifie arrêter au lieu de partir, explique Robert T. Lee, CAIO et chef de la recherche chez SANS, une société de formation et de certification en sécurité. « Cela vise à dégrader les résultats du modèle », explique-t-il.
Empoisonnement de modèle
Ici, l’attaque s’attaque au modèle lui-même, cherchant à produire des résultats inexacts en altérant l’architecture ou les paramètres du modèle. Certaines définitions des modèles d’empoisonnement de modèle incluent également des attaques dans lesquelles les données d’entraînement du modèle ont été corrompues par empoisonnement de données.
Empoisonnement d’outils
Invariant Labs a identifié ce type d’attaque au printemps 2025. Lors de l’annonce de ses conclusions, Invariant a écrit qu’il avait « découvert une vulnérabilité critique dans le Model Context Protocol (MCP) qui permet ce que nous appelons. Cette vulnérabilité peut conduire à l’exfiltration de données sensibles et à des actions non autorisées de la part des modèles d’IA ».
La société a ajouté que ses expériences ont montré « qu’un serveur malveillant peut non seulement exfiltrer les données sensibles de l’utilisateur, mais également détourner le comportement de l’agent et ignorer les instructions fournies par d’autres serveurs de confiance, conduisant à une compromission complète des fonctionnalités de l’agent, même en ce qui concerne l’infrastructure de confiance. »
Ces attaques impliquent l’intégration d’instructions malveillantes dans les descriptions des outils MCP qui, lorsqu’elles sont interprétées par des modèles d’IA, peuvent détourner le modèle. Ces attaques corrompent essentiellement la couche MCP « pour inciter un agent à faire quelque chose », explique Chirag Mehta, directeur adjoint et analyste principal chez Constellation Research.
Pour en savoir plus sur les menaces MCP, consultez « Top 10 des vulnérabilités MCP : les risques cachés des intégrations d’IA ».
Injection rapide
Lors d’une attaque par injection d’invite, les pirates utilisent des invites qui semblent légitimes mais qui contiennent en réalité des commandes malveillantes intégrées destinées à amener le grand modèle de langage à faire quelque chose qu’il ne devrait pas faire. Les pirates utilisent ces invites pour tromper le modèle afin qu’il contourne ou outrepasse ses garde-fous, partage des données sensibles ou effectue des actions non autorisées.
« Grâce à une injection rapide, vous pouvez modifier ce que l’agent d’IA est censé faire », explique Fabien Cros, directeur des données et de l’IA du cabinet de conseil international Ducker Carlisle.
Plusieurs attaques notables par injection d’invite et preuves de concept ont été signalées récemment, notamment des chercheurs incitant ChatGPT à s’injecter lui-même des invites, des attaquants intégrant des invites malveillantes dans des macros de documents et des chercheurs faisant la démonstration d’attaques par invite sans clic sur des agents d’IA populaires.
Contributions contradictoires
Les propriétaires et les opérateurs de modèles utilisent des données perturbées pour tester la résilience des modèles, mais les pirates informatiques les utilisent pour les perturber. Lors d’une attaque d’entrée contradictoire, des acteurs malveillants transmettent des données trompeuses à un modèle dans le but de rendre la sortie du modèle incorrecte.
Les changements apportés à l’entrée perturbée sont généralement faibles, ou les données trompeuses peuvent être du bruit ; les changements sont délibérément conçus pour être suffisamment subtils pour échapper à la détection par les systèmes de sécurité, mais toujours capables de perturber le modèle. Cela fait des entrées adverses un type d’attaque d’évasion.
Vol de modèle/extraction de modèle
Les acteurs malveillants peuvent répliquer, ou effectuer de l’ingénierie inverse, un modèle, ses paramètres et même ses données de formation. Pour ce faire, ils utilisent généralement des API accessibles au public (par exemple, l’API de prédiction du modèle ou une API de services cloud) pour interroger le modèle à plusieurs reprises et collecter les résultats.
Ils peuvent ensuite analyser la réaction du modèle et utiliser cette analyse pour le reconstruire.
« Cela permet une duplication non autorisée des outils eux-mêmes », explique Allison Wikoff, directrice et responsable Amériques du renseignement sur les menaces mondiales chez PwC.
Inversion de modèle
L’inversion de modèle fait référence à une attaque d’extraction spécifique dans laquelle l’adversaire tente de reconstruire ou de déduire les données utilisées pour entraîner le modèle.
Le nom vient du fait que les pirates informatiques « inversent » le modèle, en utilisant ses sorties pour reconstruire ou procéder à une ingénierie inverse des informations sur les entrées utilisées pour entraîner le modèle.
Risques liés à la chaîne d’approvisionnement
Comme d’autres systèmes logiciels, les systèmes d’IA sont construits avec une combinaison de composants pouvant inclure du code open source, des modèles open source, des modèles tiers et diverses sources de données. Toute vulnérabilité de sécurité dans les composants peut apparaître dans les systèmes d’IA. Cela rend les systèmes d’IA vulnérables aux attaques de la chaîne d’approvisionnement, où les pirates peuvent exploiter les vulnérabilités des composants pour lancer une attaque.
Pour des exemples récents, voir « Les menaces liées à la chaîne d’approvisionnement de l’IA se profilent – alors que les pratiques de sécurité sont à la traîne ».
Jailbreak
Également appelé jailbreak modèle, l’objectif des attaquants ici est d’amener les systèmes d’IA – principalement en s’engageant avec des LLM – à ignorer les garde-fous qui limitent leurs actions et leur comportement, tels que les garanties visant à empêcher les sorties nuisibles, offensantes ou contraires à l’éthique.
Les pirates peuvent utiliser diverses techniques pour exécuter ce type d’attaque. Par exemple, ils pourraient utiliser un exploit de jeu de rôle (c’est-à-dire une attaque de jeu de rôle), en utilisant des commandes pour demander à l’IA d’adopter un personnage (comme un développeur) capable de contourner les garde-fous. Ils pourraient dissimuler des instructions malveillantes sous des invites apparemment légitimes ou utiliser du codage, des mots étrangers ou des caractères du clavier pour contourner les filtres. Ils pourraient également utiliser une invite formulée sous la forme d’une question hypothétique ou de recherche ou d’une série d’invites menant à leur objectif final.
Ces objectifs, qui sont également variés, incluent notamment amener les systèmes d’IA à écrire du code malveillant, à diffuser du contenu problématique et à révéler des données sensibles.
« Lorsqu’il existe une interface de chat, il existe des moyens d’interagir avec elle pour la faire fonctionner en dehors des paramètres », explique Licato. « C’est le compromis que représente un système de raisonnement de plus en plus puissant. »
Contrecarrer les menaces qui pèsent sur les systèmes d’IA
Alors que leurs collègues dirigeants se lancent dans des initiatives d’IA à la recherche d’une productivité et d’une innovation améliorées, les RSSI doivent jouer un rôle actif pour garantir que la sécurité de ces initiatives – et l’infrastructure d’IA de l’organisation dans son ensemble – est une priorité absolue.
Selon une enquête récente de la société de technologie de sécurité HackerOne, 84 % des RSSI sont désormais responsables de la sécurité de l’IA et 82 % supervisent désormais la confidentialité des données. Si les RSSI ne font pas progresser leurs stratégies de sécurité pour contrecarrer les attaques contre les systèmes d’IA et les données qui les alimentent, les problèmes futurs se reflèteront sur leur leadership, qu’ils aient ou non été invités à la table lorsque les initiatives d’IA ont été conçues et lancées.
En conséquence, les RSSI ont « besoin d’une stratégie proactive de sécurité de l’IA », selon Mehta de Constellation.
« La sécurité de l’IA n’est pas seulement un défi technique, mais aussi un impératif stratégique nécessitant l’adhésion des dirigeants et une collaboration interfonctionnelle », écrit-il dans son rapport de 2025 AI Security Beyond Traditional Cyberdefenses: Rethinking Cybersecurity for the Age of AI and Autonomy. « La gouvernance des données est fondamentale, car sécuriser l’IA commence par garantir l’intégrité et la provenance des données de formation et des entrées du modèle. Les équipes de sécurité doivent développer une nouvelle expertise pour gérer les risques liés à l’IA, et les dirigeants d’entreprise doivent reconnaître les implications des systèmes d’IA autonomes et les cadres de gouvernance nécessaires pour les gérer de manière responsable. »
Des stratégies permettant d’évaluer, de gérer et de contrecarrer la menace d’attaques contre les systèmes d’IA émergent. En plus de maintenir une solide gouvernance des données et d’autres bonnes pratiques fondamentales en matière de cyberdéfense, les experts en IA et en sécurité affirment que les RSSI et leurs organisations devraient évaluer les modèles d’IA avant de les déployer, surveiller les systèmes d’IA utilisés et utiliser des équipes rouges pour tester les modèles.
Les RSSI devront peut-être mettre en œuvre des actions spécifiques pour contrer certaines attaques, explique Wikoff de PwC. Par exemple, les RSSI cherchant à prévenir le vol de modèles peuvent surveiller les requêtes et les modèles suspects, ainsi que définir des délais d’attente et capturer des réponses à débit limité. Ou bien, pour aider à prévenir les attaques d’évasion, les responsables de la sécurité pourraient recourir à une formation contradictoire – essentiellement des modèles de formation pour se prémunir contre ce type d’attaques.
Adopter MITRE ATLAS est une autre étape. Ce cadre, abréviation de Adversarial Threat Landscape for Artificial-Intelligence Systems, fournit une base de connaissances cartographiant la manière dont les attaquants ciblent les systèmes d’IA et détaille l’identification des tactiques, techniques et procédures (TTP).
Les experts en sécurité et en IA reconnaissent les défis liés à la prise de telles mesures. De nombreux RSSI sont confrontés à des menaces plus immédiates, notamment l’IA fantôme, et des attaques qui deviennent plus rapides, plus sophistiquées et plus difficiles à détecter, en partie grâce à l’utilisation de l’IA par les attaquants. Et étant donné que les attaques contre les systèmes d’IA en sont encore à leurs balbutiements, certains types d’attaques étant encore considérés comme théoriques, les RSSI ont du mal à obtenir les ressources nécessaires pour développer des stratégies et des compétences permettant de contrer les attaques contre les systèmes d’IA.
« Pour le RSSI, c’est quelque chose de très difficile, car les attaques contre les backends de l’IA font encore l’objet de recherches. Nous en sommes aux premiers stades de la compréhension de ce que font les pirates et pourquoi », déclare Lee, de SANS.
Lee et d’autres reconnaissent la pression concurrentielle qui s’exerce sur les organisations pour qu’elles tirent le meilleur parti de l’IA, mais ils soulignent que les RSSI et leurs collègues dirigeants ne peuvent pas laisser la sécurisation des systèmes d’IA reléguée au second plan.
« Réfléchir à ce que pourraient être ces attaques au fur et à mesure qu’ils construisent l’infrastructure est essentiel pour le RSSI », déclare Matt Gorham, responsable du Cyber and Risk Innovation Institute de PwC.



