Microsoft identifie sept nouvelles façons de pirater les agents IA

Plus vous examinez les agents IA, plus il semble que les problèmes peuvent se produire. Microsoft a donc étendu sa taxonomie des modes de défaillance pour faciliter la discussion sur les correctifs possibles.

Microsoft a identifié sept nouveaux modes de défaillance dans les systèmes d’IA agentique, en plus de ceux identifiés l’année dernière dans sa première taxonomie des modes de défaillance dans les systèmes d’IA agentique.

Quatre éléments ont contribué à la liste croissante des erreurs possibles de l’IA agentique : la vitesse à laquelle la technologie s’est généralisée, la maturité croissante de l’écosystème Model Context Protocol (MCP), la montée en puissance des agents utilisant l’ordinateur et, enfin, la collecte de plus de preuves empiriques à mesure que les chercheurs obtenaient davantage de résultats concrets.

Les sept nouveaux modes de défaillance identifiés sont :

Agentic Supply Chain Compromise : le comportement des agents peut être affecté par le langage naturel plutôt que par un code malveillant ;
Détournement d’objectif : les instructions contradictoires semblent alignées sur l’achèvement légitime de la tâche, tout en redirigeant silencieusement l’objectif terminal de l’agent ;
Escalade de confiance entre agents : un agent compromis revendique une fausse identité ou augmente les autorisations revendiquées auprès d’un orchestrateur ;
Attaque visuelle de l’agent d’utilisation de l’ordinateur (CUA) : les agents fonctionnant via des interfaces graphiques peuvent être manipulés via un contenu contenant des instructions contradictoires pour l’agent ;
Contamination du contexte de session : un adversaire introduit des données qui biaisent le raisonnement de l’agent dans les étapes suivantes, sans déclencher de contrôles de sécurité à aucune étape individuelle ;
MCP / Plugin Abuse — une mise à jour sur la couverture de la taxonomie originale de la compromission des fonctions autour des protocoles MCP et des plugins, en particulier les surfaces d’attaque spécifiques à ces protocoles ;
Divulgation des capacités/architecture : un agent révèle des détails d’implémentation internes tels que les noms et schémas des outils, la structure des invites système, les interfaces mémoire ou la logique de déclenchement du consentement/humain dans la boucle.

Microsoft conseille aux équipes de sécurité d’utiliser ces définitions pour influencer leur planification de l’inventaire de leur chaîne d’approvisionnement, en générant une nomenclature logicielle (SBOM) pour chaque agent déployé, en vérifiant l’identité de l’agent de manière cryptographique et non positionnelle, en délivrant des informations d’identification attestables lors du provisionnement, en ajoutant les sept nouveaux modes de défaillance à leur matrice de couverture de l’équipe rouge et en auditant l’expérience utilisateur humaine dans la boucle en tant que contrôle de sécurité.

Intelligence artificielleCyberattaquesCybercriminalitéSécurité