Comment une compétence d'agent IA malveillant a réussi les contrôles de sécurité et a atteint 26 000 utilisateurs

AIR indique que l’analyse statique n’a pas réussi à détecter une compétence redirigée vers un domaine contrôlé et qui a ensuite modifié sa charge utile.

Une fausse compétence d’agent IA qui a réussi les contrôles de sécurité a atteint plus de 26 000 utilisateurs via Instagram, mettant en évidence de nouveaux risques alors que les entreprises s’appuient sur des outils basés sur l’IA.

Certains des agents impliqués étaient liés à des comptes d’entreprise, a indiqué AIR. La société a déclaré qu’une attaque similaire aurait pu révéler des conversations privées et des systèmes internes. AIR a déclaré qu’aucun agent n’avait été blessé lors de la recherche et que la charge utile du test collectait uniquement les adresses e-mail des utilisateurs afin qu’ils puissent être informés.

L’expérience était centrée sur une compétence appelée brand-landingpage, présentée comme un outil permettant d’aider les utilisateurs à créer une page de destination avec l’outil de conception Stitch de Google. AIR a déclaré avoir choisi ce cas d’utilisation car il séduirait les utilisateurs professionnels non techniques, notamment les spécialistes du marketing, les vendeurs et les concepteurs.

Pour rendre la compétence crédible, AIR a déclaré avoir recherché deux signaux de confiance : la réputation de GitHub et les verdicts sûrs des scanners de sécurité. Plutôt que de construire sa crédibilité à partir de zéro, il a soumis la compétence à un référentiel d’agents open source populaire qui, selon AIR, comptait environ 36 000 étoiles GitHub et 156 compétences. La pull request a été fusionnée après quelques jours.

AIR a ensuite fait la promotion de la compétence via une publicité Instagram, qui a incité les utilisateurs à l’installer et à l’exécuter.

La technique malveillante ne dépendait pas du code suspect contenu dans les fichiers soumis. Au lieu de cela, la compétence a demandé aux agents de configurer un SDK Stitch en suivant les instructions d’installation hébergées sur stitch-design.ai, un domaine contrôlé par AIR. Le domaine Stitch actuel de Google est stitch.withgoogle.com.

AIR a déclaré avoir configuré le faux domaine pour qu’il redirige vers le vrai site Stitch, ce qui rend le problème difficile à détecter à partir d’un seul examen statique de la compétence.

« Les scanners de sécurité des compétences actuels partagent tous la même conception : ils analysent le SKILL.md de la compétence et les ressources regroupées, en utilisant une combinaison d’heuristiques statiques et d’agents LLM », a déclaré AIR.

La société a déclaré avoir testé la compétence sur des scanners de Cisco, Nvidia et skills.sh, et que tous avaient marqué la page de destination de la marque comme sûre.

Une fois la compétence distribuée, AIR a modifié le contenu de la fausse documentation Stitch. La page révisée demandait aux agents de télécharger et d’exécuter un script. Lors du test d’AIR, ce script a collecté l’adresse e-mail de l’utilisateur, mais la société a déclaré que la même approche aurait pu être utilisée pour compromettre les machines exécutant l’agent.

AIR a déclaré que l’expérience a montré que les compétences des agents IA ne peuvent pas être évaluées uniquement en analysant leurs fichiers packagés au moment de l’approbation ou de l’installation. Le problème, dit-il, est qu’une compétence peut réussir l’examen tout en dirigeant un agent vers une page Web qui changera ultérieurement.

Les compétences en IA présentent un risque de dépendance

Pour les équipes de sécurité, la préoccupation n’est pas seulement que la compétence réussisse l’examen, mais que son comportement puisse changer une fois la confiance accordée.

Le test suggère que les RSSI pourraient devoir traiter les compétences en IA comme faisant partie de la chaîne d’approvisionnement des logiciels d’entreprise, plutôt que comme de simples invites ou fichiers texte, selon Devashri Datta, chercheur en cybersécurité.

« Traiter les compétences des agents comme de simples textes ou invites est un malentendu architectural fondamental », a déclaré Datta. « Ce sont des ensembles d’instructions exécutables qui dictent la manière dont un agent fonctionne, interagit avec les systèmes de l’entreprise et achemine les données, et ils doivent être gouvernés avec la même rigueur que les packages open source tiers ou les intégrations SaaS.

Keith Prabhu, fondateur et PDG de Confidis, a déclaré que les compétences des agents d’IA devraient être traitées comme des « dépendances vivantes de tiers » plutôt que comme des plugins statiques.

« Une analyse de sécurité ponctuelle n’est plus suffisante ; les entreprises ont besoin d’une validation continue et de contrôles d’exécution stricts », a déclaré Prabhu.

Cela commence par un inventaire des compétences en IA à l’échelle de l’entreprise qui donne aux équipes de sécurité des enregistrements clairs de propriété et une visibilité sur les connexions externes de chaque compétence et les flux de données autorisés.

Ce cas souligne également pourquoi l’analyse statique ponctuelle est mal adaptée aux environnements orchestrés par LLM, a déclaré Datta. La compétence a réussi les scanners car la charge utile se trouvait derrière une URL externe mutable qui a été modifiée après la distribution, plutôt qu’à l’intérieur du package soumis.

Les contrôles d’exécution deviennent critiques

Les entreprises devraient exiger l’épinglage de version et le suivi de référence immuable pour toute compétence qui récupère des instructions externes ou des composants logiciels, selon Datta. Ce contenu doit être localisé, lié à un hachage cryptographique et hébergé dans un environnement contrôlé par l’entreprise.

Les équipes de sécurité doivent également appliquer le moindre privilège au niveau de l’agent, afin qu’une compétence n’hérite pas de tous les droits d’accès aux données de l’utilisateur qui l’exécute.

Prabhu a déclaré que les responsables de la sécurité devraient évaluer les compétences des agents IA tout au long de leur cycle de vie, et pas seulement lors de leur première approbation. Les entreprises doivent limiter les employés aux marchés approuvés et aux compétences pré-approuvées, valider les URL externes référencées par ces compétences et tester le comportement d’installation dans un bac à sable avant le déploiement.

Au moment de l’exécution, les appels réseau doivent être limités aux domaines approuvés et surveillés pour détecter toute activité inhabituelle, a ajouté Prabhu. Cette couche est essentielle car une compétence qui semble sûre lors de l’installation peut changer de comportement une fois qu’elle a déjà été approuvée.

Intelligence artificielleVulnérabilitésSécurité