La sécurité de l’IA nécessite de passer des modèles aux systèmes, affirment les chercheurs

Les garde-fous traditionnels ne suffisent pas, car l’IA agentique se comporte davantage comme un environnement d’exploitation que comme un logiciel.

Les entreprises ne peuvent pas sécuriser les agents d’IA en rendant les modèles sous-jacents plus robustes et doivent plutôt appliquer des contrôles de sécurité au niveau du système qui les entoure, ont soutenu les chercheurs à l’origine d’un article publié ce mois-ci, avertissant que les approches traditionnelles de sécurité de l’IA sont de plus en plus mal alignées sur la manière dont les agents autonomes fonctionnent réellement dans les environnements d’entreprise.

Le document soutient que les entreprises devraient cesser de traiter les agents d’IA comme des composants logiciels fiables et plutôt les sécuriser comme des systèmes fondamentalement non fiables fonctionnant au sein de l’infrastructure de l’entreprise.

« Le modèle d’IA qui alimente l’agent doit être traité comme un composant non fiable », écrivent les chercheurs dans le document, avertissant que les « garde-fous sémantiques » et les défenses au niveau des invites ne peuvent à eux seuls sécuriser les systèmes de manière fiable une fois que les agents ont accès aux outils, à la mémoire, aux API, aux navigateurs et aux environnements d’exécution de l’entreprise.

Les auteurs ont fait la comparaison avec les systèmes d’exploitation. « De la même manière qu’un système d’exploitation traite un processus comme non fiable, nous estimons que le modèle qui alimente l’agent doit être traité comme non fiable et que les propriétés de sécurité doivent être exprimées et appliquées à l’extérieur, au niveau du système englobant », ont-ils écrit.

L’article a été rédigé par des chercheurs de Google, de l’Université de Californie à San Diego, de l’Université du Wisconsin-Madison et d’autres institutions, dont Mihai Christodorescu, Earlence Fernandes et Somesh Jha.

Cinq principes de la sécurité des systèmes

Les auteurs ont distillé cinq principes issus de décennies de recherche sur la sécurité des systèmes qu’ils ont déclaré que les systèmes agents devraient suivre : moindre privilège, résistance à la falsification de la base informatique de confiance, médiation complète, flux d’informations sécurisé et prise en compte de l’humain en tant que maillon faible.

Pour preuve, les auteurs ont analysé onze attaques réelles contre des agents d’IA et ont associé chacune d’entre elles aux principes qu’elles violaient. Les attaques comprenaient l’exfiltration de données de l’application ChatGPT macOS, une faille d’exfiltration Claude Code, une vulnérabilité d’exfiltration Microsoft Copilot et l’attaque AgentFlayer sur Cursor via un ticket Jira malveillant. Chacun des onze a violé le principe du flux sécurisé de l’information, indique le journal, tandis que la plupart ont violé le principe du moindre privilège.

Les auteurs ont rejeté l’idée selon laquelle l’empilement de garde-fous en matière d’apprentissage automatique constitue une défense.

« Le simple fait d’empiler des modèles de ML ne constitue pas une véritable défense en profondeur », écrivent-ils, car les modèles de garde « partagent souvent les mêmes modes de défaillance statistiques que les principaux agents qu’ils surveillent ».

Pour mettre ces principes en pratique, les auteurs ont proposé trois mécanismes de sécurité, chacun lié à un problème de recherche ouvert que la communauté n’a pas encore résolu.

La première consiste à séparer les instructions des données, car les modèles de langage mélangent les deux dans un seul flux de jetons sans distinction entre eux au niveau de la source. La seconde est la génération vérifiable de politiques de moindre privilège, rendue difficile car les politiques de sécurité des agents sont écrites en langage naturel et changent au fur et à mesure de l’évolution d’une tâche, ce qui rend difficile leur traduction en règles qu’un système peut appliquer. Le troisième est le contrôle du flux d’informations, car le suivi de la manière dont les données sensibles transitent dans un modèle reste non résolu.

Au-delà du modèle

Le document remet en question l’une des hypothèses dominantes qui ont façonné les efforts de sécurité de l’IA dans les entreprises au cours des deux dernières années : selon laquelle des modèles, des techniques d’alignement et des défenses rapides de plus en plus performants finiraient par rendre les systèmes d’IA suffisamment sécurisés pour un déploiement en entreprise.

Au lieu de cela, les chercheurs soutiennent que les agents d’IA devraient de plus en plus être traités comme des environnements d’exploitation ou des systèmes distribués plutôt que comme des applications d’entreprise conventionnelles, car ils combinent le raisonnement, l’autonomie, la persistance de la mémoire et l’exécution d’outils externes au sein d’une seule couche opérationnelle.

« Les garanties de sécurité ne peuvent pas émerger uniquement de meilleures invites, d’un réglage de l’alignement ou d’atténuations côté modèle », indique le document, affirmant que les entreprises ont plutôt besoin d’une isolation d’exécution plus forte, de limites de confinement, d’une exécution selon le moindre privilège et de contrôles d’observabilité des flux de travail autour des agents d’IA.

Cela crée des situations dans lesquelles l’injection rapide n’est plus simplement un problème de manipulation de contenu mais potentiellement un problème d’exécution de flux de travail et d’intégrité des systèmes capable d’influencer les actions en aval dans les environnements d’entreprise interconnectés.

Le problème de la visibilité

Les chercheurs soutiennent également que les outils de sécurité d’entreprise actuels manquent de visibilité suffisante sur la manière dont les agents d’IA raisonnent, invoquent les outils, conservent la mémoire et exécutent les actions sur les systèmes de l’entreprise.

Un autre article publié la semaine dernière souligne également un problème similaire sous un angle différent, affirmant que les plates-formes traditionnelles de détection et de réponse des points de terminaison ne peuvent pas inspecter de manière adéquate les flux de raisonnement des agents IA, les chaînes d’invites, les interactions de mémoire ou l’exécution dynamique des outils.

Le document propose ce que les chercheurs ont décrit comme un cadre de « détection et réponse agent ou ADR » conçu spécifiquement pour les environnements d’agents IA.

« Les outils de sécurité actuels ne sont pas conçus pour observer les traces cognitives ou de raisonnement des agents », écrivent les chercheurs, arguant que les piles de sécurité d’entreprise existantes ont été conçues pour surveiller les applications déterministes et l’activité des points finaux – et non des systèmes capables de planification autonome, de raisonnement probabiliste et d’orchestration dynamique des flux de travail.

Le document décrit un déploiement de production surveillant quotidiennement plus de 10 000 sessions d’agents IA sur environ 7 200 hôtes, où les chercheurs ont déclaré que le cadre a identifié des centaines d’incidents d’exposition d’informations d’identification et d’autres risques liés aux agents couvrant 26 catégories d’attaques.

Sur un benchmark introduit par l’équipe, appelé ADR-Bench, le système a détecté 67 % des attaques avec zéro faux positif, surpassant trois lignes de base, y compris LlamaFirewall de Meta, de deux à quatre fois dans le score F1, indique le journal. Sur AgentDojo, un benchmark public d’injection d’invites, il a détecté toutes les attaques avec trois fausses alarmes sur 93 tâches.

Intelligence artificielleSécurité