Gemini pour Chrome dispose d'un deuxième agent IA pour le surveiller

Google a reconnu les risques d’injection rapide dans son assistant de navigation, déployant un « critique d’alignement des utilisateurs » pour contrôler ses actions

Google déploie un deuxième modèle d’IA pour surveiller son agent de navigation Chrome basé sur Gemini après avoir reconnu que l’agent pourrait être amené à entreprendre des actions non autorisées via des attaques par injection rapide.

« Nous introduisons un système critique d’alignement des utilisateurs dans lequel les actions de l’agent sont vérifiées par un modèle distinct isolé du contenu non fiable », a déclaré la société dans un article de blog à propos de cet ajout. Si le critique détermine qu’une action ne correspond pas à ce que l’utilisateur a demandé, il bloque l’action, a déclaré Google.

« La principale nouvelle menace à laquelle sont confrontés tous les navigateurs agents est l’injection indirecte d’invites », a écrit Nathan Parker, ingénieur en sécurité chez Chrome, décrivant une situation dans laquelle un agent est invité à traiter des informations et cherche ensuite à modifier l’invite initiale.

L’agent de navigation propulsé par Gemini, lancé en septembre et actuellement en avant-première, peut naviguer sur des sites Web, cliquer sur des boutons et remplir des formulaires pendant que les utilisateurs sont connectés aux systèmes de messagerie, bancaires et d’entreprise. Des instructions malveillantes cachées dans des pages Web, des iframes ou du contenu généré par l’utilisateur pourraient « amener l’agent à entreprendre des actions indésirables telles que le lancement de transactions financières ou l’exfiltration de données sensibles », a écrit Parker.

C’est là qu’intervient la critique de l’alignement des utilisateurs : le deuxième modèle examine chaque action proposée avant que Chrome ne l’exécute, agissant comme ce que Parker a appelé « une couche de défense puissante et supplémentaire contre le détournement d’objectifs et l’exfiltration de données ».

Pourquoi une injection rapide est difficile à arrêter

L’injection rapide est devenue la principale vulnérabilité des systèmes d’IA au cours de l’année écoulée. L’OWASP l’a trouvé dans 73 % des déploiements d’IA de production qu’il a évalués en 2024, le classant au premier rang de sa liste de menaces pour les grandes applications de modèles de langage.

Le Centre national de cybersécurité du Royaume-Uni a averti dimanche que les attaques par injection rapide pourraient ne jamais être totalement atténuées, car les LLM ne peuvent pas faire la distinction de manière fiable entre les instructions et les données. L’agence l’a qualifié de vulnérabilité « d’adjoint confus », dans laquelle un système de confiance est amené à effectuer des actions au nom d’une partie non fiable.

Les chercheurs ont déjà démontré la menace. En janvier, des attaquants ont intégré des instructions dans un document qui ont amené un système d’IA d’entreprise à divulguer des informations économiques et à désactiver ses propres filtres de sécurité. La société de sécurité AppOmni a révélé le mois dernier que les agents IA de ServiceNow pouvaient être manipulés via des instructions cachées dans les champs de formulaire, un agent en recrutant d’autres pour effectuer des actions non autorisées.

Pour Chrome, les enjeux sont particulièrement importants. Un agent de navigation compromis disposerait de tous les privilèges de l’utilisateur sur n’importe quel site connecté, contournant potentiellement les protections d’isolation de site du navigateur qui empêchent normalement les sites Web d’accéder aux données des autres.

La défense à deux modèles de Google

Pour faire face à ces risques, la solution de Google répartit le travail entre deux modèles d’IA. Le modèle principal Gemini lit le contenu Web et décide des actions à entreprendre. Le critique de l’alignement des utilisateurs ne voit que les métadonnées sur les actions proposées, et non le contenu Web susceptible de contenir des instructions malveillantes.

« Ce composant est conçu pour voir uniquement les métadonnées sur l’action proposée et non tout contenu Web non filtré et non fiable, garantissant ainsi qu’il ne peut pas être empoisonné directement à partir du Web », a écrit Parker sur le blog. Lorsque le critique rejette une action, il fournit un retour au modèle de planification pour reformuler son approche.

L’architecture est basée sur des recherches existantes en matière de sécurité, tirées de ce que l’on appelle le modèle dual-LLM et des recherches CaMeL de Google DeepMind, selon le billet de blog.

Google limite également les sites Web avec lesquels l’agent peut interagir via ce qu’il appelle des « ensembles d’origine ». Le système conserve des listes de sites sur lesquels l’agent peut lire et de sites sur lesquels il peut effectuer des actions telles que cliquer ou taper. Une fonction de contrôle, isolée du contenu non fiable, détermine quels sites sont pertinents pour chaque tâche.

L’entreprise a reconnu que cette première mise en œuvre était fondamentale. « Nous ajusterons les fonctions de contrôle et d’autres aspects de ce système pour réduire les frictions inutiles tout en améliorant la sécurité », a écrit Parker.

Au-delà de la critique de l’alignement des utilisateurs et des contrôles d’origine, Chrome exigera la confirmation de l’utilisateur avant que l’agent de navigation navigue vers des sites bancaires ou médicaux, utilise des mots de passe enregistrés via Google Password Manager ou finalise des achats, selon le billet de blog. L’agent de navigation n’a pas d’accès direct aux mots de passe stockés.

Un classificateur s’exécute en parallèle pour vérifier les tentatives d’injection rapides pendant que l’agent fonctionne. Google a construit des systèmes automatisés de red-teaming générant des sites de test malveillants, en donnant la priorité aux attaques diffusées via le contenu généré par les utilisateurs sur les réseaux sociaux et les réseaux publicitaires.

Aux prises avec un problème non résolu

Le défi de l’injection rapide n’est pas propre à Chrome. OpenAI l’a qualifié de «problème de recherche frontalier et difficile» pour ses fonctionnalités d’agent ChatGPT et s’attend à ce que les attaquants investissent des ressources importantes dans ces techniques.

Gartner est allé encore plus loin et a conseillé aux entreprises de bloquer les navigateurs IA dans leurs systèmes. Le cabinet de recherche a averti que les agents de navigation basés sur l’IA pourraient exposer les données et les informations d’identification de l’entreprise à des attaques par injection.

Le NCSC a adopté une position similaire, exhortant les organisations à supposer que les systèmes d’IA seront attaqués et à limiter leur accès et leurs privilèges en conséquence. L’agence a déclaré que les organisations devraient gérer les risques via la conception plutôt que d’attendre des solutions techniques pour éliminer le problème.

Les fonctionnalités de l’agent Chrome sont facultatives et restent en avant-première, indique le blog.

Cet article a été publié pour la première fois sur Computerworld.

Intelligence artificielleSécurité du navigateurProtection des points de terminaisonSécurité