Une nouvelle attaque par injection rapide basée sur l’image cible les modèles d’IA multimodaux

Lucas Morel

Les chercheurs affirment que la technique peut manipuler la façon dont les modèles de langage visuel interprètent à la fois les images et les invites des utilisateurs.

Les chercheurs en sécurité ont développé une nouvelle attaque par injection d’invite basée sur des images qui peut manipuler la façon dont les systèmes d’IA multimodaux interprètent les instructions de l’utilisateur sans modifier l’invite de texte d’origine, augmentant ainsi potentiellement les risques de sécurité pour les agents d’IA et les systèmes de langage de vision.

Dans un article de recherche publié cette semaine, des chercheurs de l’Université de Xidian ont décrit une technique appelée « CrossMPI », qui utilise des perturbations d’image presque imperceptibles pour modifier la façon dont les grands modèles de langage de vision (LVLM) traitent les entrées visuelles et textuelles.

« CrossMPI peut orienter l’interprétation du modèle des entrées textuelles et visuelles via une injection rapide d’images uniquement », ont écrit les chercheurs dans l’article.

Contrairement aux attaques traditionnelles par injection d’invites, qui reposent généralement sur des instructions textuelles malveillantes intégrées dans des invites ou des pages Web, la nouvelle technique tente de modifier la façon dont le modèle interprète une requête utilisateur bénigne en manipulant uniquement des images.

« L’image perturbée peut manipuler la compréhension du modèle des instructions de l’utilisateur », indique le journal.

Dans un exemple décrit dans l’article, les chercheurs ont subtilement modifié l’image d’un avion en utilisant des perturbations presque imperceptibles au niveau des pixels, invisibles pour les utilisateurs humains. Lorsqu’on a ensuite demandé à un système d’IA multimodal si l’avion appartenait à Air Canada, l’image manipulée a amené le modèle à identifier incorrectement l’objet comme étant « un téléphone mobile », illustrant comment l’attaque pouvait fausser à la fois la compréhension visuelle et l’interprétation de la tâche de l’utilisateur.

Les résultats s’ajoutent aux préoccupations croissantes concernant la sécurité de l’IA multimodale, alors que les entreprises déploient de plus en plus de copilotes d’IA, d’agents autonomes, d’assistants de traitement de documents et de flux de travail basés sur la vision qui combinent le raisonnement par images et par texte.

Apeksha Kaushik, analyste principal chez Gartner, a déclaré que les risques pourraient augmenter rapidement à mesure que les entreprises adoptent davantage de systèmes d’IA multimodaux.

« D’ici 2030, 80 % des logiciels et applications d’entreprise seront multimodaux, contre 1 % en 2024 », a déclaré Kaushik.

L’attaque cible les couches de raisonnement multimodal

L’injection rapide est devenue l’un des risques les plus surveillés dans les systèmes d’IA générative, en particulier à mesure que les organisations adoptent des agents d’IA capables d’interagir avec leurs applications, sites Web, documents et outils externes.

La plupart des attaques par injection d’invite existantes reposent sur du texte malveillant intégré dans des invites, des pages Web ou des instructions cachées. Certaines attaques multimodales ont également tenté de manipuler le comportement de l’IA à l’aide d’images contenant des instructions textuelles visibles ou masquées.

Les chercheurs ont fait valoir que leur approche diffère car elle tente de modifier la façon dont le modèle interprète la tâche d’origine elle-même par le biais des seules perturbations de l’image.

Contrairement aux méthodes précédentes, les chercheurs ont noté que CrossMPI utilise des modifications d’image pour « changer l’interprétation du modèle des invites visuelles et textuelles ».

Le journal indique que l’attaque cible spécifiquement « l’espace d’état caché des LVLM » – l’étape où les modèles combinent des instructions textuelles et des preuves visuelles dans des représentations internes avant de générer des résultats.

Selon le document, les couches d’attaque les plus efficaces n’étaient pas les couches de sortie finales traditionnellement ciblées dans les attaques adverses d’IA, mais les couches intermédiaires où les informations visuelles et textuelles sont fusionnées.

Les chercheurs affirment une forte transférabilité en boîte noire

Les chercheurs ont évalué la technique par rapport à plusieurs LVLM open source, notamment MiniGPT4, BLIP-2, InstructBLIP, BLIVA et Qwen2.5-VL, ajoute le document.

Selon le document, l’attaque a atteint un taux de réussite moyen de 66,36 % sur l’ensemble des modèles testés, surpassant les attaques de base précédentes d’environ 41 points de pourcentage.

Les chercheurs ont également déclaré que la technique démontrait « une forte transférabilité dans des environnements de boîte noire », ce qui signifie que les attaques restaient efficaces même sans accès direct aux paramètres ou à l’architecture d’un modèle cible.

Le document affirme en outre que les perturbations restent visuellement furtives tout en conservant leur efficacité sur plusieurs architectures LVLM.

Aucune défense efficace

Les chercheurs ont évalué plusieurs mécanismes de défense conçus pour neutraliser les manipulations d’images cachées, notamment le redimensionnement aléatoire, la rotation de l’image, la compression JPEG et les protections au niveau de l’inférence telles que SmoothVLM, un cadre de défense spécialisé conçu pour protéger les modèles de langage visuel (VLM) contre les injections d’invites visuelles corrigées, et DPS, qui guide les modèles à l’aide de vues d’images partielles.

Selon l’article, SmoothVLM s’est avéré le plus efficace, réduisant les taux de réussite des attaques à moins de 5 % dans plusieurs scénarios, tandis que la compression JPEG a également affaibli les attaques en supprimant les artefacts d’image à haute fréquence.

Cependant, les chercheurs ont déclaré qu’aucune des défenses testées n’éliminait complètement les attaques, ce qui suggère que des protections de sécurité plus fortes en matière d’IA multimodale pourraient encore être nécessaires.

Les déploiements d’IA en entreprise peuvent élargir la visibilité

La recherche arrive alors que les entreprises étendent rapidement les déploiements de systèmes d’IA multimodaux capables de traiter des captures d’écran, des PDF, des tableaux de bord, des formulaires, des flux vidéo et des documents d’entreprise parallèlement à des invites en langage naturel.

Les chercheurs ont noté que les exemples contradictoires générés à l’aide de la technique pourraient potentiellement « induire en erreur les agents Web basés sur VLM » et « perturber les détecteurs d’objets du monde réel ».

« Même si les entrées textuelles sont nettoyées, les images manipulées peuvent toujours perturber les sorties ou les actions du modèle », a déclaré Kaushik.

Elle a déclaré que les organisations qui utilisent l’IA multimodale pour le traitement des documents, les interactions avec les clients, la modération du contenu et les systèmes autonomes pourraient être confrontées à une exposition croissante à la manipulation d’images contradictoires et aux attaques par injection rapide.

« Les contrôles de sécurité conçus pour les systèmes unimodaux sont insuffisants », a déclaré Kaushik. Les chercheurs ont reconnu que les travaux ont été menés dans des contextes de recherche contrôlés à l’aide de modèles open source et n’ont pas décrit l’exploitation observée dans des environnements d’entreprise réels.

IA générativeIntelligence artificielleCyberattaquesSécurité