Quelques jours seulement après le lancement, Grok-4 d’Elon Musk est compromis par des chercheurs utilisant un mélange furtif de techniques de chambre d’écho et de crescendo, exposant des défauts profonds dans les systèmes de sécurité de l’IA.
Le GROK-4 récemment lancé de XAI montre déjà des fissures dans ses défenses, tombant dans des techniques de jailbreak suggestives multi-conversationnelles récemment révélées.
Deux jours après que la dernière édition d’Elon Musk de modèles de grands langues (LLMS) a atteint les rues, les chercheurs de NeuralTrust ont réussi à le dispenser à la baisse de ses gardiens et à fournir des instructions pour faire un cocktail Molotov, le tout sans aucune contribution malveillante explicite.
« Les attaques de jailbreak LLM évoluent non seulement individuellement, elles peuvent également être combinées pour amplifier leur efficacité », a déclaré le chercheur de Neuraltrust, Ahmad Alobaid, dans un article de blog. «Nous avons combiné la chambre d’écho et le crescendo pour jailbreaker le LLM.»
La chambre d’écho et le crescendo sont des techniques de jailbreak multi-tours qui manipulent de grands modèles de langue en façonnant progressivement leur contexte interne.
Backdoor furtive à travers des jailbreaks combinés
Les chercheurs ont commencé leur test avec Echo Chamber, qui exploite la tendance du modèle à faire confiance à la cohérence entre les conversations, impliquant de multiples conversations qui «écho» la même idée ou comportement malveillant. Le modèle, lorsqu’il a été invité dans un nouveau fil faisant référence aux chats antérieurs, suppose que depuis que la même idée est apparue plusieurs fois, elle est acceptable.
« Alors que le cycle de persuasion a poussé le modèle vers l’objectif nocif, il n’était pas suffisant seul », a déclaré Alobaid. «À ce stade, Crescendo a fourni le coup de pouce nécessaire.» Le jailbreak de crescendo, identifié et inventé par Microsoft, dégénère progressivement une conversation à partir d’invites inoffensives à des sorties malveillantes, glissant des filtres de sécurité passés par une progression subtile.
Dans leur test, les chercheurs ont inclus un contrôle supplémentaire dans le cycle de persuasion pour détecter les situations de progrès «périmées» où la conversation ne se dirige pas vers l’objectif malveillant. Le crescendo a été utilisé pour terminer l’exploit dans de tels cas.
Avec seulement deux tours supplémentaires, l’approche combinée a réussi à provoquer la réponse cible, a ajouté Alobaid.
Systèmes de sécurité trompés par des astuces contextuelles
L’attaque exploite la mémoire contextuelle de Grok 4, faisant écho à ses propres déclarations antérieures et la guide progressivement vers un objectif sans relancer les alarmes. En combinant le crescendo avec une chambre d’écho, la technique de jailbreak qui a réussi à 90% de succès dans les tests de discours de haine et de violence dans les principaux LLM, renforce le vecteur d’attaque.
En raison du manque de mots clés ou des invites directes dans l’exploit, les défenses existantes construites autour de listes noires et la détection malveillante explicite devraient échouer. Alobaid a révélé que l’expérience NeuralTrust a obtenu un succès de 67% pour les instructions de préparation de Molotov avec un effort combiné de CHAMBERS-CRESCENDO, et a été un succès à environ 50% et 30% pour des sujets d’exploit comme la méthamphétamine et la toxine, respectivement.
« Cette (expérience) met en évidence une vulnérabilité critique: les attaques peuvent contourner l’intention ou le filtrage basé sur les mots clés en exploitant le contexte conversationnel plus large plutôt que de s’appuyer sur une entrée ouvertement nocive », a ajouté Alobaid. «Nos résultats soulignent l’importance d’évaluer les défenses de la LLM dans des contextes multi-virages où une manipulation subtile et persistante peut conduire à un comportement du modèle inattendu.»
Xai n’a pas immédiatement répondu aux demandes de commentaires.
Alors que les assistants en IA et les LLM basés sur le cloud gagnent du terrain dans des contextes critiques, ces exploits «chuchotés» multi-tours exposent de graves défauts de garde-corps. Auparavant, ces modèles se sont révélés vulnérables à des manipulations similaires, notamment le jailbreak de la clé squelette de Microsoft, le contournement de MathPrompt et d’autres attaques d’empoisonnement contextuelles, pressant le cas pour des pare-feu ciblés et AI-AI-AI-AI.



