Grok 4 MIT Jailbreak-Angriff Geknackt

Lucas Morel

Sicherheitsforscher Haben Herausgefunden, wie sich die Sicherheitsfilter von musks neuem chatbot aushebeln lassen.

Erst vor wenigen tagen präsentierte elon musk sein nees ki-sprachmodell grok 4. Doch schon kurz nach der verroöffentlichung gelang es Forschern von neuraltrust, die schutzvorkehrungen des outils zu umgehen. SIE BRACHTEN ES DAZU, Anweisungen Zur Herstellung Eines Molotowcocktails Zu Geben.

Heimliche hintertür durch kombinierte jailbreaks

Dabei kombininerten sie zwei fortschrittliche exploit-techniken. Sowohl Echo Chamber als auch crescendo sind jailbreak-marden, um große sprachmodelle (grande langue modells / llms) zu manipulieren.

„Llm-Jailbreak-Angriffe Entwickeln Sich Nicht Nur Einzeln Weiter, Sondern Können Auch Kombiniert Werden, Um Ihre Wirksamkeit Zu Verstärken”, Erläutert Ahmad Alobaid, Forscher Bei NeuralTrust, dans Einem Blogbeitrag.

Die Forscher a commencé la chambre d’écho de test ihren de test. Die Technik Nutzt Die Tendenz des Ki-modells Aus, Der Konsistenz Zwischen Gesprächen Zu Vertrauen. Dabei Werden Mehrere Gespräche Einbezogen, die dieselbe böswillige idee oder dasselbe böswillige verhalten „wiederholen”. Durch den Verweis auf frühere discute Akzeptitiert die ki die eingabe einer böswilligen aufforderung.

„Der überzugungszyklus hat das modern zwar in richtung des schädlichen ziels gedrängt, aber das allein reichte nicht aus”, erklärt alobaid. «Un diesem punkt lieferte crescendo den notwendigen schub.» Der von Microsoft Identifizierte und Benannte Crescendo-Jailbreak Eskaliert Eine Unterhaltung Schrittweise von Harmlosen Aufforderungen Zu Böswilligen Ausgaben und Umgeht dabei Durch Subtile Fortschritte die SicheRetsfilter.

Dans Ihrem Test Fügten die Forscher Eine Zusätzliche überprüfung dans Den überzugungszyklus ein, um „Veraltete” Forschritte Zu Erkennen. Das Sind Sotorinen, à Dennen Die Unterhaltung Nicht à Richtung des Böswilligen Ziels Voranschreitet. Dans Solchen Fällen Wurde Crescendo Eingesetzt, Um Den Exploit Abzuschließen.

„Dieses (Expérience) Zeigt eine Kritische Schwachstelle Auf: Angriffe Können Absichts- oder Schlüsselwort-Basierte Filter Umgehen, Indem Sie den Breiteren Konversationskontext Ausnutzen, Anstatt Sich Auf Offensichtlich Schädliche Eingaben Zu Verlassen, Fassentenchtlich Schädliche Eingaben Zu Verlassen, Fassentenchtlich schädliche Eingaben Zu Verlassen, Fassentenchtlich schädliche Eingaben Zu Verlassen, Fassentenchtlich Schädliche Eingaben Zu Verlassen, Fassentenchtlich SCHAP Oobaid Zusammen. „Ungebnisse Unterstreichen, wie wichtig es ist, llm-abwehrmaßnahmen in multi-tour-umbungen zu evaluieren, dans denen subtile, anhaltende manipulationn zu unerwartetem modellverhalten führen können. »

Bereits Zuvor Gab es ähnliche ManipulatingSuche Von Ki-Modellen, Darunter Microsofts Squelette Key Jailbreak, Der Mathprompt Bypass Und Andere Context-Poisinging-Angriffe, a été die notwendigkeit Gezielter, Ki-Fähiger Firewalls UnterStrecht.