Wiz crée un environnement pour tester la capacité des agents IA à identifier les problèmes de cybersécurité.
Les agents IA sont de plus en plus considérés comme un moyen de renforcer les capacités des équipes de cybersécurité, mais lequel peut faire le meilleur travail ? Wiz a développé une suite de référence de 257 défis du monde réel couvrant cinq domaines offensifs : découverte du jour zéro, détection CVE (vulnérabilité du code), sécurité des API, sécurité Web et sécurité du cloud pour le découvrir.
Wiz teste différentes combinaisons d’agents d’IA et leurs modèles d’IA sous-jacents par rapport à la suite de tests pour voir lequel obtient le score le plus élevé dans chacune des cinq catégories. La notation est déterministe et programmatique utilisant plusieurs facteurs : des rubriques multidimensionnelles pour la détection du jour zéro et du CVE ; correspondance des points de terminaison et de la gravité pour la sécurité des API et capture des décalages pour les défis Web et cloud.
Les tests de référence s’exécutent dans des conteneurs Docker isolés avec suffisamment de ressources et sans délai d’attente par défi, de sorte que les scores reflètent la capacité plutôt que la limitation. Chaque agent utilise ses outils natifs et son modèle d’exécution prêts à l’emploi, et obtient trois tentatives à chaque défi pour voir ses performances moyennes.
Dans le billet de blog annonçant les benchmarks du Cyber Model Arena, Wiz reste timide quant au résultat de ses essais. En tête de ses essais, Claude Code fonctionne sur Claude Opus 4.6. Wiz, qui deviendra bientôt une filiale de Google, n’est peut-être pas très enthousiaste à l’idée de le faire connaître. Cependant, l’avance de Claude est étroite et les circonstances peuvent rapidement changer. Et au moins Gemini 3 Pro occupe la deuxième place.



