Cela signifie que les organisations qui traitent encore l’application de correctifs comme un exercice trimestriel fonctionnent avec beaucoup plus de risques qu’elles ne l’étaient il y a encore peu de temps, explique un analyste.
Anthropic affirme que plus de 50 partenaires impliqués dans le projet Glasswing ont découvert environ 10 000 vulnérabilités critiques ou de haute gravité dans leurs offres logicielles.
La société a lancé en avril l’initiative de cybersécurité, construite autour de Claude Mythos Preview, en déclarant que ses partenaires de lancement l’utiliseraient dans le cadre de leur travail de sécurité défensive.
Anthropic a déclaré avoir créé le projet Glasswing lorsque les capacités de son nouveau modèle frontière « ont révélé un fait brutal : les modèles d’IA ont atteint un niveau de capacité de codage où ils peuvent surpasser tous les humains, sauf les plus compétents, pour trouver et exploiter les vulnérabilités logicielles ». À l’époque, il avait également indiqué qu’il s’engageait à consacrer plus de 100 millions de dollars en crédits d’utilisation, ainsi que 4 millions de dollars supplémentaires en dons à des organisations de sécurité open source.
Dans une mise à jour publiée la semaine dernière, Anthropic a déclaré : « au cours des derniers mois, nous avons utilisé Mythos Preview pour analyser plus de 1 000 projets open source, qui soutiennent collectivement une grande partie d’Internet – et une grande partie de notre propre infrastructure. »
Au cours de ce processus, Mythos Preview a découvert 6 202 vulnérabilités de gravité élevée ou critique dans ces projets, dont 1 752 ont depuis été évaluées par six sociétés de recherche en sécurité indépendantes.
Les responsables face à un déluge de rapports de bogues
Parmi celles-ci, a déclaré Anthropic, 90,6 % (1 587) « se sont révélés être de vrais positifs valides, et 62,4 % (1 094) ont été confirmés comme étant de gravité élevée ou critique. Cela signifie que même si Mythos Preview ne trouve aucune autre vulnérabilité, à nos taux actuels de vrais positifs après triage, il est en passe d’avoir fait surface près de 3 900 vulnérabilités de gravité élevée ou critique dans le code open source – en plus de ceux qu’il a trouvés pour les partenaires du projet Glasswing.
Les auteurs du rapport ont noté qu’en plus des défis réguliers liés à la maintenance des logiciels open source, « les responsables ont été confrontés à un déluge de rapports de bogues de mauvaise qualité générés par l’IA. En effet, plusieurs responsables nous ont dit qu’ils étaient actuellement gravement limités en capacité, et certains nous ont même demandé de ralentir notre rythme de divulgation car ils ont besoin de plus de temps pour concevoir les correctifs. «
Anthropic estime avoir divulgué jusqu’à présent 530 bogues de gravité élevée ou critique aux responsables et vise à en divulguer 827 autres. Sur ces 530 bogues, 75 ont été corrigés et il y a eu 65 avis publics. La société a déclaré que ce chiffre relativement faible est dû à trois facteurs : premièrement, la fenêtre de 90 jours prévue dans sa politique coordonnée de divulgation des vulnérabilités n’a pas été fermée, deuxièmement, elle est probablement sous-estimée car certaines failles ont été corrigées sans divulgation, et enfin, l’écosystème de sécurité est déjà surchargé.
«La relative facilité de détection des vulnérabilités par rapport à la difficulté de les corriger constitue un défi majeur pour la cybersécurité», notent les auteurs du rapport.
Néanmoins, le succès de Glasswing jusqu’à présent a conduit l’entreprise à publier Claude Security en version bêta pour ses entreprises clientes, et elle a lancé son programme de cybervérification pour permettre aux professionnels légitimes de la sécurité d’utiliser ses modèles dans leur travail sans certaines de ses garanties.
Mark Tauschek, analyste distingué chez Info-Tech Research Group, a déclaré que la décision d’Anthropic de maintenir l’accès à Claude Mythos Preview restreint via le projet Glasswing est l’un des signaux les plus clairs à ce jour indiquant que les capacités d’IA de pointe ont franchi un véritable seuil en matière de cybersécurité.
L’entreprise, a-t-il déclaré, « mérite un certain crédit pour la transparence de sa carte système et de la structure du projet Glasswing. Mais être transparent sur le problème n’est pas la même chose que le résoudre ».
Selon Tauschek, « la mise à jour valide la réalité pratique selon laquelle les responsables informatiques et de sécurité doivent désormais faire face au fait que le coût de la découverte des vulnérabilités logicielles a considérablement diminué. Si un seul modèle d’IA peut révéler des milliers de vulnérabilités graves dans les logiciels fondamentaux en quelques semaines, l’intervalle entre la découverte et l’exploitation des vulnérabilités continuera de se réduire. «
Les organisations qui traitent encore les correctifs comme un exercice trimestriel fonctionnent avec beaucoup plus de risques qu’elles ne l’étaient il y a encore peu de temps, a-t-il ajouté.
Tauschek a déclaré que le fait que certains responsables aient demandé à Anthropic de ralentir ne devrait pas être considéré comme une résistance à une meilleure sécurité. « Cela témoigne plutôt d’un problème de capacité qui se développe depuis des années », a-t-il déclaré. « De nombreux projets open source sur lesquels s’appuient les entreprises sont gérés par de petites équipes ou des bénévoles, souvent des personnes ayant un emploi quotidien. »
Un goulot d’étranglement clé a disparu
Parallèlement, a-t-il ajouté, « les organisations qui dépendent de ce code opèrent à grande échelle. L’IA peut accélérer la découverte, mais elle ne crée pas la capacité humaine nécessaire pour valider les découvertes, concevoir des correctifs sûrs, les tester et les déployer. Cela oblige également à repenser la défense en profondeur ».
Kellman Meghu, CTO de DeepCove Cybersecurity, a ajouté que rien dans la mise à jour du projet Glasswing ne le surprend. « Notre entreprise a compris il y a presque deux ans que, entre les mains d’un chercheur compétent, la capacité (de l’IA) à trouver des vulnérabilités et à les exploiter était considérablement accélérée », a-t-il noté. « Je pense que le changement est maintenant que la barrière à l’entrée pour piloter les invites dans un grand modèle de langage a considérablement diminué. Cela ne fera que s’améliorer, et c’est notre nouvelle réalité. »
DeepCove, a-t-il déclaré, « a dû accélérer son évaluation des correctifs et des contrôles, qui inclut désormais l’exploitation de grands modèles de langage pour aider à identifier et à corriger ou à créer des contrôles compensatoires pour nos services et nos infrastructures clients ».
Selon Meghu, « la recherche de bogues est désormais peu coûteuse, mais leur correction est encore lente et humaine dans de nombreux cas. Les clients disposent de processus de gestion des changements, de fenêtres de tests réglementaires et d’interdictions de changement qui rendent l’absorption de ce rythme vraiment difficile. «
Ce que montre réellement la mise à jour d’Anthropic, a-t-il souligné, « c’est que le goulot d’étranglement en matière de cybersécurité est passé de la recherche de vulnérabilités à l’absorption des correctifs et à l’adaptation des défenses des clients assez rapidement pour suivre le rythme ».
Son point de vue fait écho à celui d’Anthropic, qui notait que « le goulot d’étranglement dans des bugs comme ceux-ci est la capacité humaine à trier, signaler, concevoir et déployer des correctifs pour eux ».
La pression opérationnelle de la nouvelle cadence de patch est « aussi immédiate que la menace offensive », a déclaré Meghu. « Nous avons réagi en intégrant l’audit assisté par l’IA dans notre propre pipeline de développement et en resserrant les SLA des correctifs clients sur les dépendances critiques. Mais ce n’est pas un processus facile à gérer. Nous ne faisons pas aveuglément confiance aux LLM ou aux agents pour fonctionner de manière autonome, et cela a entraîné des changements significatifs dans les processus assistés par les opérateurs pour l’intégration LLM. «
De plus, a souligné David Shipley, PDG de Beauceron Security, « ce qui fait la une des journaux, auquel tout le monde prête attention, ce sont les 10 000 vulnérabilités potentielles découvertes, et parmi celles-ci, 6 000 sont critiques, mais lorsque vous réduisez les chiffres, vous vous rapprochez de 1 500 qui sont réellement vérifiées par des humains et légitimes, ce qui représente une baisse considérable.
« (Anthropic a également déclaré que) 90 % des 1 752 vulnérabilités les plus critiques qui ont été examinées humainement se sont révélées exactes », a-t-il déclaré. « C’est cool, mais cela signifie que cela représente toujours environ 15 % du nombre total trouvé. »
Selon Shipley, une question cruciale qui reste encore sans réponse est le coût de la découverte de chacune de ces vulnérabilités. « Combien de jetons brûlez-vous ? J’ai entendu dire que cela coûtait environ 500 dollars la minute, donc je suis vraiment curieux de savoir quel est le coût », a-t-il déclaré. « Sûrement, s’ils peuvent nous dire comment « nous en avons trouvé autant », (ils peuvent répondre) combien de calcul cela a-t-il coûté ?
Il a ajouté que la seule solution ultime est de « rendre les éditeurs de logiciels responsables de leurs logiciels. C’est le seul moyen de sortir de ce désordre, car c’est le désalignement fondamental qui nous a amenés ici ».



