L’IA générative fait de l’assainissement de la vulnérabilité des tests de stylo bien pire

Lucas Morel

Les organisations ont déjà du mal à corriger les défauts découverts lors des tests de pénétration. Les applications Gen AI apportent une complexité supplémentaire et la nécessité d’une plus grande expertise.

Les facteurs techniques, organisationnels et culturels empêchent les entreprises de résoudre les vulnérabilités découvertes dans les tests de pénétration – un problème que l’avènement de l’IA génératif exacerbe plutôt que de soulager.

Selon une étude de Penetration Testing en tant que société de services Cobalt, les organisations corrigent moins de la moitié de toutes les vulnérabilités exploitables (48%), un chiffre qui tombe à 21% pour les défauts de l’application Gen AI.

Les vulnérabilités identifiées dans les audits de sécurité qui ont été évaluées à une gravité élevée ou critique sont plus susceptibles d’être fixes, marquant un taux de résolution de 69%.

Depuis 2017, le temps médian de résolution de vulnérabilités graves a considérablement diminué – de 112 jours en baisse à 37 jours l’année dernière. Cela démontre l’impact positif des programmes de sécurité «Shift Left», selon Cobalt.

Patcher les maux de tête

Parfois, les organisations prennent une décision commerciale consciente d’accepter certains risques plutôt que de perturber les opérations ou de subir les coûts importants qui résolvent certaines vulnérabilités.

La mauvaise planification de la correction et les limitations des ressources jouent également un facteur de correction lente. Dans certains cas, les vulnérabilités se trouvent dans les logiciels ou matériels hérités qui ne peuvent pas être facilement mis à jour ou remplacés.

«Certaines organisations ne font que ce qu’elles doivent faire pour la conformité ou l’approbation tierce – obtiennent un Pentest», ont écrit les chercheurs de Cobalt. «La réparation des risques est d’une préoccupation moins immédiate. Pour la plupart, cependant, cela revient à une multitude de problèmes organisationnels couvrant les personnes, les processus et la technologie.»

Next Gen-Aai-Eery

La dernière édition annuelle du rapport de Cobalt State of Pentesting a révélé que la plupart des entreprises ont effectué des tests de test sur un modèle de grande langue (LLM), avec un troisième (32%) de tests trouvant des vulnérabilités garantissant une note grave.

Une variété de défauts LLM, y compris l’injection rapide, la manipulation du modèle et la fuite de données, ont été identifiés avec seulement 21% des défauts se sont réparés. Le développement de l’IA est «à venir sans filet de sécurité», prévient Cobalt.

Les chiffres sont basés sur une analyse des données recueillies au cours de plus de 5 000 tests de stylo exécutés par Cobalt. Dans une enquête connexe auprès de ses clients, plus de la moitié des chefs de sécurité (52%) ont déclaré qu’ils étaient sous pression pour hiérarchiser la vitesse sur la sécurité.

Vulnérabilités «signalées mais pas fixes»

L’atténuation de la vulnérabilité est retardée parce que les entreprises sont confrontées à des priorités concurrentes.

« Les équipes de sécurité sont surchargées, les équipes d’ingénierie se concentrent sur les fonctionnalités d’expédition, et à moins qu’il n’y ait une pression réglementaire ou une violation, résoudre un » problème connu « n’obtient tout simplement pas la même attention », a déclaré Lei.

Rattrapage des insectes à l’ère de l’IA

Les applications Gen AI, en particulier, introduisent un ensemble différent de problèmes qui compliquent l’assainissement de la vulnérabilité.

« Beaucoup d’entre eux sont construits rapidement, en utilisant de nouveaux frameworks et des outils tiers qui n’ont pas été entièrement testés dans des environnements de production », a déclaré Lei. «Vous avez des surfaces d’attaque inconnues, des modèles qui se comportent de manière imprévisible et des dépendances que les équipes ne contrôlent pas complètement.»

Lei a ajouté: « Donc, même lorsque des vulnérabilités sont trouvées, les résoudre peut être complexe et longue – en supposant que vous avez même l’expertise interne. »

Une application AI générative a deux composants: l’application et le Gen AI lui-même, généralement un LLM, comme ChatGpt.

«Les vulnérabilités d’application traditionnelles sont aussi faciles à corriger que les vulnérabilités normales; il n’y a pas de différence», a déclaré Inti de Ceukelaire, chef de hacker de Bug Bounty Platform Intigriti.

Par exemple, une application Gen AI peut décider d’utiliser une fonctionnalité programmée pour rechercher certains documents. S’il y a une vulnérabilité dans cette fonctionnalité programmée, les développeurs peuvent simplement modifier le code.

En revanche, une vulnérabilité dans le LLM elle-même (le réseau neuronal ou le «cerveau» de l’IA) est «beaucoup plus difficile à réparer car il n’est pas toujours facile de comprendre pourquoi certains comportements sont déclenchés», a déclaré De Ceukelaire.

« On peut faire l’hypothèse et former ou ajuster le modèle pour éviter ce comportement, mais vous ne pouvez pas être certain à 100% que le problème est résolu », a-t-il déclaré. « En ce sens, le comparer avec le« patch »traditionnel est peut-être un peu un étirement.»

Interrogé par les commentaires d’Intigriti, Cobalt a déclaré que ses travaux et ses résultats liés à la génération AI étaient principalement axés sur «la validation de l’intégrité des systèmes soutenus par LLM, et non d’évaluer l’étendue totale du comportement ou de la production formés du LLM».

Triage de bugs

Si les CISO veulent améliorer les taux de correction, ils doivent faciliter la priorité aux équipes de sécurité. Cela pourrait signifier l’intégration d’outillage de sécurité plus tôt dans le processus de développement ou définir des mesures de performance autour du temps de résolution pour des résultats sérieux.

« Cela signifie également avoir une propriété claire – quelqu’un qui est responsable de s’assurer que les vulnérabilités sont réellement réparées, pas seulement déposées », a déclaré Lei de Sparrow.

D’autres experts ont soutenu que les professionnels de la sécurité devraient concentrer leurs ressources limitées sur les classes les plus risquées de vulnérabilités, telles que les vulnérabilités graves exposées directement à Internet.

Les expositions accidentelles et la réduction de la dette technique devraient également être prioritaires, selon Tod Beardsley, vice-présidente de la recherche sur la sécurité des outils de gestion de l’exposition, le fournisseur Runzero.

Les équipes de sécurité peuvent facilement être submergées par le nombre de vulnérabilités à résoudre des sources, y compris des tests de pénétration réguliers ainsi que les résultats des outils de numérisation de vulnérabilité.

«C’est une surcharge d’informations, et les équipes ont du mal à gérer tout cela et à la priorité de l’assainissement en fonction de la gravité des risques», a déclaré Thomas Richards, directeur des pratiques de sécurité des infrastructures de la société de tests de sécurité des applications Black Duck.

Tout comme Beardsley de Runzero, Richards a fait valoir que les résultats des tests de stylo doivent être consultés dans le bon contexte.

« Lorsqu’on lui donne un rapport après un test de pénétration, les équipes de sécurité interne examineront le rapport pour déterminer sa précision et les actions à prendre ensuite », a déclaré Richards. «Cette étape prend du temps, mais permet aux organisations de prioriser d’abord la corrigé des risques les plus élevés.»

Les résultats des outils de balayage de vulnérabilité doivent être traités avec encore une plus grande prudence.

«Nous constatons souvent avec notre outillage automatisé que la gravité par défaut de la sortie n’est pas toujours exacte étant donné d’autres facteurs tels que l’exploit étant disponible, l’accessibilité du réseau et d’autres réglementations qui réduisent le risque de vulnérabilité», a expliqué Richards. « Souvent, le problème est corrigé, même sur les systèmes critiques. »