OpenAI étend la sécurité de la « défense en profondeur » pour empêcher les pirates informatiques d'utiliser ses modèles d'IA pour lancer des cyberattaques

Le géant de l’IA met en place un groupe consultatif composé de « cyberdéfenseurs et praticiens de la sécurité expérimentés » pour le conseiller sur les menaces.

OpenAI se prépare à la possibilité que des groupes malveillants tentent d’exploiter ses modèles d’IA de plus en plus puissants pour mener des cyberattaques sophistiquées.

Dans un blog, la société décrit comment les capacités évolutives de ses modèles pourraient être utilisées pour « développer des exploits à distance fonctionnels du jour zéro contre des systèmes bien défendus, ou pour aider de manière significative à des opérations d’intrusion complexes et furtives d’entreprise ou industrielles visant des effets réels ».

Selon OpenAI, le problème sous-jacent est que les utilisations offensives et défensives de l’IA reposent sur les mêmes connaissances et techniques. Il est donc difficile de permettre l’un sans rendre possible l’autre.

« Nous investissons dans des mesures de protection pour garantir que ces puissantes capacités profitent principalement aux utilisations défensives et limitent l’utilisation à des fins malveillantes », a déclaré la société, ajoutant : « nous considérons ce travail non pas comme un effort ponctuel, mais comme un investissement soutenu et à long terme visant à donner un avantage aux défenseurs et à renforcer continuellement la posture de sécurité des infrastructures critiques dans l’ensemble de l’écosystème. »

Une nouvelle initiative est le Frontier Risk Council. La société a donné peu de détails sur la manière dont cela fonctionnera, mais a déclaré que cela faisait partie d’une stratégie croissante de « défense en profondeur » conçue pour contenir le potentiel largement spéculé de l’IA en tant qu’outil antagoniste.

« Les membres donneront des conseils sur la limite entre une capacité utile et responsable et une utilisation abusive potentielle, et ces enseignements éclaireront directement nos évaluations et nos garanties. Nous en partagerons bientôt davantage au sein du conseil », a déclaré OpenAI.

D’autres initiatives mentionnées dans le blog incluent l’extension des garde-fous contre les utilisations abusives, les tests externes de l’équipe rouge pour évaluer la sécurité des modèles et un programme d’accès fiable conçu pour donner aux clients éligibles l’accès à des modèles améliorés pour explorer des cas d’utilisation défensifs.

OpenAI prévoit également d’étendre son utilisation de la version bêta de son outil d’analyse Aardvark Agentic Security Researcher récemment annoncé pour identifier les vulnérabilités dans sa base de code et suggérer des correctifs ou des atténuations.

IA Red Teaming

Les entreprises d’IA se retrouvent soumises à une pression croissante pour expliquer comment elles bloqueront les utilisations abusives de leurs modèles. L’anxiété n’est pas hypothétique ; le mois dernier, Anthropic, rival d’OpenAI, a admis que son outil de programmation d’IA, Claude Code, avait été utilisé dans le cadre d’une cyberattaque ciblant 30 organisations, c’est la première fois qu’une exploitation malveillante d’IA est découverte à cette échelle.

Parallèlement, des chercheurs universitaires américains ont rapporté cette semaine que la plateforme de recherche Artemis AI avait surpassé neuf testeurs d’intrusion sur dix dans la détection des failles de sécurité. Comme l’a souligné l’équipe, cela a coûté une fraction du coût d’un chercheur humain, élargissant potentiellement l’accès à ces capacités au-delà des criminels disposant de ressources suffisantes.

Pour contrebalancer cela, il est possible que les défenseurs utilisent l’IA pour trouver les mêmes vulnérabilités. Le blog d’OpenAI fait allusion à cette capacité lorsqu’il mentionne tester ses modèles par rapport au Red Teaming Network annoncé il y a deux ans.

La réaction des experts du secteur à la dernière annonce d’OpenAI a été mitigée. Une préoccupation récurrente est la difficulté inhérente à stopper l’utilisation malveillante des modèles phares.

« OpenAI demande aux modèles de limiter leurs propres capacités via une formation au refus, ce qui peut être comparé à demander à un verrou de décider quand il doit s’ouvrir », a commenté Jesse Williams, co-fondateur et COO de la société DevOps d’agents d’IA, Jozu. En effet, c’est le modèle, et non ses auteurs humains, qui définit ce qui est nuisible.

« La distinction est l’intention et l’autorisation, que les modèles ne peuvent pas déduire à partir des invites. Les jailbreaks échouent systématiquement à la formation au refus, et les adversaires sophistiqués sondent les limites de détection et les contournent. Les garanties réduisent les abus occasionnels, mais n’arrêteront pas les menaces déterminées », a déclaré Williams.

« Le « programme d’accès sécurisé » d’OpenAI semble raisonnable jusqu’à ce que vous examiniez sa mise en œuvre. Qui est considéré comme fiable ? Des chercheurs universitaires ? Des entrepreneurs de la défense ? Des analystes SOC étrangers ? »

Selon Rob Lee, responsable de l’IA au SANS Institute, le problème de l’utilisation abusive de l’IA ne peut être résolu par une seule entreprise, pas même par la puissante OpenAI. « Les entreprises proposent des modèles capables de découvrir ou d’exploiter de manière autonome les vulnérabilités, mais l’écosystème mondial de la sécurité – gouvernements, laboratoires pionniers, chercheurs et organismes de normalisation – est fragmenté et non coordonné », a déclaré Lee.

« Le résultat est un écart grandissant où la vitesse devient sa propre vulnérabilité, créant les conditions propices à des pannes en cascade dans les infrastructures, la finance, les soins de santé et les systèmes critiques. »

Tous les experts ne sont pas aussi pessimistes. Selon Allan Liska, analyste du renseignement sur les menaces chez Recorded Future, il est important de ne pas exagérer la menace posée par l’IA. « Même si nous avons signalé une hausse de l’intérêt et des capacités des États-nations et des acteurs cybercriminels en matière d’utilisation de l’IA, ces menaces ne dépassent pas la capacité des organisations à suivre les meilleures pratiques de sécurité », a déclaré Liska.

« Cela pourrait changer à l’avenir, mais à l’heure actuelle, il est plus important que jamais de comprendre la différence entre le battage médiatique et la réalité lorsqu’il s’agit de l’IA et d’autres menaces. »

Intelligence artificielleCybercriminalitéSécurité