Anthropic lance le modèle Fable 5 de classe Mythos avec des protections contre les cyber-risques

Claude Fable 5 apporte aux utilisateurs généraux des capacités d’IA de classe Mythos, auparavant restreintes, avec des garde-fous automatisés pour empêcher toute utilisation abusive – bien que les tests initiaux suggèrent que ces protections peuvent jeter un filet de cybersécurité plus large qu’Anthropic ne le reconnaît.

Anthropic a dévoilé deux nouveaux modèles d’IA puissants construits sur son architecture Mythos auparavant restreinte : Claude Fable 5, qui est largement disponible, et Claude Mythos 5, qui reste limité à un petit groupe de partenaires de cybersécurité et d’infrastructure.

Anthropic décrit Fable 5 comme le modèle le plus performant jamais rendu public, surpassant les modèles Claude précédents en matière d’ingénierie logicielle, de recherche scientifique, de vision et de tâches complexes de travail de connaissances. Anthropic affirme que l’avantage du modèle augmente à mesure que les tâches deviennent plus longues et plus compliquées, permettant aux utilisateurs d’attribuer des projets plus importants au système avec moins de surveillance et moins d’instructions détaillées.

Selon Dianne Penn, responsable de la gestion des produits, de la recherche et des laboratoires d’Anthropic, l’objectif était de rendre l’intelligence de niveau Mythos largement disponible sans exposer les utilisateurs aux risques qui maintenaient auparavant la technologie restreinte. « Nous voulions être en mesure de fournir ce niveau d’intelligence aux utilisateurs généraux de manière sûre », a déclaré Penn au Wall Street Journal.

Les garanties peuvent être plus larges que ne le suggère Anthropic

Lorsqu’Anthropic a publié Mythos en avril, l’entreprise a fait valoir que les capacités du modèle dans des domaines tels que la découverte de vulnérabilités et la cybersécurité offensive créaient des risques qui justifiaient la restriction de l’accès à une cinquantaine de destinataires. Il y a à peine une semaine, Anthropic a annoncé qu’elle étendait l’accès à Mythos à 150 organisations.

Anthropic affirme désormais avoir développé des garanties suffisamment robustes pour prendre en charge une version plus large. Ces garanties fonctionnent en acheminant certaines catégories de requêtes – notamment les requêtes liées à la cybersécurité, à la biologie, à la chimie et à la distillation des modèles – vers Claude Opus 4.8, moins performant. Anthropic affirme que ces solutions de repli se produisent dans moins de 5 % des sessions, ce qui signifie que la plupart des utilisateurs interagiront efficacement avec le modèle complet de classe Mythos lors d’une utilisation normale.

L’entreprise décrit les mesures de protection comme intentionnellement conservatrices. Les utilisateurs peuvent parfois rencontrer des faux positifs dans lesquels des requêtes bénignes sont acheminées vers l’Opus 4.8, mais Anthropic affirme avoir choisi de donner la priorité à la sécurité plutôt qu’à la commodité tout en continuant à affiner le système.

Une partie importante de la dernière annonce d’Anthropic est consacrée à expliquer pourquoi elle estime que les garanties sont nécessaires. La société affirme que les systèmes de classe Mythos ont franchi un seuil où ils pourraient fournir une assistance significative aux acteurs malveillants. Contrairement aux systèmes d’IA antérieurs qui offraient principalement des informations, Anthropic affirme que les modèles avancés sont de plus en plus capables d’exécuter des parties de flux de travail complexes, y compris des activités associées à des opérations offensives de cybersécurité.

Pour faire face à ces risques, Anthropic a développé une série de classificateurs basés sur l’IA conçus pour identifier les demandes potentiellement dangereuses. Si le système détecte une requête impliquant des cyberopérations offensives, des recherches biologiques avancées, des risques liés à la chimie ou des tentatives d’extraction des capacités du modèle pour une utilisation dans des systèmes concurrents, la requête est redirigée vers l’Opus 4.8. Anthropic affirme que des tests internes et externes approfondis n’ont pas permis de découvrir des jailbreaks largement efficaces qui contourneraient systématiquement les garanties.

Les rabatteurs anthropiques gagnent en codage, en analyse et en travail autonome

L’annonce de Fable 5 se concentre également sur l’ingénierie logicielle, où Anthropic estime que les gains du modèle sont particulièrement significatifs. Lors des tests, Stripe, par exemple, aurait utilisé Fable 5 pour effectuer une migration de l’ensemble de la base de code dans un référentiel Ruby de 50 millions de lignes en une seule journée, une tâche qui, selon l’entreprise, aurait nécessité plus de deux mois d’efforts d’ingénierie si elle était effectuée manuellement.

Anthropic affirme également que le modèle a obtenu des résultats de pointe en matière d’évaluations de codage qui mesurent non seulement si le logiciel fonctionne, mais aussi s’il répond aux normes attendues dans les environnements de production.

La société a en outre souligné les gains en matière d’analyse financière, de raisonnement de documents, d’interprétation de graphiques et de tâches de vision. Anthropic affirme que Fable 5 peut extraire avec précision des informations de figures scientifiques complexes et effectuer des tâches de raisonnement visuel sophistiquées, notamment la reconstruction du code source d’une application Web à partir de captures d’écran.

Accès élargi pour les cyberdéfenseurs

Pour un groupe restreint d’utilisateurs, Anthropic présente également Claude Mythos 5. Le modèle est identique à Fable 5 mais avec certaines garanties supprimées. Grâce au projet Glasswing, les organisations de cybersécurité et les fournisseurs d’infrastructures critiques auront accès à une version du système dans laquelle les restrictions liées à la cybersécurité seront levées. Anthropic prévoit d’étendre progressivement l’accès grâce à un programme d’accès fiable plus large développé en consultation avec le gouvernement américain.

La société affirme que Mythos 5 possède ce qu’elle décrit comme les capacités de cybersécurité les plus puissantes de tous les modèles actuellement disponibles. Anthropic a déjà souligné la capacité des systèmes de classe Mythos à découvrir des vulnérabilités logicielles, à aider au développement d’exploits et à effectuer des tâches de cybersécurité complexes en plusieurs étapes. Ces capacités sont précisément ce qui a incité l’entreprise à restreindre l’accès aux versions antérieures de la technologie.

Cette décision reflète une tendance plus large dans le secteur de l’IA, les fournisseurs cherchant des moyens de commercialiser des systèmes de plus en plus puissants sans rendre largement disponibles leurs capacités les plus dangereuses. Les développeurs d’IA ont passé l’année dernière à se demander comment déployer des modèles dont les capacités pourraient apporter des avantages substantiels aux défenseurs, aux chercheurs et aux entreprises, tout en créant des opportunités d’utilisation abusive.

L’IA ne remplace pas les bases

Pour les responsables de la sécurité, cette annonce soulève des questions importantes sur la rapidité avec laquelle les organisations peuvent s’adapter à des systèmes d’IA de plus en plus performants. Le défi n’est plus simplement d’obtenir l’accès à des modèles avancés mais de les intégrer dans les opérations de sécurité de manière à produire des bénéfices mesurables.

La question de savoir dans quelle mesure les protections sont calibrées va au-delà des flux de travail individuels : elle est au cœur de la question de savoir si les organisations peuvent réellement opérationnaliser ces modèles de manière efficace. Anthony Grieco, vice-président senior et responsable de la sécurité et de la confiance chez Cisco, a déclaré que les organisations devraient se concentrer non seulement sur l’accès à des modèles de plus en plus puissants, mais également sur leur déploiement efficace tout en maintenant de solides fondamentaux de sécurité.

Dans le même temps, Grieco a mis en garde contre le fait de considérer l’IA comme un substitut aux pratiques fondamentales de sécurité.

« L’IA va relever le plafond de ce que les défenseurs peuvent faire, mais la résilience en matière de sécurité reste le fondement qui détermine si ces gains se traduisent par une véritable protection », a-t-il déclaré. Même si les modèles d’IA accélèrent les opérations d’ingénierie logicielle, d’analyse et de sécurité, les organisations doivent toujours mettre en œuvre des principes fondamentaux tels que les correctifs, l’authentification multifacteur, la segmentation du réseau et les architectures Zero Trust.

Intelligence artificielleSécuritéGestion des risquesIndustrie technologique