Les startups d'IA divulguent des informations d'identification sensibles sur GitHub, exposant des modèles et des données de formation

Les experts affirment que les fuites mettent en évidence la façon dont les entreprises d’IA à croissance rapide peuvent donner la priorité à l’innovation plutôt qu’à l’hygiène de base du DevSecOps, mettant ainsi en danger la propriété intellectuelle et les données précieuses.

Près des deux tiers des plus grandes sociétés privées d’IA au monde ont exposé des clés API et des jetons d’accès sur GitHub, selon une nouvelle étude de la société de sécurité cloud Wiz, ce qui soulève des inquiétudes quant au fait que la croissance rapide dépasse la discipline de sécurité.

Wiz a découvert des fuites secrètes vérifiées dans 65 % des sociétés Forbes AI 50, représentant une valorisation combinée de plus de 400 milliards de dollars.

Malgré la gravité du problème, près de la moitié des tentatives de divulgation de Wiz n’ont pas réussi à atteindre les entreprises concernées ou n’ont reçu aucune réponse, ce qui suggère une préparation limitée à traiter les rapports de sécurité.

Les fuites comprenaient des informations d’identification qui auraient pu exposer des modèles d’IA privés, des données de formation et des détails organisationnels internes, suggérant à quel point les pressions liées à la rapidité de mise sur le marché continuent de dépasser les pratiques de développement sécurisées dans le secteur de l’IA.

« Pensez aux clés API, aux jetons et aux informations d’identification sensibles, souvent enfouis profondément dans les forks, les résumés et les dépôts de développeurs supprimés que la plupart des scanners ne touchent jamais », a déclaré Wiz dans un blog. « Certaines de ces fuites pourraient avoir exposé des structures organisationnelles, des données de formation ou même des modèles privés. »

Certaines des informations d’identification divulguées appartenaient à des plates-formes d’IA majeures telles que Hugging Face, Weights & Biases et LangChain, qui auraient pu donner accès à des modèles privés ou à des ensembles de données de formation sensibles, selon Wiz.

Des implications plus larges

Les analystes ont déclaré que le stockage cloud mal configuré était un problème récurrent depuis plus d’une décennie, citant des incidents passés tels que les fuites d’AWS S3.

Mais même si le schéma est familier, les dommages potentiels se sont accrus à mesure que les actifs exposés incluent désormais des modèles d’IA, des données de formation et des pipelines de développement complexes.

« La vitesse et la sécurité semblent être la cause sous-jacente des mauvaises configurations du cloud, de la gestion inadéquate des secrets, du manque de sécurité ou de confidentialité dès la conception et des lacunes en matière d’outils », a déclaré Sunil Varkey, analyste en cybersécurité. « Les impacts peuvent être graves, allant bien au-delà de l’exposition typique des données, car une fuite d’IA peut perturber plusieurs niveaux d’une organisation à la fois, notamment la compétitivité technologique, commerciale, juridique, éthique et stratégique. »

L’ampleur de l’exposition indique « un gouffre DevSecOps flagrant » entre les startups d’IA et les entreprises SaaS ou cloud plus matures, selon Chandrasekhar Bilugu, CTO de SureShield. « Les équipes d’IA, qui se précipitent vers le prototype, stockent souvent des secrets tels que des fichiers de configuration dans des référentiels publics, et beaucoup d’entre eux manquent même une analyse de base des forks ou de l’essentiel supprimés », a-t-il déclaré.

« Avec les entreprises exposant des clés et des jetons API sur GitHub, le risque réel est catastrophique : les attaquants peuvent détourner des modèles propriétaires à des fins de sabotage concurrentiel, siphonner les informations personnelles des clients à des fins d’usurpation d’identité (affectant des milliards d’amendes potentielles au titre du RGPD) ou basculer dans le chaos de la chaîne d’approvisionnement », a ajouté Bilugu. « Dans l’IA, où les données de formation sont une denrée précieuse, une seule fuite de jeton donne accès à des milliers de modèles privés, ce qui entraîne un vol de propriété intellectuelle ou un empoisonnement de modèle. »

Les résultats suggèrent qu’à mesure que l’adoption de l’IA s’accélère, les développeurs et les RSSI devront renforcer la surveillance des pipelines de développement et des pratiques de stockage secret.

Conformité et gouvernance

Les résultats de Wiz mettent en évidence comment les clés API exposées peuvent dégénérer en compromissions à grande échelle dans les écosystèmes d’IA, selon Sakshi Grover, responsable de recherche senior pour IDC Asia Pacific Cybersecurity Services. « Les informations d’identification volées peuvent être utilisées pour manipuler le comportement d’un modèle ou extraire des données de formation, sapant ainsi la confiance dans les systèmes déployés. »

Grover a noté que de telles expositions sont souvent liées au fonctionnement des environnements de développement de l’IA. « Les projets d’IA fonctionnent souvent dans des environnements peu gouvernés et axés sur l’expérimentation, où les blocs-notes, les modèles pré-entraînés et les référentiels sont fréquemment partagés, laissant les secrets non analysés ou non pivotés », a ajouté Grover.

Elle a souligné les données de l’étude de sécurité Asie/Pacifique d’IDC, qui ont montré que 50 % des entreprises de la seule région APAC prévoient d’investir dans la sécurité des API lors de la sélection des fournisseurs CNAPP, ce qui reflète à quel point les API exposées sont devenues un vecteur d’attaque majeur.

Alors que les régulateurs se concentrent davantage sur la sécurité de l’IA et la protection des données, la gestion des secrets et la gouvernance des API sont susceptibles de devenir des éléments auditables des nouveaux cadres de conformité de l’IA, a déclaré Grover.