Big Hole in Big Data: le bogue de désérialisation critique dans Apache Parquet permet RCE

Une exploitation réussie pourrait permettre aux attaquants de voler des données, d’installer des logiciels malveillants ou de prendre le contrôle total des systèmes de Big Data affectés.

Une faille dans le code pour gérer Parquet, le format de fichier de données colomniques open-source d’Apache, permet aux attaquants d’exécuter du code arbitraire sur les instances vulnérables.

La vulnérabilité, suivie en CVE-2025-30065, est un problème de désérialisation (CWE-502) dans la bibliothèque Java de Parquet qui permet l’exécution de fichiers de parquet fabriqués de manière malveillante.

« Cette vulnérabilité peut avoir un impact sur les pipelines de données et les systèmes d’analyse qui importent des fichiers Parquet, en particulier lorsque ces fichiers proviennent de sources externes ou non fiables », a déclaré Endor Labs dans un article de blog.

Les organisations utilisant Parquet pour leurs piles de grosses données et d’analyse – un cas d’utilisation populaire pour le stockage des données en colonnes de Parquet – doivent faire pression pour le correctif immédiat de ce défaut pour empêcher la prise de contrôle du système potentiel.

Affecte les implémentations Java d’Apache Parquet

La bibliothèque Parquet Java, une implémentation de référence pour travailler avec des fichiers Parquet dans l’écosystème Java, est affectée dans les versions avant 1.15.1.

« Nos propres données indiquent que cela a été introduit dans la version 1.8.0, cependant, les directives actuelles consistent à examiner toutes les versions historiques », a déclaré Endor Labs.

Bien que les détails techniques d’un exploit potentiel ne soient pas encore à venir, un module spécifique, Parquet-Avro, dans la bibliothèque a été découvert permettant la désérialisation de données non fiables, permettant l’exécution de codes envoyés à distance sous la forme de fichiers de parquet conçues.

Toute application ou service qui utilise la bibliothèque Java, y compris les cadres populaires de grosses données comme Hadoop, Spark et Flink, est susceptible d’attaques. L’exécution du code distant résultant (RCE) sur les systèmes de victime peut permettre aux attaquants de prendre le contrôle des systèmes, de salir ou de voler des données, d’installer des logiciels malveillants ou / et de perturber les services, a ajouté Endor Labs.

Aucun exploit connu encore

Ni Endor Labs ni l’entrée NVD de NIST n’ont signalé de tentatives d’exploitation utilisant CVE-2025-30065 à partir de la publication de cet article. Apache a poussé silencieusement un correctif avec la sortie de 1.15.1 le 16 mars 2025, avec une redirection GitHub vers les modifications apportées à la mise à jour.

Endor Labs a conseillé des correctifs rapides de la vulnérabilité, qui constituent des menaces à la confidentialité, à l’intégrité et à la disponibilité des systèmes affectés. Il a averti les développeurs que l’absence d’attaques signalées ne devrait pas retarder l’action car la question est désormais des connaissances publiques.

Un facteur atténuant pour les organisations vulnérables est l’exigence d’interaction des utilisateurs pour une exploitation réussie. Seul un fichier de parquet malveillant importé par l’utilisateur dans ses systèmes peut déclencher la vulnérabilité.

Mais cela peut ne pas les sauver longtemps. Le mois dernier, une faille critique a été trouvée dans un autre service basé à Java d’Apache, Tomcat – et il a été exploité dans les 30 heures suivant la divulgation publique.