Pourquoi nous avons besoin d’une analyse des mégadonnées pour le Web Dark

Lucas Morel

L’analyste de l’intelligence moderne ne peut tout simplement pas faire face à la richesse des données à leur disposition.

Le volume de l’intelligence disponible est écrasant. Nulle part ce besoin n’est plus clair que dans l’intelligence open source (OSINT), où le Darknet joue un rôle critique.

Comme Randall Nixon, directeur de l’entreprise open source de la CIA, a prévenu: « C’est incroyable ce qui est là … le prochain échec de l’intelligence pourrait facilement être un échec de l’osint, car il y a tellement de choses. »

Le bureau américain du directeur du renseignement national (ODNI) a désigné OSInt le «Int of First Resort». Des conflits mondiaux récents, y compris ceux de l’Ukraine et de Gaza, ont souligné le rôle critique d’Osint dans l’intelligence moderne.

Les marchés cybercriminaux, les messagers cryptés, les forums et les sites de pirates servent de centres pour des transactions illicites, où les drogues, les armes, la politique extrême, les références volées, les logiciels malveillants et les services de piratage sont ouvertement négociés. Ces plateformes fonctionnent un peu comme les sites de commerce électronique traditionnels, avec des cotes des fournisseurs, des services d’entiercement et des avis sur les clients. En tant qu’écosystème non exclusif, son potentiel est infini.

DarkNet Data est une mine d’or d’intelligence. Contrairement aux ensembles de données d’entreprise structurés, les données DarkNet sont chaotiques, multilingues et criblées de tromperie, nécessitant des techniques d’apprentissage automatique robustes pour extraire des informations significatives.

Les données DarkNet sont intrinsèquement désordonnées, contenant l’argot, les techniques d’obscurcissement et le texte multilingue. Sans parler des sites et pages de courte durée et transitoires. De plus, une grande partie des données est stockée dans un format non structuré, ce qui rend difficile l’application efficace de traitement du langage naturel (PNL) et de grands modèles de langage (LLM). De nombreux sites Darknet introduisent également un bruit délibéré – des pages WAB remplies de contenu aléatoire ou trompeur – pour encore obscurcir des informations.

Risques juridiques et éthiques

Étant donné que le Darknet est conçu pour l’anonymat, les réglementations traditionnelles de confidentialité ne s’appliquent pas toujours de la même manière qu’ils le font pour les médias sociaux réglementés. Cependant, les implications éthiques de la surveillance de Darknet doivent toujours être prises en compte, en particulier lors de la gestion de l’intelligence sensible et des informations personnellement identifiables (PII).

Contenu illégal

Les données DarkNet comprennent souvent des informations liées aux activités illégales, qui peuvent poser des défis importants pour l’IA générative et les modèles de grandes langues (LLM). De nombreux modèles ont des garanties intégrées qui restreignent le traitement de ce contenu, ce qui rend les solutions AI standard moins viables pour l’analyse DarkNet. De plus, plus les données d’entrée sont spécifiques, plus elle est difficile de contourner ces restrictions. Par exemple, l’extraction d’informations à partir d’une structure d’ensemble de données complète est généralement plus facile que de tirer des détails très spécifiques, tels que les noms de produits, ce qui peut déclencher des mécanismes de sécurité du modèle.

L’objectif des systèmes intelligents devrait être d’améliorer les capacités humaines, permettant aux gens de se concentrer sur une valeur supérieure, une prise de décision stratégique et des tâches créatives plutôt que sur un traitement de routine.

Alors que l’activité DarkNet continue de se développer, l’analyse avancée des mégadonnées et les méthodes axées sur l’IA seront essentielles pour donner un sens à ce vaste écosystème à haut risque.

L’informatique quantique augmente la puissance de calcul afin que l’analyse d’une semaine prenne des minutes, avec des niveaux de précision sans précédent. Les pas récents dans l’informatique quantique garantiront le traitement des données DarkNet est considérablement plus facile.

Analyse du comportement humain dans les espaces anonymisés

Quand personne ne cherche, comment les gens se comportent-ils? Le Darknet offre une perspective unique sur le comportement humain – un reflet de la façon dont les individus et les groupes agissent lorsqu’ils croient qu’ils sont introuvables. Sous le voile de l’anonymat supposé, les forums et les marchés révèlent des réactions non filtrées au monde extérieur. Cela crée une opportunité pour les spécialistes des sciences sociales, les analystes du renseignement et les chercheurs comportementaux pour étudier la psychologie criminelle et les modèles de radicalisation.

Les réseaux de neurones graphiques (GNN) sont particulièrement efficaces pour la prédiction et le regroupement des liens, aidant à identifier les connexions qui peuvent ne pas être évidentes grâce à l’analyse traditionnelle pour la résolution des entités.

Détection d’anomalies et surveillance des tendances

La détection des anomalies dans l’activité DarkNet est essentielle pour identifier les menaces émergentes. Les analystes suivant les transactions illicites recherchent des modèles anormaux dans le volume des échanges, les prix et le comportement des fournisseurs – les indicateurs qui peuvent signaler les perturbations, les interventions d’application de la loi ou l’émergence de nouvelles entreprises criminelles.

Analyse prédictive et prévision des menaces

En analysant les données historiques, les organisations peuvent prédire la probabilité de cybermenaces futures, de campagnes de désinformation et de schémas commerciaux illicites.

Comme Greg Ryckman, directeur adjoint de l’intégration mondiale à la Defense Intelligence Agency (DIA), l’a déclaré: «Nous avons besoin d’un cadre professionnel qui fait une collection open source pour vivre, pas amateur.»

Avec l’intégration des modèles prédictifs alimentés par l’IA, les données DarkNet peuvent être utilisées pour simuler des scénarios complexes, désinfecter les PII et aider les organisations à se préparer aux risques émergents – que ce soit la propagation de la désinformation, les déplacements dans les tactiques de ransomware ou les cyber-menaces géopolitiques.

Illicit Trade FR explore l’utilisation de LLMS pour identifier des entités d’informations personnellement identifiables (PII) supplémentaires. En affinant ces modèles pour détecter des éléments structurés dans un texte très non structuré, nous développons des outils qui peuvent suivre l’activité cybercriminale et détecter la fraude à grande échelle.

Au-delà de l’extraction de l’entité, nous appliquons également des techniques de modélisation de sujets pour classer et étiqueter le contenu DarkNet. En utilisant l’allocation latente Dirichlet (LDA) et des modèles basés sur des transformateurs comme Bert, nous avons réussi des sous-ensembles de forums, de marchés et de données de chat. Nous prévoyons de développer ce travail pour créer des empreintes digitales numériques uniques de ces espaces. Cela nous permettra de suivre les tendances changeantes, d’identifier quand les acteurs de la menace migrent d’un marché vers un autre et de détecter la résurgence des communautés illicites après les démontages des forces de l’ordre.

Nous avons réussi à appliquer des modèles d’IA génératifs pour extraire les détails structurés du produit à partir de places de marché DarkNet spécifiques. Nous prévoyons d’étendre ces travaux pour nous permettre de surveiller les tendances commerciales illicites, de suivre les fournisseurs spécifiques et d’évaluer les changements de marché au fil du temps. Alors que nos modèles d’IA continuent de structurer et d’analyser les données DarkNet, nous gagnons plus approfondie des tendances longitudinales.

Nous explorons le résumé, NER, le regroupement et la modélisation de sujets dirigés par l’IA pour filtrer le bruit non pertinent et les fuites de grande priorité à haute priorité. En appliquant des mécanismes de triage alimentés par l’IA, nous pouvons déterminer quelles violations présentent le plus grand risque pour les organisations.


Curieux d’en savoir plus? Contactez-nous.