Qu’est-ce que la récolte de données? | Sombre

Lucas Morel

La cybersécurité pourrait aussi bien avoir sa propre langue. Il y a tellement d’acronymes, de termes, de paroles que les professionnels de la cybersécurité et les acteurs de menace utilisent tous les deux qu’à moins que vous ne soyez profondément bien informé, que vous ayez une expérience dans le domaine de la sécurité ou que vous ayez un vif intérêt, on ne peut pas savoir. La compréhension de ce que signifient ces acronymes et termes est la première étape pour développer une compréhension approfondie de la cybersécurité et, à son tour, mieux vous protéger, les clients et les employés.

Dans cette série de blogs, nous visons à expliquer et à simplifier certains des termes les plus couramment utilisés. Auparavant, nous avons couvert l’hébergement Bullet Proof, les CVE, les API, les attaques de force brute, les exploits zéro-jour et le doxing. Dans cette édition, nous plongeons dans la récolte de données.

La récolte de données fait référence à la collecte automatisée de données provenant de sources numériques, telles que des sites Web, des applications, des API, des bases de données ou des enregistrements publics, dans le but de dessiner des inférences. Il est souvent accompli à l’aide d’outils tels que des grattoirs Web, des robots de robots ou des logiciels spécialisés. Il existe des raisons légitimes pour la récolte des données ainsi que des fins néfastes. Nous plongerons dans les deux.

Le quoi et comment

Données récoltées sans consentement provenant des violations de données, des escroqueries au phishing ou des logiciels malveillants – comme des informations personnelles, des informations d’identification de connexion, des numéros de carte de crédit, des données de localisation, des données sociales (telles que les goûts, les publications et les connexions), les données comportementales (telles que l’historique et les habitudes de navigation), ou les dossiers médicaux.

La récolte des données est effectuée par diverses méthodes, chacune avec différents niveaux de transparence et de légalité. L’un des outils les plus courants est cookies et trackersqui sont intégrés dans les sites Web pour surveiller le comportement des utilisateurs, tels que les modèles de navigation, les clics et le temps passé sur les pages. API et SCOPERS sont également largement utilisés pour extraire systématiquement des données des plateformes en ligne, automatisant souvent la collecte de grandes quantités d’informations en peu de temps. Applications et appareils connectés Peut récolter les données grâce à des autorisations acquises par l’utilisateur – ou parfois via des scripts cachés – de bien-être des informations telles que les contacts, l’emplacement et l’utilisation de l’appareil. Plus malicieusement, campagnes de phishing et logiciels malveillants Peut tromper les utilisateurs à abandonner les informations sensibles ou à infecter leurs systèmes pour extraire les données secrètement, posant des risques de sécurité et de confidentialité importants.

  • Marketing et publicité: Les entreprises l’utilisent pour comprendre le comportement des consommateurs, les tendances du marché, les prix des concurrents et les performances des produits. Les entreprises utilisent ces données récoltées pour créer des profils de consommateurs détaillés et diffuser des annonces ciblées. En comprenant vos intérêts, vos habitudes et vos données démographiques, les annonceurs peuvent augmenter les chances de clics et de ventes.
  • Génération de leads: Collecte des coordonnées pour les ventes et la sensibilisation du marketing.
  • Recherche: Les universitaires et les chercheurs les utilisent pour recueillir des données pour des études dans divers domaines, tels que les sciences sociales, l’économie et les soins de santé. La formation sur l’IA est un autre domaine à venir – les grands ensembles de données sont introduits dans des modèles d’IA pour la formation. Cela inclut les données grattées du Web (comme le texte, les images ou les modèles de comportement) pour créer des chatbots, des moteurs de recommandation et des systèmes de reconnaissance faciale.
  • Agrégation de contenu: Collecte de contenu à partir de plusieurs sources pour créer des agrégateurs de nouvelles ou des sites Web de comparaison.
  • Amélioration de l’expérience utilisateur: Comprendre les préférences et le comportement des utilisateurs pour améliorer les sites Web et les applications. Les organisations analysent les données pour découvrir les tendances, améliorer les services, prévoir la demande ou améliorer l’expérience client. Par exemple, un détaillant peut utiliser des données de navigation et d’achat pour optimiser les stocks ou personnaliser des recommandations.
  • Brokerage de données: Les courtiers de données collectent et regroupent les données de nombreuses sources, puis les vendent à des tiers, comme les spécialistes du marketing, les assureurs, les employeurs ou les campagnes politiques.
  • Vol d’identité et fraude: Récolte des informations personnelles (noms, adresses, e-mail, détails de paiement) pour commettre un vol d’identité ou des activités frauduleuses.
  • Courrier indésirable: Collecte des adresses e-mail pour les e-mails non sollicités en masse.
  • Vol de propriété intellectuelle: Stracage du contenu propriétaire, des conceptions de produits ou des plans stratégiques de concurrents.
  • Violation de données: Si les données récoltées ne sont pas correctement sécurisées, elles peuvent être vulnérables aux violations, exposant des informations sensibles.

Les données récoltées sont souvent vendues sur les marchés DarkNet. Une fois les données récoltées par des «récolteuses», ils videront souvent ces données sur le DarkNet et les fourniront à vendre sur différents marchés, souvent avec l’idée d’un gain financier. Les données collectées pourraient être utilisées pour le chantage, le doxing ou le harcèlement. Les données recueillies par des extrémistes politiques ou des groupes militants peuvent utiliser les données pour les attaques et les campagnes ciblées.

À gauche, nous voyons un exemple de comboliste (une liste d’adresses e-mail et de combinaisons de mots de passe qui peuvent être utilisées dans une tentative de force brute ou des opérations de fourrure d’identification pour obtenir un accès non autorisé aux serveurs et aux services) qui a été divulgué et publié sur un site Darknet. Les bases de données de la récolte de données comprendront souvent des noms d’utilisateur et des mots de passe, Fullz (profils d’identité complète), des dossiers financiers ou des dossiers de santé. Ceux-ci sont tous souvent hautement confidentiels ou sensibles et peuvent causer beaucoup de mal et de maux de tête lorsqu’ils sont affichés sans consentement.

Le Darknet est une couche d’Internet conçue spécifiquement pour l’anonymat. Il est plus difficile d’accès que le Web Surface Web et n’est accessible que via des outils spéciaux et des logiciels – spécifiquement les navigateurs et autres protocoles. Vous ne pouvez pas accéder au DarkNet en tapant simplement une adresse Web sombre dans votre navigateur Web. Il existe également des réseaux d’adjacent DarkNet, tels que des plates-formes de messagerie instantanées comme Telegram, le Web Deep, certains sites Web de surface à haut risque. En raison de la nature anonyme du Darknet, les récolteurs de données sont capables de passer non-détectés, de monétiser les données sans révéler leur identité et collaborer avec d’autres sur le Darknet.

Le site DarkNet, DOXBIN, facilite le doxing en permettant aux utilisateurs de télécharger du contenu textuel lié aux individus. Le site prétend restreindre le contenu qui est le spam, le matériel explicite des enfants (CSAM) ou viole les lois juridictionnelles du pays d’hébergement. Cependant, dans la pratique, il y a une modération minimale et les informations sont souvent partagées avec l’intention de cibler les individus.

L’exposition des PII sur Doxbin peut entraîner de graves conséquences pour les victimes, notamment le harcèlement, le vol d’identité et les menaces à la sécurité personnelle. Les victimes peuvent également être soumises au harcèlement par des appels de farce, des e-mails de spam et une cyberintimidation sur les réseaux sociaux.

La récolte de données Darkowl implique la collecte d’informations auprès du Darknet, du Web Deep et du Web à haut risque de surface pour fournir des informations à leurs clients. Ces données sont utilisées pour identifier les acteurs de la menace, surveiller les cyber violations, analyser les tendances de DarkNet, etc. Le processus de collecte de données de Darkowl comprend une analyse automatisée de l’IA et de la manuelle, dans le but de fournir une intelligence de haute qualité, pertinente et opportune.

Ce que Darkowl recueille

  • Données DarkNet: Le Darknet est une couche d’Internet qui ne peut pas être accessible par les navigateurs traditionnels et nécessite souvent une technologie spécialisée (proxys) – ainsi qu’un certain niveau de sophistication technique – pour accéder. Alors que le Darknet est composé de divers titres foncés, Tor (ou le routeur d’oignon) est de loin le plus courant. En plus de Tor, Darkowl arrête également le contenu des réseaux peer-to-peer comme I2P et Zeronet.
  • Données Web profondes: Le Web Deep fait techniquement partie de la surface Web et peut être mieux décrit comme tout contenu avec un Web de surface qui n’est pas indexé ou consultable via des moteurs de recherche traditionnels. Cela comprend des sites de pâte Web de surface et des sites Web que nous avons découverts via des moyens authentifiés, par exemple des sites Web avec un niveau de surface qui nécessitent une enregistrement des utilisateurs et / ou une connexion pour accéder à des informations significatives du site. Darkowl possède des centaines de sites «Web Deep», y compris des marchés et des forums, à partir duquel un mélange de robots authentifiés et manuels obtient des informations.
  • Web de surface à haut risque: Le contenu Web de surface consiste en quoi que ce soit sur l’Internet «régulier» qui est confronté au public avec un domaine de haut niveau sur la surface (TLD) et pourrait être organiquement rampé / gratté par Google. Cela comprend les pages de destination et / ou le contenu de prévisualisation pour les forums auxquels Darkowl a également organisé un accès Web profond (c.-à-d. Les inscriptions et l’authentification).
  • Plateformes de chat: Les plates-formes de chat sont tous les sites Web (que ce soit sur le Web Deep ou DarkNet), l’application ou le service qui est le principal objectif pour la messagerie instantanée. Cela comprend des échanges de messages entre des utilisateurs individuels ou des groupes d’utilisateurs qui interagissent dans les canaux et les groupes basés sur des rubriques. Certains chats sont collectés auprès de services TOR qui sont activés avec des fonctionnalités de chat anonymes en temps réel, d’autres à partir de messages instantanés spécialisés ou de protocoles propriétaires comme IRC Andtelegram.
  • Contenu de violation: Les violations de données sont des fichiers de données agrégés d’informations obtenues sans le consentement des propriétaires. Cela peut être constitué de fuites de données commerciales par les acteurs de la menace (TAS) soit après la découverte d’une base de données non sécurisée ou d’un serveur erroné, soit par un incident de cybersécurité malveillant ciblé (violation directe). Ces fuites incluent les enregistrements de courrier électronique sensibles internes, les noms d’utilisateur et les mots de passe, les informations personnellement identifiables (PII), les dossiers financiers, etc. Les violations de données sont souvent vendues à but lucratif sur Darknet, bien qu’elles soient parfois affichées et exploitées par des acteurs criminels pour des moyens autres que le gain financier ou dans les retombées de la cyber-guerre entre les cyber-pouvoirs et les hacktivistes parrainés par l’État national.
  • Autres sources: Darkowl possède également des documents limités dans sa base de données de vision collectés à partir de serveurs FTP et alternatifs DNS mal configurés, ainsi que des seaux S3 publics ouverts. La collecte de ces sources est moins en temps réel et intentionnel comme les autres sources de données décrites ci-dessus.

Comment Darkowl collecte les données

  • AI automatisée: Les outils automatisés et les moteurs alimentés par IA pour collecter et traiter les données en temps quasi réel.
  • Analyse manuelle: Les analystes humains augmentent la collecte automatisée, assurant la qualité et la pertinence des données.

Comment Illicit Trade FR traite et structure les données

  • Données non structurées: Darkowl recueille des données dans son format de texte brut d’origine.
  • Nettoyage et stockage des données: Les données collectées sont traitées, nettoyées et stockées dans un environnement sécurisé.
  • Extraction de l’entité: Darkowl identifie et extrait des entités comme les adresses e-mail, les numéros de sécurité sociale et les crypto-monnaies.
  • Métadonnées et contexte: Les métadonnées et le contenu de la source incluses fournissent un contexte et permettent aux utilisateurs d’identifier rapidement les données importantes.

Pourquoi les données de Darkowl sont précieuses:

  • Intelligence des menaces: Les données de Darkowl peuvent aider les organisations à identifier et à comprendre les menaces émergentes, notamment les cyber violations, les attaques de ransomwares et la fraude.
  • Enquêtes OSINT: DarkNet Data est un élément essentiel des enquêtes OSINT (Open-source Intelligence) pour recueillir des informations sur des individus ou des groupes spécifiques, y compris leurs noms d’utilisateur, leurs alias et leurs activités en ligne.
  • Évaluation des risques numériques: Les données de Darkowl peuvent aider les organisations à évaluer leur posture de risque numérique et à identifier les vulnérabilités en voyant quelles informations concernant elles sont disponibles sur DarkNet.
  1. Utilisez des navigateurs de confidentialité et des bloqueurs d’annonces
  2. Cookies et cache régulièrement
  3. Limiter les autorisations d’application
  4. Utilisez des mots de passe solides et uniques et ne répétez pas l’utilisation de mots de passe
  5. Utilisez un gestionnaire de mots de passe
  6. Activer l’authentification à 2 facteurs
  7. Soyez prudent des tentatives de phishing

Curieux d’en savoir plus? Contactez-nous.