Statistiques sur la cybersécurité :
Méthodologie et sources
Objectif de cette page
Cette page explique comment les statistiques de cybersécurité présentées sur notre page Statistiques de cybersécurité sont collectées, traitées et interprétées, et assure une transparence totale concernant les sources de données référencées. La page principale des Statistiques sur la cybersécurité présente un résumé des résultats et des informations issues des recherches de NordVPN.
Sources de données et attribution
La recherche de sources s'effectue via l'API Google Custom Search (GCS), à l'aide de plusieurs moteurs de recherche personnalisés (CSE) configurés pour :
Médias : 44 médias grand public et spécialisés dans les technologies (par exemple, la BBC, CNN, le New York Times, le WSJ, le FT, Reuters, Bloomberg, TechCrunch, Wired, Ars Technica, Time, Forbes).
Sites faisant autorité/de référence : 25 sources issues du secteur et d'experts (par exemple, CISA, KrebsOnSecurity, The Hacker News, Dark Reading, BleepingComputer, SecurityWeek, Infosecurity Magazine).
Actualités locales : plus de 100 médias régionaux et nationaux dans les régions APAC, EMEA et Amériques (par exemple, Channel NewsAsia, CSA.gov.sg, Zaobao ; HK01, unwire.hk ; Japan Times, NISC, JPCERT, ITMedia).
sans restriction/général.
Les requêtes s'appuient sur des mots-clés issus d'une liste de mots-clés mise à jour régulièrement, qui regroupe les termes par catégorie.
Tous les enregistrements comportent une mention explicite de la source :
Lien vers l'article original
Média (domaine extrait de l'URL)
Date de publication et date de collecte
Nous synthétisons des informations provenant de nombreuses sources à des fins statistiques et d'agrégation d'événements ; chaque statistique est dérivée de données issues d'articles, stockées avec des liens.
Récupération du contenu et fréquence de collecte
Récupère le contenu en texte intégral des liens détectés à l'aide de :
Principal : NewsPlease
Solution de secours : téléchargement direct du code HTML avec session de requêtes sécurisée et extraction des données de trafic.
Les délais d'expiration, les tentatives de reconnexion, les solutions de secours TLS et les en-têtes Referer sont utilisés pour réduire les échecs temporaires.
La date et le titre de publication sont extraits de l'extracteur lorsqu'ils sont disponibles ; l'analyse de la date est normalisée pour ne conserver que la date.
Les requêtes quotidiennes portent sur le contenu du dernier jour.
Extraction de fonctionnalités
Les champs extraits comprennent :
Média (à partir de l'URL)
Premier paragraphe (3 à 5 premières phrases)
Caractéristiques des mots-clés : nombre total dans le texte, présence dans le titre, phrases contenant le mot-clé de base et présence de n'importe quel mot-clé de la liste gérée
Nombre de mots
Évaluation de la pertinence des modèles de langage (LLM)
Chaque article est évalué par un modèle de langage (LLM) avec un paramètre déterministe (température 0) et une invite contrainte qui exige des résultats explicites et structurés :
1. Si l'article concerne un cyber-événement
2. Le cas échéant, un type d'événement de haut niveau est attribué :
Incident : une cyberattaque ou une violation confirmée s'est déjà produite (par exemple, déploiement d'un rançongiciel, exfiltration de données, attaque DDoS, compromission du système).
Vulnérabilité : découverte ou divulgation d'une faille de sécurité dans un logiciel, un matériel ou un système susceptible d'être exploitée (risque potentiel plutôt qu'exploitation confirmée).
Renseignements sur les menaces : rapports sur les auteurs de menaces, les outils, les TTP et les campagnes ; l'accent est mis sur « qui/comment », et non sur un incident spécifique touchant une victime.
Réglementation et droit : lois, règlements, mesures d'application, décisions judiciaires ou changements politiques majeurs ayant une incidence sur les obligations en matière de cybersécurité.
Type d'article et catégorisation
Les articles pertinents sont classés selon une taxonomie structurée (critères principaux : statut de l'attaque, type d'événement, aspects réglementaires/juridiques ; critères secondaires : indicateurs d'impact/catégorie, détails techniques, secteurs, zone géographique, ampleur, dommages estimés).
Regroupement d'événements (agrégation d'articles en événements)
Objectif : regrouper les articles décrivant le même incident sous-jacent en un seul « événement ».
Méthode :
Récupérer les événements existants dans la base de données afin de fournir le contexte (titres, organisations connues concernées, auteurs des menaces, liens).
Pour chaque article candidat (où Type d'article = Incident unique), le LLM compare les détails de l'article à des lots d'événements existants et, soit :
1. Attribue un identifiant d'événement existant lorsqu'il y a une correspondance à haut niveau de confiance, ou
2. Crée un nouvel événement.
Les invites mettent l'accent sur une grande précision : ne créer un lien vers un événement existant qu'en cas de degré de confiance élevé. Les organisations concernées et les signaux émis par les auteurs de menaces sont considérés comme des indicateurs fiables.
Les événements conservent des champs agrégés : dates de première/dernière observation, nombre d'articles, organisations concernées, auteurs de menaces, titres, liens.
Précision et assurance qualité
Déterminisme et contraintes :
La température LLM est réglée sur 0 afin de maximiser le déterminisme et de réduire les hallucinations.
Les invites contraintes nécessitent des champs explicites et des sorties JSON ; l'analyse syntaxique impose le schéma.
Les articles sans contenu (titre ou texte manquant) sont rejetés d'emblée.
Métriques régies par LLM et validées par schéma :
Tous les champs métriques sont générés par des exécutions déterministes du LLM (température 0) selon des directives strictes et documentées ainsi que des schémas JSON ; seules les sorties conformes au schéma sont prises en compte, avec un contrôle qualité humain périodique visant à calibrer le système et à prévenir toute dérive.
Classification des événements/articles pour un filtrage précis :
La classification par type d'événement et par thème principal de l'article sert de filtre de pertinence strict, permettant d'écarter les contenus hors sujet, peu pertinents ou de type « tour d'horizon ». Cette approche axée sur le signalement d'incidents isolés réduit le bruit et améliore sensiblement la précision et l'exactitude des ensembles de données.
Validation multi-sources :
Le regroupement d'événements fait référence au contexte d'événement précédemment enregistré ; les divergences réduisent le risque de fusions incorrectes.
Les agrégations comprennent la liste des liens sources par événement à des fins de vérification manuelle.
Intervention humaine :
Les cas ayant un impact important ou présentant une ambiguïté peuvent être signalés en vue d'un examen rédactionnel et d'une vérification des faits.
Contrôles qualité réguliers : les articles et les événements échantillonnés sont audités mensuellement, avec un examen de précision ; toute dérive déclenche des ajustements d'invite/de modèle ou de mot-clé.
Traçabilité :
Chaque statistique peut être rattachée à des articles et à des liens contenus dans la base de données à des fins d'auditabilité.
Limites
Limites de couverture :
La détection basée sur le GCS dépend des mots-clés et de la configuration du CSE ; tous les incidents ne sont pas détectés, en particulier ceux qui ne relèvent pas des langues configurées ou qui concernent des contenus payants.
Certains sites bloquent la récupération automatisée ; ces articles peuvent être partiellement ou totalement absents.
Risques spécifiques aux LLM :
Malgré des paramètres déterministes et des requêtes structurées, une classification erronée peut se produire, en particulier avec des textes peu denses ou ambigus.
Le regroupement d'événements peut diviser un même incident en plusieurs événements ou fusionner des incidents similaires mais distincts dans certains cas particuliers.
Comment les statistiques sont calculées
Les champs au niveau de l'article sont dérivés d'une extraction directe et des résultats du LLM (stockés par enregistrement).
Les métriques au niveau des événements regroupent les articles constitutifs par event_id :
nombre d'articles, dates de première/dernière consultation
organisations concernées et acteurs malveillants, après déduplication
titres représentatifs et listes de liens canoniques
Les statistiques des rapports sont extraites de ces tableaux stockés ; chaque chiffre peut être retracé jusqu'aux lignes d'événements et aux enregistrements d'articles sous-jacents.
Portée des données
Les statistiques et les informations mentionnées dans nos contenus sur la cybersécurité proviennent d'une combinaison des éléments suivants :
Rapports d'incidents de cybersécurité accessibles au public
Couverture médiatique des cyberincidents confirmés
Rapports et enquêtes du secteur
Divulgations gouvernementales et réglementaires
Ces données reflètent les activités observables et signalées publiquement, et non l'ensemble des incidents cybernétiques survenant à l'échelle mondiale. De nombreux incidents cybernétiques ne sont jamais divulgués, signalés ou relayés par les médias.
Sources de données et découverte
Types de sources
Les articles et rapports relatifs à la cybersécurité sont issus de plusieurs catégories de sources, notamment :
Médias grand public et spécialisés dans les technologies.
Il s'agit notamment des grands organes de presse internationaux et des publications spécialisées dans les technologies.Sources faisant autorité et spécialisées en cybersécurité.
Notamment des agences gouvernementales, des organismes de recherche en cybersécurité et des publications reconnues du secteur.Médias régionaux et locaux.
Couvrant les incidents de cybersécurité en Amérique du Nord, en Europe, en Asie-Pacifique et dans d'autres régions.Rapports sur l'industrie et la recherche.
Comprend des rapports annuels sur les violations de données, des rapports sur le paysage des menaces, des enquêtes et des analyses économiques.
Chaque source est citée au niveau de l'article ou du rapport, avec mention de la date de publication, du média et de l'URL d'origine.
Processus de découverte
La découverte de contenu s'effectue à l'aide de requêtes de recherche automatisées basées sur une liste de mots-clés de cybersécurité mise à jour régulièrement. Les mots-clés sont regroupés par thème (par exemple : violations de données, ransomware, hameçonnage, vulnérabilités, réglementation).
Des recherches sont effectuées quotidiennement afin de recenser les nouveaux contenus publiés. Chaque exécution interroge uniquement le matériel récent, ce qui garantit que l'ensemble de données reflète les articles actuels.
Collecte et traitement du contenu
Récupération d'articles
Une fois qu'une source est découverte, le texte complet de l'article est récupéré à l'aide d'outils d'extraction automatisés. Lorsque l'extraction principale échoue, des méthodes de secours sont utilisées pour garantir une couverture fiable.
Déduplication
Pour éviter le double comptage :
Les URL identiques ne sont traitées qu'une seule fois
Le contenu republié ou syndiqué est dédupliqué au niveau de l'article
L'agrégation au niveau des événements (décrite ci-dessous) réduit encore davantage les doublons entre les différents points de vente
Filtrage par pertinence et classification
Évaluation de la pertinence en matière de cybersécurité
Chaque article est évalué afin de déterminer s'il est pertinent pour les statistiques en matière de cybersécurité. Les articles doivent décrire ou analyser de manière pertinente un événement lié à la cybersécurité, une menace, une vulnérabilité ou une mesure réglementaire.
Classification des types d'événements
Les articles pertinents sont classés dans des catégories générales, notamment :
Incident – Une cyberattaque ou une violation confirmée qui s'est déjà produite
Vulnérabilité – Divulgation d'une faille de sécurité susceptible d'être exploitée
Renseignements sur les menaces – Rapports sur les acteurs malveillants, les outils, les campagnes ou les techniques
Réglementation / droit – Lois, mesures coercitives, changements de politique ou procédures judiciaires liés à la cybersécurité
Cette classification garantit que les statistiques relatives aux « incidents », aux « violations » ou aux « attaques » ne soient pas confondues avec les divulgations de vulnérabilités ou les commentaires généraux.
Regroupement d'événements (agrégation d'articles en événements)
Il arrive souvent que plusieurs articles traitent du même incident informatique sous-jacent. Pour éviter les doubles comptages :
Les articles décrivant le même incident sont regroupés en un seul événement
Les événements se voient attribuer des identifiants internes stables
Les articles ne sont associés à des événements existants que lorsqu'il y a une forte probabilité qu'ils décrivent le même événement
Les indicateurs utilisés pour le regroupement comprennent les organisations touchées, les auteurs des menaces, les chronologies et les descriptions des incidents.
Les enregistrements au niveau de l'événement conservent :
Dates de première et de dernière apparition
Nombre d'articles connexes
Organisations concernées
Acteurs malveillants référencés
Liens vers les sources à des fins de vérification
Recours à l'analyse automatisée et aux contrôles qualité
Classification automatisée
Une analyse structurée et déterministe des modèles linguistiques est utilisée pour la classification, l'extraction et l'agrégation. Toutes les sorties automatisées suivent des schémas prédéfinis afin de garantir la cohérence.
Les modèles fonctionnent avec des paramètres déterministes afin de réduire la variabilité et le risque d'hallucination.
Assurance qualité
Pour garantir l'exactitude :
La validation du schéma garantit que seules les sorties correctement structurées sont prises en compte.
Des procédures mensuelles régulières d'échantillonnage et de vérification, y compris une vérification de la précision, sont mises en œuvre afin de détecter toute dérive de classification. Cette analyse met en évidence des changements dans la classification, qui justifient et nécessitent ensuite des ajustements du modèle.
Les cas ambigus ou à fort impact sont signalés pour être examinés par un humain
Les statistiques agrégées permettent de retracer les articles et les événements individuels
Comment les statistiques sont calculées
Métriques au niveau de l'article vs au niveau de l'événement
Certaines statistiques sont basées sur :
Comptages au niveau de l'article (par exemple, volume de la couverture médiatique)
Nombre d'événements (par exemple, nombre de violations ou d'incidents distincts)
Le cas échéant, les métriques au niveau de l'événement sont privilégiées pour réduire les doublons.
Interprétation des nombres et des fréquences
Les statistiques telles que « incidents par jour » ou « violations par an » représentent les activités signalées ou relayées par les médias, et non l'activité mondiale totale.
Les données télémétriques des fournisseurs, les systèmes de signalement des pouvoirs publics et les projections économiques font souvent état de volumes nettement plus élevés en raison de différences de champ d'application et de méthodologie. Ces différences sont signalées lorsque cela est pertinent.
Limites et considérations
Bien que tout soit mis en œuvre pour garantir l'exactitude et la cohérence des données, celles-ci présentent des limites inhérentes :
Tous les incidents ne sont pas rendus publics ou signalés
La couverture médiatique varie selon la région, le secteur et l'ampleur de l'incident
Certaines sources restreignent l'accès
Des erreurs de classification peuvent se produire dans certains cas particuliers
Les chiffres des pertes économiques peuvent changer au fur et à mesure de l'évolution des enquêtes
Les statistiques doivent donc être interprétées comme des indicateurs de tendance et non comme des mesures exhaustives.
Index des sources
Chaque source numérotée ci-dessous correspond à une référence en exposant utilisée sur la page « Statistiques sur la cybersécurité ». Les superscripts renvoient directement à l'entrée source correspondante sur cette page.
Source 1 Statista – |
|---|
Source 2 Identity Theft |
Source 3 Identity Theft |
Source 4 Verizon – |
Source 5 IBM – |
Source 6 South Korean |
Source 7 Aflac – June |
Source 8 HIPAA Journal – |
Source 9 California Attorney |
Source 10 Iowa Attorney |
Source 11 Rhode Island |
Source 12 Rhode Island |
Source 13 Aflac Newsroom – |
Source 14 HIPAA Journal – |
Source 15 Office of the |
Source 16 Qantas – Information |
Source 17 Qantas Newsroom – |
Source 18 Michigan Attorney |
Source 19 Maine Attorney |
Source 20 California Attorney |
Source 21 University of |
Source 22 Microsoft Digital |
Source 23 WIRED – NotPetya |
Source 24 Reuters – UnitedHealth |
Source 25 The Guardian – Jaguar |
Source 26 NBC News – |
Source 27 Delaware Department |
Source 28 Cybersecurity |
Source 29 JumpCloud – Phishing |
Source 30 Hornetsecurity – Email |
Source 31 Spearshield – |
Source 32 APWG – Phishing |
Source 33 arXiv – Academic |
Source 34 DeepStrike – Password |
Source 35 NordPass – Top 200 |
Source 36 Financial Times – |
Source 37 SecurityScorecard – |
Source 38 National Technology & |
Source 39 Palo Alto Networks – |
Source 40 IBM – Threat |
Source 41 Tenable – |
Source 42 Cybersecurity |
Source 43 Statista Market |
Source 44 Statista – Cost of |
Source 45 FTC – Consumer |
Source 46 FBI IC3 – 2024 Internet |
Source 47 Kroll – Data Breach |
Source 48 IBM – Cost of a Data |
Source 49 SailPoint – 2024 |
Source 50 DeepStrike – |
Source 51 Proofpoint & |
Source 52 Check Point – |
Source 53 Thales – 2024 |
Source 54 Cyfirma – Energy & |
Source 55 World Economic |
Source 56 DeepStrike – Cyber |
Source 57 Devolutions – State of |
Source 58 TotalAssure – |
Source 59 Cisco – Cybersecurity |
Source 60 IANS Research – |
Source 61 Munich Re – |
Source 62 Gartner – 2025 |
Source 63 Forrester – 2024 |
Source 64 Ivanti – State of |
Source 65 U.S. Department of |
Source 66 U.S. Department of |
Source 67 Google Cloud – |
Source 68 Gartner – Generative AI |
Source 69 Splashtop – Top |
Source 70 ENISA – Threat |