Statistiques sur la cybersécurité :
Méthodologie et sources

Objectif de cette page

Cette page explique comment les statistiques de cybersécurité présentées sur notre page Statistiques de cybersécurité sont collectées, traitées et interprétées, et assure une transparence totale concernant les sources de données référencées. La page principale des Statistiques sur la cybersécurité présente un résumé des résultats et des informations issues des recherches de NordVPN.

Sources de données et attribution

La recherche de sources s'effectue via l'API Google Custom Search (GCS), à l'aide de plusieurs moteurs de recherche personnalisés (CSE) configurés pour :

Médias : 44 médias grand public et spécialisés dans les technologies (par exemple, la BBC, CNN, le New York Times, le WSJ, le FT, Reuters, Bloomberg, TechCrunch, Wired, Ars Technica, Time, Forbes).
Sites faisant autorité/de référence : 25 sources issues du secteur et d'experts (par exemple, CISA, KrebsOnSecurity, The Hacker News, Dark Reading, BleepingComputer, SecurityWeek, Infosecurity Magazine).
Actualités locales : plus de 100 médias régionaux et nationaux dans les régions APAC, EMEA et Amériques (par exemple, Channel NewsAsia, CSA.gov.sg, Zaobao ; HK01, unwire.hk ; Japan Times, NISC, JPCERT, ITMedia).
sans restriction/général.

Les requêtes s'appuient sur des mots-clés issus d'une liste de mots-clés mise à jour régulièrement, qui regroupe les termes par catégorie.

Tous les enregistrements comportent une mention explicite de la source :

Lien vers l'article original
Média (domaine extrait de l'URL)
Date de publication et date de collecte

Nous synthétisons des informations provenant de nombreuses sources à des fins statistiques et d'agrégation d'événements ; chaque statistique est dérivée de données issues d'articles, stockées avec des liens.

Récupération du contenu et fréquence de collecte

Récupère le contenu en texte intégral des liens détectés à l'aide de :

Principal : NewsPlease
Solution de secours : téléchargement direct du code HTML avec session de requêtes sécurisée et extraction des données de trafic.

Les délais d'expiration, les tentatives de reconnexion, les solutions de secours TLS et les en-têtes Referer sont utilisés pour réduire les échecs temporaires.

La date et le titre de publication sont extraits de l'extracteur lorsqu'ils sont disponibles ; l'analyse de la date est normalisée pour ne conserver que la date.

Les requêtes quotidiennes portent sur le contenu du dernier jour.

Extraction de fonctionnalités

Les champs extraits comprennent :

Média (à partir de l'URL)
Premier paragraphe (3 à 5 premières phrases)
Caractéristiques des mots-clés : nombre total dans le texte, présence dans le titre, phrases contenant le mot-clé de base et présence de n'importe quel mot-clé de la liste gérée
Nombre de mots

Évaluation de la pertinence des modèles de langage (LLM)

Chaque article est évalué par un modèle de langage (LLM) avec un paramètre déterministe (température 0) et une invite contrainte qui exige des résultats explicites et structurés :

1. Si l'article concerne un cyber-événement

2. Le cas échéant, un type d'événement de haut niveau est attribué :

Incident : une cyberattaque ou une violation confirmée s'est déjà produite (par exemple, déploiement d'un rançongiciel, exfiltration de données, attaque DDoS, compromission du système).
Vulnérabilité : découverte ou divulgation d'une faille de sécurité dans un logiciel, un matériel ou un système susceptible d'être exploitée (risque potentiel plutôt qu'exploitation confirmée).
Renseignements sur les menaces : rapports sur les auteurs de menaces, les outils, les TTP et les campagnes ; l'accent est mis sur « qui/comment », et non sur un incident spécifique touchant une victime.
Réglementation et droit : lois, règlements, mesures d'application, décisions judiciaires ou changements politiques majeurs ayant une incidence sur les obligations en matière de cybersécurité.

Type d'article et catégorisation

Les articles pertinents sont classés selon une taxonomie structurée (critères principaux : statut de l'attaque, type d'événement, aspects réglementaires/juridiques ; critères secondaires : indicateurs d'impact/catégorie, détails techniques, secteurs, zone géographique, ampleur, dommages estimés).

Regroupement d'événements (agrégation d'articles en événements)

Objectif : regrouper les articles décrivant le même incident sous-jacent en un seul « événement ».

Méthode :

Récupérer les événements existants dans la base de données afin de fournir le contexte (titres, organisations connues concernées, auteurs des menaces, liens).
Pour chaque article candidat (où Type d'article = Incident unique), le LLM compare les détails de l'article à des lots d'événements existants et, soit :

1. Attribue un identifiant d'événement existant lorsqu'il y a une correspondance à haut niveau de confiance, ou

2. Crée un nouvel événement.

Les invites mettent l'accent sur une grande précision : ne créer un lien vers un événement existant qu'en cas de degré de confiance élevé. Les organisations concernées et les signaux émis par les auteurs de menaces sont considérés comme des indicateurs fiables.

Les événements conservent des champs agrégés : dates de première/dernière observation, nombre d'articles, organisations concernées, auteurs de menaces, titres, liens.

Précision et assurance qualité

Déterminisme et contraintes :

La température LLM est réglée sur 0 afin de maximiser le déterminisme et de réduire les hallucinations.
Les invites contraintes nécessitent des champs explicites et des sorties JSON ; l'analyse syntaxique impose le schéma.
Les articles sans contenu (titre ou texte manquant) sont rejetés d'emblée.

Métriques régies par LLM et validées par schéma :

Tous les champs métriques sont générés par des exécutions déterministes du LLM (température 0) selon des directives strictes et documentées ainsi que des schémas JSON ; seules les sorties conformes au schéma sont prises en compte, avec un contrôle qualité humain périodique visant à calibrer le système et à prévenir toute dérive.

Classification des événements/articles pour un filtrage précis :

La classification par type d'événement et par thème principal de l'article sert de filtre de pertinence strict, permettant d'écarter les contenus hors sujet, peu pertinents ou de type « tour d'horizon ». Cette approche axée sur le signalement d'incidents isolés réduit le bruit et améliore sensiblement la précision et l'exactitude des ensembles de données.

Validation multi-sources :

Le regroupement d'événements fait référence au contexte d'événement précédemment enregistré ; les divergences réduisent le risque de fusions incorrectes.
Les agrégations comprennent la liste des liens sources par événement à des fins de vérification manuelle.

Intervention humaine :

Les cas ayant un impact important ou présentant une ambiguïté peuvent être signalés en vue d'un examen rédactionnel et d'une vérification des faits.
Contrôles qualité réguliers : les articles et les événements échantillonnés sont audités mensuellement, avec un examen de précision ; toute dérive déclenche des ajustements d'invite/de modèle ou de mot-clé.

Traçabilité :

Chaque statistique peut être rattachée à des articles et à des liens contenus dans la base de données à des fins d'auditabilité.

Limites

Limites de couverture :

La détection basée sur le GCS dépend des mots-clés et de la configuration du CSE ; tous les incidents ne sont pas détectés, en particulier ceux qui ne relèvent pas des langues configurées ou qui concernent des contenus payants.
Certains sites bloquent la récupération automatisée ; ces articles peuvent être partiellement ou totalement absents.

Risques spécifiques aux LLM :

Malgré des paramètres déterministes et des requêtes structurées, une classification erronée peut se produire, en particulier avec des textes peu denses ou ambigus.
Le regroupement d'événements peut diviser un même incident en plusieurs événements ou fusionner des incidents similaires mais distincts dans certains cas particuliers.

Comment les statistiques sont calculées

Les champs au niveau de l'article sont dérivés d'une extraction directe et des résultats du LLM (stockés par enregistrement).

Les métriques au niveau des événements regroupent les articles constitutifs par event_id :

nombre d'articles, dates de première/dernière consultation
organisations concernées et acteurs malveillants, après déduplication
titres représentatifs et listes de liens canoniques

Les statistiques des rapports sont extraites de ces tableaux stockés ; chaque chiffre peut être retracé jusqu'aux lignes d'événements et aux enregistrements d'articles sous-jacents.

Portée des données

Les statistiques et les informations mentionnées dans nos contenus sur la cybersécurité proviennent d'une combinaison des éléments suivants :

Rapports d'incidents de cybersécurité accessibles au public
Couverture médiatique des cyberincidents confirmés
Rapports et enquêtes du secteur
Divulgations gouvernementales et réglementaires

Ces données reflètent les activités observables et signalées publiquement, et non l'ensemble des incidents cybernétiques survenant à l'échelle mondiale. De nombreux incidents cybernétiques ne sont jamais divulgués, signalés ou relayés par les médias.

Sources de données et découverte

Types de sources

Les articles et rapports relatifs à la cybersécurité sont issus de plusieurs catégories de sources, notamment :

Médias grand public et spécialisés dans les technologies.
Il s'agit notamment des grands organes de presse internationaux et des publications spécialisées dans les technologies.
Sources faisant autorité et spécialisées en cybersécurité.
Notamment des agences gouvernementales, des organismes de recherche en cybersécurité et des publications reconnues du secteur.
Médias régionaux et locaux.
Couvrant les incidents de cybersécurité en Amérique du Nord, en Europe, en Asie-Pacifique et dans d'autres régions.
Rapports sur l'industrie et la recherche.
Comprend des rapports annuels sur les violations de données, des rapports sur le paysage des menaces, des enquêtes et des analyses économiques.

Chaque source est citée au niveau de l'article ou du rapport, avec mention de la date de publication, du média et de l'URL d'origine.

Processus de découverte

La découverte de contenu s'effectue à l'aide de requêtes de recherche automatisées basées sur une liste de mots-clés de cybersécurité mise à jour régulièrement. Les mots-clés sont regroupés par thème (par exemple : violations de données, ransomware, hameçonnage, vulnérabilités, réglementation).

Des recherches sont effectuées quotidiennement afin de recenser les nouveaux contenus publiés. Chaque exécution interroge uniquement le matériel récent, ce qui garantit que l'ensemble de données reflète les articles actuels.

Collecte et traitement du contenu

Récupération d'articles

Une fois qu'une source est découverte, le texte complet de l'article est récupéré à l'aide d'outils d'extraction automatisés. Lorsque l'extraction principale échoue, des méthodes de secours sont utilisées pour garantir une couverture fiable.

Déduplication

Pour éviter le double comptage :

Les URL identiques ne sont traitées qu'une seule fois
Le contenu republié ou syndiqué est dédupliqué au niveau de l'article
L'agrégation au niveau des événements (décrite ci-dessous) réduit encore davantage les doublons entre les différents points de vente

Filtrage par pertinence et classification

Évaluation de la pertinence en matière de cybersécurité

Chaque article est évalué afin de déterminer s'il est pertinent pour les statistiques en matière de cybersécurité. Les articles doivent décrire ou analyser de manière pertinente un événement lié à la cybersécurité, une menace, une vulnérabilité ou une mesure réglementaire.

Classification des types d'événements

Les articles pertinents sont classés dans des catégories générales, notamment :

Incident – Une cyberattaque ou une violation confirmée qui s'est déjà produite
Vulnérabilité – Divulgation d'une faille de sécurité susceptible d'être exploitée
Renseignements sur les menaces – Rapports sur les acteurs malveillants, les outils, les campagnes ou les techniques
Réglementation / droit – Lois, mesures coercitives, changements de politique ou procédures judiciaires liés à la cybersécurité

Cette classification garantit que les statistiques relatives aux « incidents », aux « violations » ou aux « attaques » ne soient pas confondues avec les divulgations de vulnérabilités ou les commentaires généraux.

Regroupement d'événements (agrégation d'articles en événements)

Il arrive souvent que plusieurs articles traitent du même incident informatique sous-jacent. Pour éviter les doubles comptages :

Les articles décrivant le même incident sont regroupés en un seul événement
Les événements se voient attribuer des identifiants internes stables
Les articles ne sont associés à des événements existants que lorsqu'il y a une forte probabilité qu'ils décrivent le même événement

Les indicateurs utilisés pour le regroupement comprennent les organisations touchées, les auteurs des menaces, les chronologies et les descriptions des incidents.

Les enregistrements au niveau de l'événement conservent :

Dates de première et de dernière apparition
Nombre d'articles connexes
Organisations concernées
Acteurs malveillants référencés
Liens vers les sources à des fins de vérification

Recours à l'analyse automatisée et aux contrôles qualité

Classification automatisée

Une analyse structurée et déterministe des modèles linguistiques est utilisée pour la classification, l'extraction et l'agrégation. Toutes les sorties automatisées suivent des schémas prédéfinis afin de garantir la cohérence.

Les modèles fonctionnent avec des paramètres déterministes afin de réduire la variabilité et le risque d'hallucination.

Assurance qualité

Pour garantir l'exactitude :

La validation du schéma garantit que seules les sorties correctement structurées sont prises en compte.
Des procédures mensuelles régulières d'échantillonnage et de vérification, y compris une vérification de la précision, sont mises en œuvre afin de détecter toute dérive de classification. Cette analyse met en évidence des changements dans la classification, qui justifient et nécessitent ensuite des ajustements du modèle.
Les cas ambigus ou à fort impact sont signalés pour être examinés par un humain
Les statistiques agrégées permettent de retracer les articles et les événements individuels

Comment les statistiques sont calculées

Métriques au niveau de l'article vs au niveau de l'événement

Certaines statistiques sont basées sur :

Comptages au niveau de l'article (par exemple, volume de la couverture médiatique)
Nombre d'événements (par exemple, nombre de violations ou d'incidents distincts)

Le cas échéant, les métriques au niveau de l'événement sont privilégiées pour réduire les doublons.

Interprétation des nombres et des fréquences

Les statistiques telles que « incidents par jour » ou « violations par an » représentent les activités signalées ou relayées par les médias, et non l'activité mondiale totale.

Les données télémétriques des fournisseurs, les systèmes de signalement des pouvoirs publics et les projections économiques font souvent état de volumes nettement plus élevés en raison de différences de champ d'application et de méthodologie. Ces différences sont signalées lorsque cela est pertinent.

Limites et considérations

Bien que tout soit mis en œuvre pour garantir l'exactitude et la cohérence des données, celles-ci présentent des limites inhérentes :

Tous les incidents ne sont pas rendus publics ou signalés
La couverture médiatique varie selon la région, le secteur et l'ampleur de l'incident
Certaines sources restreignent l'accès
Des erreurs de classification peuvent se produire dans certains cas particuliers
Les chiffres des pertes économiques peuvent changer au fur et à mesure de l'évolution des enquêtes

Les statistiques doivent donc être interprétées comme des indicateurs de tendance et non comme des mesures exhaustives.

Index des sources

Chaque source numérotée ci-dessous correspond à une référence en exposant utilisée sur la page « Statistiques sur la cybersécurité ». Les superscripts renvoient directement à l'entrée source correspondante sur cette page.

Source ¹ Statista – Cybercrime worldwide Lien⁠‌
Source ² Identity Theft Resource Center (ITRC) – Weekly Breach Breakdown Q3 2025 Lien⁠‌
Source ³ Identity Theft Resource Center (ITRC) – H1 2025 Data Breach Analysis Lien⁠‌
Source ⁴ Verizon – Data Breach Investigations Report (DBIR) 2025 Lien⁠‌
Source ⁵ IBM – Cost of a Data Breach Report 2025 Lien⁠‌
Source ⁶ South Korean Ministry of Science and ICT – SK Telecom data exfiltration incident Lien⁠‌
Source ⁷ Aflac – June 2025 security incident regulatory filing Lien⁠‌
Source ⁸ HIPAA Journal – Largest healthcare data breaches of 2025 Lien⁠‌
Source ⁹ California Attorney General – Aflac breach report (SB24-616010) Lien⁠‌
Source ¹⁰ Iowa Attorney General – Aflac data breach notification Lien⁠‌
Source ¹¹ Rhode Island Attorney General – Data‑breach notifications Lien⁠‌
Source ¹² Rhode Island AG – Data‑breach notification Lien⁠‌
Source ¹³ Aflac Newsroom – June 2025 security incident update Lien⁠‌
Source ¹⁴ HIPAA Journal – Aflac data breach article Lien⁠‌
Source ¹⁵ Office of the Australian Information Commissioner – Statement on Qantas cyber incident Lien⁠‌
Source ¹⁶ Qantas – Information for customers on cyber incident Lien⁠‌
Source ¹⁷ Qantas Newsroom – Update on Qantas cyber incident (9 July 2025) Lien⁠‌
Source ¹⁸ Michigan Attorney General – Consumer alert on data breaches (TransUnion) Lien⁠‌
Source ¹⁹ Maine Attorney General – Allianz Life cyber incident notice Lien⁠‌
Source ²⁰ California Attorney General – Allianz data breach report (SB24-612078) Lien⁠‌
Source ²¹ University of Maryland – Cyber Security Statistics Lien⁠‌
Source ²² Microsoft Digital Defense Report 2023 Lien⁠‌
Source ²³ WIRED – NotPetya cyberattack article Lien⁠‌
Source ²⁴ Reuters – UnitedHealth tech unit hack article Lien⁠‌
Source ²⁵ The Guardian – Jaguar Land Rover hack article Lien⁠‌
Source ²⁶ NBC News – MGM Resorts cyberattack cost article Lien⁠‌
Source ²⁷ Delaware Department of Technology & Information – eSecurityNews (Oct 2023) Lien⁠‌
Source ²⁸ Cybersecurity Ventures – Global ransomware damage cost projection Lien⁠‌
Source ²⁹ JumpCloud – Phishing attack statistics Lien⁠‌
Source ³⁰ Hornetsecurity – Email threats in 2024 Lien⁠‌
Source ³¹ Spearshield – Click‑to‑credential phishing study Lien⁠‌
Source ³² APWG – Phishing Activity Trends Reports Lien⁠‌
Source ³³ arXiv – Academic password/credential research (2025) Lien⁠‌
Source ³⁴ DeepStrike – Password statistics 2025 Lien⁠‌
Source ³⁵ NordPass – Top 200 Most Common Passwords Lien⁠‌
Source ³⁶ Financial Times – Supply‑chain cybersecurity article Lien⁠‌
Source ³⁷ SecurityScorecard – 2025 Supply Chain Cybersecurity Trends Lien⁠‌
Source ³⁸ National Technology & Security Coalition – 2025 Software Supply Chain Security Report Lien⁠‌
Source ³⁹ Palo Alto Networks – State of Cloud Native Security Lien⁠‌
Source ⁴⁰ IBM – Threat Intelligence Report Lien⁠‌
Source ⁴¹ Tenable – Cloud Security Risk Report 2025 Lien⁠‌
Source ⁴² Cybersecurity Ventures – Cybersecurity Cost Report Lien⁠‌
Source ⁴³ Statista Market Insights – Estimated cost of cybercrime worldwide 2018‑2029 (ResearchGate) Lien⁠‌
Source ⁴⁴ Statista – Cost of cybercrime worldwide forecast Lien⁠‌
Source ⁴⁵ FTC – Consumer Sentinel Network Data Book 2024 Lien⁠‌
Source ⁴⁶ FBI IC3 – 2024 Internet Crime Report Lien⁠‌
Source ⁴⁷ Kroll – Data Breach Outlook 2025 Lien⁠‌
Source ⁴⁸ IBM – Cost of a Data Breach 2024: Financial Industry Lien⁠‌
Source ⁴⁹ SailPoint – 2024 State of Identity Security in Financial Services Lien⁠‌
Source ⁵⁰ DeepStrike – Healthcare data breach statistics 2025 Lien⁠‌
Source ⁵¹ Proofpoint & Ponemon – Healthcare Cybersecurity Report Lien⁠‌
Source ⁵² Check Point – Cyber Security Report 2025 Lien⁠‌
Source ⁵³ Thales – 2024 Data Threat Report: Critical Infrastructure Edition Lien⁠‌
Source ⁵⁴ Cyfirma – Energy & Utilities industry report Lien⁠‌
Source ⁵⁵ World Economic Forum – Global Cybersecurity Outlook 2025 Lien⁠‌
Source ⁵⁶ DeepStrike – Cyber attacks on small businesses Lien⁠‌
Source ⁵⁷ Devolutions – State of IT Security Report 2025 Lien⁠‌
Source ⁵⁸ TotalAssure – Small business cybersecurity statistics 2025 Lien⁠‌
Source ⁵⁹ Cisco – Cybersecurity Readiness Index 2025 Lien⁠‌
Source ⁶⁰ IANS Research – Security budgets press release (2024) Lien⁠‌
Source ⁶¹ Munich Re – Cyber insurance risks and trends 2025 Lien⁠‌
Source ⁶² Gartner – 2025 information security spending forecast Lien⁠‌
Source ⁶³ Forrester – 2024 Cybersecurity Benchmarks (Global) Lien⁠‌
Source ⁶⁴ Ivanti – State of Cybersecurity Report Lien⁠‌
Source ⁶⁵ U.S. Department of Homeland Security – FY 2025 Budget in Brief Lien⁠‌
Source ⁶⁶ U.S. Department of Defense – CYBERCOM Budget Justification Lien⁠‌
Source ⁶⁷ Google Cloud – Cybersecurity forecast Lien⁠‌
Source ⁶⁸ Gartner – Generative AI attack survey (Sep 22 2025) Lien⁠‌
Source ⁶⁹ Splashtop – Top cybersecurity trends and predictions for 2026 Lien⁠‌
Source ⁷⁰ ENISA – Threat Landscape 2024 Lien⁠‌

Statistiques sur la cybersécurité : Méthodologie et sources

Objectif de cette page

Portée des données

Sources de données et découverte

Types de sources

Processus de découverte

Collecte et traitement du contenu

Récupération d'articles

Déduplication

Filtrage par pertinence et classification

Évaluation de la pertinence en matière de cybersécurité

Classification des types d'événements

Regroupement d'événements (agrégation d'articles en événements)

Recours à l'analyse automatisée et aux contrôles qualité

Classification automatisée

Assurance qualité

Comment les statistiques sont calculées

Métriques au niveau de l'article vs au niveau de l'événement

Interprétation des nombres et des fréquences

Limites et considérations

Index des sources

Statistiques sur la cybersécurité :
Méthodologie et sources