Statistiques sur la cybersécurité :
Méthodologie et sources

Objectif de cette page

Cette page explique comment les statistiques de cybersécurité présentées sur notre page Statistiques de cybersécurité sont collectées, traitées et interprétées, et assure une transparence totale concernant les sources de données référencées. La page principale des Statistiques sur la cybersécurité présente un résumé des résultats et des informations issues des recherches de NordVPN.

Sources de données et attribution

La recherche de sources s'effectue via l'API Google Custom Search (GCS), à l'aide de plusieurs moteurs de recherche personnalisés (CSE) configurés pour :

  • Médias : 44 médias grand public et spécialisés dans les technologies (par exemple, la BBC, CNN, le New York Times, le WSJ, le FT, Reuters, Bloomberg, TechCrunch, Wired, Ars Technica, Time, Forbes).

  • Sites faisant autorité/de référence : 25 sources issues du secteur et d'experts (par exemple, CISA, KrebsOnSecurity, The Hacker News, Dark Reading, BleepingComputer, SecurityWeek, Infosecurity Magazine).

  • Actualités locales : plus de 100 médias régionaux et nationaux dans les régions APAC, EMEA et Amériques (par exemple, Channel NewsAsia, CSA.gov.sg, Zaobao ; HK01, unwire.hk ; Japan Times, NISC, JPCERT, ITMedia).

  • sans restriction/général.

Les requêtes s'appuient sur des mots-clés issus d'une liste de mots-clés mise à jour régulièrement, qui regroupe les termes par catégorie.

Tous les enregistrements comportent une mention explicite de la source :

  • Lien vers l'article original

  • Média (domaine extrait de l'URL)

  • Date de publication et date de collecte

Nous synthétisons des informations provenant de nombreuses sources à des fins statistiques et d'agrégation d'événements ; chaque statistique est dérivée de données issues d'articles, stockées avec des liens.

Récupération du contenu et fréquence de collecte

Récupère le contenu en texte intégral des liens détectés à l'aide de :

  • Principal : NewsPlease

  • Solution de secours : téléchargement direct du code HTML avec session de requêtes sécurisée et extraction des données de trafic.

Les délais d'expiration, les tentatives de reconnexion, les solutions de secours TLS et les en-têtes Referer sont utilisés pour réduire les échecs temporaires.

La date et le titre de publication sont extraits de l'extracteur lorsqu'ils sont disponibles ; l'analyse de la date est normalisée pour ne conserver que la date.

Les requêtes quotidiennes portent sur le contenu du dernier jour.

Extraction de fonctionnalités

Les champs extraits comprennent :

  • Média (à partir de l'URL)

  • Premier paragraphe (3 à 5 premières phrases)

  • Caractéristiques des mots-clés : nombre total dans le texte, présence dans le titre, phrases contenant le mot-clé de base et présence de n'importe quel mot-clé de la liste gérée

  • Nombre de mots

Évaluation de la pertinence des modèles de langage (LLM)

Chaque article est évalué par un modèle de langage (LLM) avec un paramètre déterministe (température 0) et une invite contrainte qui exige des résultats explicites et structurés :

1. Si l'article concerne un cyber-événement

2. Le cas échéant, un type d'événement de haut niveau est attribué :

  • Incident : une cyberattaque ou une violation confirmée s'est déjà produite (par exemple, déploiement d'un rançongiciel, exfiltration de données, attaque DDoS, compromission du système).

  • Vulnérabilité : découverte ou divulgation d'une faille de sécurité dans un logiciel, un matériel ou un système susceptible d'être exploitée (risque potentiel plutôt qu'exploitation confirmée).

  • Renseignements sur les menaces : rapports sur les auteurs de menaces, les outils, les TTP et les campagnes ; l'accent est mis sur « qui/comment », et non sur un incident spécifique touchant une victime.

  • Réglementation et droit : lois, règlements, mesures d'application, décisions judiciaires ou changements politiques majeurs ayant une incidence sur les obligations en matière de cybersécurité.

Type d'article et catégorisation

Les articles pertinents sont classés selon une taxonomie structurée (critères principaux : statut de l'attaque, type d'événement, aspects réglementaires/juridiques ; critères secondaires : indicateurs d'impact/catégorie, détails techniques, secteurs, zone géographique, ampleur, dommages estimés).

Regroupement d'événements (agrégation d'articles en événements)

Objectif : regrouper les articles décrivant le même incident sous-jacent en un seul « événement ».

Méthode :

  • Récupérer les événements existants dans la base de données afin de fournir le contexte (titres, organisations connues concernées, auteurs des menaces, liens).

  • Pour chaque article candidat (où Type d'article = Incident unique), le LLM compare les détails de l'article à des lots d'événements existants et, soit :

1. Attribue un identifiant d'événement existant lorsqu'il y a une correspondance à haut niveau de confiance, ou

2. Crée un nouvel événement.

  • Les invites mettent l'accent sur une grande précision : ne créer un lien vers un événement existant qu'en cas de degré de confiance élevé. Les organisations concernées et les signaux émis par les auteurs de menaces sont considérés comme des indicateurs fiables.

Les événements conservent des champs agrégés : dates de première/dernière observation, nombre d'articles, organisations concernées, auteurs de menaces, titres, liens.

Précision et assurance qualité

Déterminisme et contraintes :

  • La température LLM est réglée sur 0 afin de maximiser le déterminisme et de réduire les hallucinations.

  • Les invites contraintes nécessitent des champs explicites et des sorties JSON ; l'analyse syntaxique impose le schéma.

  • Les articles sans contenu (titre ou texte manquant) sont rejetés d'emblée.

Métriques régies par LLM et validées par schéma :

  • Tous les champs métriques sont générés par des exécutions déterministes du LLM (température 0) selon des directives strictes et documentées ainsi que des schémas JSON ; seules les sorties conformes au schéma sont prises en compte, avec un contrôle qualité humain périodique visant à calibrer le système et à prévenir toute dérive.

Classification des événements/articles pour un filtrage précis :

  • La classification par type d'événement et par thème principal de l'article sert de filtre de pertinence strict, permettant d'écarter les contenus hors sujet, peu pertinents ou de type « tour d'horizon ». Cette approche axée sur le signalement d'incidents isolés réduit le bruit et améliore sensiblement la précision et l'exactitude des ensembles de données.

Validation multi-sources :

  • Le regroupement d'événements fait référence au contexte d'événement précédemment enregistré ; les divergences réduisent le risque de fusions incorrectes.

  • Les agrégations comprennent la liste des liens sources par événement à des fins de vérification manuelle.

Intervention humaine :

  • Les cas ayant un impact important ou présentant une ambiguïté peuvent être signalés en vue d'un examen rédactionnel et d'une vérification des faits.

  • Contrôles qualité réguliers : les articles et les événements échantillonnés sont audités mensuellement, avec un examen de précision ; toute dérive déclenche des ajustements d'invite/de modèle ou de mot-clé.

Traçabilité :

  • Chaque statistique peut être rattachée à des articles et à des liens contenus dans la base de données à des fins d'auditabilité.

Limites

Limites de couverture :

  • La détection basée sur le GCS dépend des mots-clés et de la configuration du CSE ; tous les incidents ne sont pas détectés, en particulier ceux qui ne relèvent pas des langues configurées ou qui concernent des contenus payants.

  • Certains sites bloquent la récupération automatisée ; ces articles peuvent être partiellement ou totalement absents.

Risques spécifiques aux LLM :

  • Malgré des paramètres déterministes et des requêtes structurées, une classification erronée peut se produire, en particulier avec des textes peu denses ou ambigus.

  • Le regroupement d'événements peut diviser un même incident en plusieurs événements ou fusionner des incidents similaires mais distincts dans certains cas particuliers.

Comment les statistiques sont calculées

Les champs au niveau de l'article sont dérivés d'une extraction directe et des résultats du LLM (stockés par enregistrement).

Les métriques au niveau des événements regroupent les articles constitutifs par event_id :

  • nombre d'articles, dates de première/dernière consultation

  • organisations concernées et acteurs malveillants, après déduplication

  • titres représentatifs et listes de liens canoniques

Les statistiques des rapports sont extraites de ces tableaux stockés ; chaque chiffre peut être retracé jusqu'aux lignes d'événements et aux enregistrements d'articles sous-jacents.

Portée des données

Les statistiques et les informations mentionnées dans nos contenus sur la cybersécurité proviennent d'une combinaison des éléments suivants :

  • Rapports d'incidents de cybersécurité accessibles au public

  • Couverture médiatique des cyberincidents confirmés

  • Rapports et enquêtes du secteur

  • Divulgations gouvernementales et réglementaires

Ces données reflètent les activités observables et signalées publiquement, et non l'ensemble des incidents cybernétiques survenant à l'échelle mondiale. De nombreux incidents cybernétiques ne sont jamais divulgués, signalés ou relayés par les médias.

Sources de données et découverte

Types de sources

Les articles et rapports relatifs à la cybersécurité sont issus de plusieurs catégories de sources, notamment :

  • Médias grand public et spécialisés dans les technologies.
    Il s'agit notamment des grands organes de presse internationaux et des publications spécialisées dans les technologies.

  • Sources faisant autorité et spécialisées en cybersécurité.
    Notamment des agences gouvernementales, des organismes de recherche en cybersécurité et des publications reconnues du secteur.

  • Médias régionaux et locaux.
    Couvrant les incidents de cybersécurité en Amérique du Nord, en Europe, en Asie-Pacifique et dans d'autres régions.

  • Rapports sur l'industrie et la recherche.
    Comprend des rapports annuels sur les violations de données, des rapports sur le paysage des menaces, des enquêtes et des analyses économiques.

Chaque source est citée au niveau de l'article ou du rapport, avec mention de la date de publication, du média et de l'URL d'origine.

Processus de découverte

La découverte de contenu s'effectue à l'aide de requêtes de recherche automatisées basées sur une liste de mots-clés de cybersécurité mise à jour régulièrement. Les mots-clés sont regroupés par thème (par exemple : violations de données, ransomware, hameçonnage, vulnérabilités, réglementation).

Des recherches sont effectuées quotidiennement afin de recenser les nouveaux contenus publiés. Chaque exécution interroge uniquement le matériel récent, ce qui garantit que l'ensemble de données reflète les articles actuels.

Collecte et traitement du contenu

Récupération d'articles

Une fois qu'une source est découverte, le texte complet de l'article est récupéré à l'aide d'outils d'extraction automatisés. Lorsque l'extraction principale échoue, des méthodes de secours sont utilisées pour garantir une couverture fiable.

Déduplication

Pour éviter le double comptage :

  • Les URL identiques ne sont traitées qu'une seule fois

  • Le contenu republié ou syndiqué est dédupliqué au niveau de l'article

  • L'agrégation au niveau des événements (décrite ci-dessous) réduit encore davantage les doublons entre les différents points de vente

Filtrage par pertinence et classification

Évaluation de la pertinence en matière de cybersécurité

Chaque article est évalué afin de déterminer s'il est pertinent pour les statistiques en matière de cybersécurité. Les articles doivent décrire ou analyser de manière pertinente un événement lié à la cybersécurité, une menace, une vulnérabilité ou une mesure réglementaire.

Classification des types d'événements

Les articles pertinents sont classés dans des catégories générales, notamment :

  • Incident – Une cyberattaque ou une violation confirmée qui s'est déjà produite

  • Vulnérabilité – Divulgation d'une faille de sécurité susceptible d'être exploitée

  • Renseignements sur les menaces – Rapports sur les acteurs malveillants, les outils, les campagnes ou les techniques

  • Réglementation / droit – Lois, mesures coercitives, changements de politique ou procédures judiciaires liés à la cybersécurité

Cette classification garantit que les statistiques relatives aux « incidents », aux « violations » ou aux « attaques » ne soient pas confondues avec les divulgations de vulnérabilités ou les commentaires généraux.

Regroupement d'événements (agrégation d'articles en événements)

Il arrive souvent que plusieurs articles traitent du même incident informatique sous-jacent. Pour éviter les doubles comptages :

  • Les articles décrivant le même incident sont regroupés en un seul événement

  • Les événements se voient attribuer des identifiants internes stables

  • Les articles ne sont associés à des événements existants que lorsqu'il y a une forte probabilité qu'ils décrivent le même événement

Les indicateurs utilisés pour le regroupement comprennent les organisations touchées, les auteurs des menaces, les chronologies et les descriptions des incidents.

Les enregistrements au niveau de l'événement conservent :

  • Dates de première et de dernière apparition

  • Nombre d'articles connexes

  • Organisations concernées

  • Acteurs malveillants référencés

  • Liens vers les sources à des fins de vérification

Recours à l'analyse automatisée et aux contrôles qualité

Classification automatisée

Une analyse structurée et déterministe des modèles linguistiques est utilisée pour la classification, l'extraction et l'agrégation. Toutes les sorties automatisées suivent des schémas prédéfinis afin de garantir la cohérence.

Les modèles fonctionnent avec des paramètres déterministes afin de réduire la variabilité et le risque d'hallucination.

Assurance qualité

Pour garantir l'exactitude :

  • La validation du schéma garantit que seules les sorties correctement structurées sont prises en compte.

  • Des procédures mensuelles régulières d'échantillonnage et de vérification, y compris une vérification de la précision, sont mises en œuvre afin de détecter toute dérive de classification. Cette analyse met en évidence des changements dans la classification, qui justifient et nécessitent ensuite des ajustements du modèle.

  • Les cas ambigus ou à fort impact sont signalés pour être examinés par un humain

  • Les statistiques agrégées permettent de retracer les articles et les événements individuels

Comment les statistiques sont calculées

Métriques au niveau de l'article vs au niveau de l'événement

Certaines statistiques sont basées sur :

  • Comptages au niveau de l'article (par exemple, volume de la couverture médiatique)

  • Nombre d'événements (par exemple, nombre de violations ou d'incidents distincts)

Le cas échéant, les métriques au niveau de l'événement sont privilégiées pour réduire les doublons.

Interprétation des nombres et des fréquences

Les statistiques telles que « incidents par jour » ou « violations par an » représentent les activités signalées ou relayées par les médias, et non l'activité mondiale totale.

Les données télémétriques des fournisseurs, les systèmes de signalement des pouvoirs publics et les projections économiques font souvent état de volumes nettement plus élevés en raison de différences de champ d'application et de méthodologie. Ces différences sont signalées lorsque cela est pertinent.

Limites et considérations

Bien que tout soit mis en œuvre pour garantir l'exactitude et la cohérence des données, celles-ci présentent des limites inhérentes :

  • Tous les incidents ne sont pas rendus publics ou signalés

  • La couverture médiatique varie selon la région, le secteur et l'ampleur de l'incident

  • Certaines sources restreignent l'accès

  • Des erreurs de classification peuvent se produire dans certains cas particuliers

  • Les chiffres des pertes économiques peuvent changer au fur et à mesure de l'évolution des enquêtes

Les statistiques doivent donc être interprétées comme des indicateurs de tendance et non comme des mesures exhaustives.

Index des sources

Chaque source numérotée ci-dessous correspond à une référence en exposant utilisée sur la page « Statistiques sur la cybersécurité ». Les superscripts renvoient directement à l'entrée source correspondante sur cette page.

Source 1

Statista –
Cybercrime worldwide

Source 2

Identity Theft
Resource Center
(ITRC) – Weekly
Breach
Breakdown
Q3 2025

Source 3

Identity Theft
Resource Center
(ITRC) – H1 2025
Data Breach Analysis

Source 4

Verizon –
Data Breach
Investigations
Report (DBIR) 2025

Source 5

IBM –
Cost of a Data
Breach Report 2025

Source 6

South Korean
Ministry of
Science and
ICT – SK Telecom data
exfiltration
incident

Source 7

Aflac – June
2025 security
incident
regulatory filing

Source 8

HIPAA Journal –
Largest healthcare
data breaches of 2025

Source 9

California Attorney
General – Aflac
breach report
(SB24-616010)

Source 10

Iowa Attorney
General – Aflac
data breach notification

Source 11

Rhode Island
Attorney General –
Data‑breach
notifications

Source 12

Rhode Island
AG –
Data‑breach
notification

Source 13

Aflac Newsroom –
June 2025
security incident
update

Source 14

HIPAA Journal –
Aflac data
breach article

Source 15

Office of the
Australian Information
Commissioner –
Statement on Qantas
cyber incident

Source 16

Qantas – Information
for customers on
cyber incident

Source 17

Qantas Newsroom –
Update on Qantas
cyber incident
(9 July 2025)

Source 18

Michigan Attorney
General – Consumer
alert on data breaches
(TransUnion)

Source 19

Maine Attorney
General – Allianz Life
cyber incident notice

Source 20

California Attorney
General – Allianz data
breach report
(SB24-612078)

Source 21

University of
Maryland – Cyber
Security Statistics

Source 22

Microsoft Digital
Defense Report 2023

Source 23

WIRED – NotPetya
cyberattack article

Source 24

Reuters – UnitedHealth
tech unit hack article

Source 25

The Guardian – Jaguar
Land Rover hack article

Source 26

NBC News –
MGM Resorts
cyberattack cost article

Source 27

Delaware Department
of Technology &
Information –
eSecurityNews
(Oct 2023)

Source 28

Cybersecurity
Ventures – Global
ransomware damage
cost projection

Source 29

JumpCloud – Phishing
attack statistics

Source 30

Hornetsecurity – Email
threats in 2024

Source 31

Spearshield –
Click‑to‑credential
phishing study

Source 32

APWG – Phishing
Activity Trends Reports

Source 33

arXiv – Academic
password/credential
research (2025)

Source 34

DeepStrike – Password
statistics 2025

Source 35

NordPass – Top 200
Most Common
Passwords

Source 36

Financial Times –
Supply‑chain
cybersecurity article

Source 37

SecurityScorecard –
2025 Supply Chain
Cybersecurity Trends

Source 38

National Technology &
Security Coalition –
2025 Software Supply
Chain Security Report

Source 39

Palo Alto Networks –
State of Cloud
Native Security

Source 40

IBM – Threat
Intelligence Report

Source 41

Tenable –
Cloud Security
Risk Report 2025

Source 42

Cybersecurity
Ventures –
Cybersecurity Cost
Report

Source 43

Statista Market
Insights – Estimated
cost of cybercrime
worldwide 2018‑2029
(ResearchGate)

Source 44

Statista – Cost of
cybercrime worldwide
forecast

Source 45

FTC – Consumer
Sentinel Network Data
Book 2024

Source 46

FBI IC3 – 2024 Internet
Crime Report

Source 47

Kroll – Data Breach
Outlook 2025

Source 48

IBM – Cost of a Data
Breach 2024: Financial
Industry

Source 49

SailPoint – 2024
State of Identity
Security in Financial
Services

Source 50

DeepStrike –
Healthcare data
breach statistics 2025

Source 51

Proofpoint &
Ponemon – Healthcare
Cybersecurity Report

Source 52

Check Point –
Cyber Security
Report 2025

Source 53

Thales – 2024
Data Threat Report:
Critical Infrastructure
Edition

Source 54

Cyfirma – Energy &
Utilities industry report

Source 55

World Economic
Forum – Global
Cybersecurity Outlook
2025

Source 56

DeepStrike – Cyber
attacks on small
businesses

Source 57

Devolutions – State of
IT Security Report 2025

Source 58

TotalAssure –
Small business
cybersecurity statistics
2025

Source 59

Cisco – Cybersecurity
Readiness Index 2025

Source 60

IANS Research –
Security budgets
press release (2024)

Source 61

Munich Re –
Cyber insurance risks
and trends 2025

Source 62

Gartner – 2025
information security
spending forecast

Source 63

Forrester – 2024
Cybersecurity
Benchmarks (Global)

Source 64

Ivanti – State of
Cybersecurity Report

Source 65

U.S. Department of
Homeland Security –
FY 2025 Budget in Brief

Source 66

U.S. Department of
Defense – CYBERCOM
Budget Justification

Source 67

Google Cloud –
Cybersecurity forecast

Source 68

Gartner – Generative AI
attack survey
(Sep 22 2025)

Source 69

Splashtop – Top
cybersecurity trends
and predictions
for 2026

Source 70

ENISA – Threat
Landscape 2024