Cybersecurity­statistieken:
methodologie en bronnen

Doel van deze pagina

We leggen uit hoe de statistieken op onze Cybersecuritystatistieken-pagina worden verzameld, verwerkt en geïnterpreteerd en bieden transparantie over bronnen. Op de hoofdpagina met cybersecuritystatistieken vind je een overzicht van de bevindingen en onderzoeksinzichten van NordVPN.

Databronnen en bronvermelding

Bronnen worden gevonden via de Google Custom Search API (GCS), met meerdere Custom Search Engines (CSE’s) die zijn ingesteld voor:

  • mediakanalen: 44 reguliere en technische mediabronnen (bijv. BBC, CNN, The New York Times, WSJ, FT, Reuters, Bloomberg, TechCrunch, Wired, Ars Technica, Time, Forbes).

  • gezaghebbende referentiebronnen: 25 bronnen uit de sector en van cybersecurityexperts (zoals CISA, KrebsOnSecurity, The Hacker News, Dark Reading, BleepingComputer, SecurityWeek en Infosecurity Magazine).

  • lokaal nieuws: meer dan 100 regionale en nationale media in APAC, EMEA en Noord- en Zuid-Amerika (bijv. Channel NewsAsia, CSA.gov.sg, Zaobao; HK01, unwire.hk; Japan Times, NISC, JPCERT, ITMedia).

  • onbeperkt/algemeen.

Zoekopdrachten zijn gebaseerd op trefwoorden uit een bijgehouden trefwoordenlijst waarin termen per categorie zijn gegroepeerd.

Alle records bevatten een expliciete bronvermelding:

  • Link naar het originele artikel

  • Mediakanaal (domein geëxtraheerd uit de URL)

  • Publicatiedatum en verzameldatum

We combineren informatie uit verschillende bronnen voor statistieken en gebeurtenisanalyses; elke statistiek is gebaseerd op bewijs uit artikelen dat inclusief bronlinks wordt opgeslagen.

Frequentie van het ophalen en verzamelen van content

Haalt volledige tekstcontent op uit gevonden links met:

  • Primair: NewsPlease

  • Fallback: directe HTML-download via een beveiligde requests-sessie en extractie met Trafilatura.

Time-outs, nieuwe pogingen, TLS-fallbacks en referer-headers worden gebruikt om tijdelijke storingen te verminderen.

Publicatiedatum en titel worden overgenomen uit de extractor, indien beschikbaar; datumparsing wordt genormaliseerd naar alleen datum.

Dagelijkse scans doorzoeken content van de afgelopen dag.

Feature-extractie

Geëxtraheerde velden omvatten:

  • Mediakanaal (van URL)

  • Eerste alinea (eerste 3–5 zinnen)

  • Trefwoordkenmerken: totaal aantal keren in de tekst, aanwezigheid in de titel, zinnen die het starttrefwoord bevatten en aanwezigheid van trefwoorden uit de bijgewerkte lijst

  • Aantal woorden

LLM-relevantiebeoordeling

Elk artikel wordt beoordeeld door een LLM met een deterministische instelling (temperatuur 0) en een beperkte prompt die expliciete, gestructureerde outputs vereist:

1. Of het artikel relevant is voor cyberincidenten

2. Indien relevant, wordt een algemeen gebeurtenistype toegewezen:

  • Incident: er heeft al een bevestigde cyberaanval of inbreuk plaatsgevonden (bijv. inzet van ransomware, gegevensexfiltratie, DDoS, systeemaantasting).

  • Kwetsbaarheid: ontdekking of openbaarmaking van een veiligheidsfout in software/hardware/systemen die kan worden uitgebuit (potentieel risico in plaats van bevestigde uitbuiting).

  • Threat Intelligence: rapportage over bedreigingsactoren, tools, TTP's en campagnes – richt zich op 'wie/hoe', niet op een specifiek slachtofferincident.

  • Regelgeving en wetgeving: wetten, voorschriften, handhavingsmaatregelen, rechterlijke beslissingen of belangrijke beleidswijzigingen die van invloed zijn op cybersecurityverplichtingen.

Artikeltype en categorisering

Relevante artikelen worden gecategoriseerd via gestructureerde taxonomische criteria (primair: status van de aanval, type gebeurtenis, regelgeving/juridisch; secundair: impactstatistieken/klasse, technische details, sectoren, regio, omvang, geschatte schade).

Eventclustering (het groeperen van artikelen per gebeurtenis)

Doel: artikelen die hetzelfde onderliggende incident beschrijven, groeperen in één 'gebeurtenis'.

Methode:

  • Haal bestaande events uit de database op om context te bieden (titels, bekende getroffen organisaties, dreigingsactoren en links).

  • Voor elk kandidaatartikel (waarbij het artikeltype is ingesteld op 'Single Incident') vergelijkt het LLM de details met batches bestaande events en doet vervolgens één van de volgende:

1. Wijst een bestaand gebeurtenis-ID toe wanneer er een match met een hoge betrouwbaarheid is, of

2. Maakt een nieuwe gebeurtenis aan.

  • Prompts leggen de nadruk op hoge precisie: link alleen naar een bestaande gebeurtenis als je er heel zeker van bent. Getroffen organisatie(s) en signalen van bedreigingsactoren worden behandeld als sterke indicatoren.

Gebeurtenissen bevatten geaggregeerde velden: eerste/laatste waarnemingsdatum, aantal artikelen, getroffen organisaties, bedreigingsactoren, titels, links.

Nauwkeurigheid en kwaliteitsborging

Determinisme en beperkingen:

  • LLM-temperatuur ingesteld op 0 om determinisme te maximaliseren en hallucinaties te verminderen.

  • Bij constrained prompts zijn vaste velden en JSON-output verplicht, zodat de structuur automatisch gecontroleerd kan worden.

  • Artikelen zonder inhoud (ontbrekende titel/tekst) worden meteen afgewezen.

Door LLM beheerde, schema-gevalideerde statistieken:

  • Alle metrische velden worden gegenereerd door deterministische LLM-runs (temperature 0) volgens strikte, gedocumenteerde richtlijnen en JSON-schema’s. Alleen outputs die aan het schema voldoen worden meegenomen, met periodieke menselijke kwaliteitscontroles om consistentie te bewaken en afwijkingen te voorkomen.

Classificatie van events/artikelen voor nauwkeurige filtering:

  • Classificatie op basis van eventtype en artikelfocus fungeert als strikte relevantiecheck, die content filtert die off-topic, weinig informatief of meer overzichtsgericht is. Deze focus op rapportage van afzonderlijke incidenten vermindert ruis en verbetert de precisie en nauwkeurigheid van de dataset meetbaar.

Validatie uit meerdere bronnen:

  • Eventclustering gebruikt eerder opgeslagen eventcontext als referentie; bij afwijkingen is de kans op onjuiste samenvoegingen kleiner.

  • Aggregaties bevatten de lijst met bronlinks per event voor handmatige verificatie.

Menselijke tussenkomst:

  • Bij gevallen met een hoge impact of onduidelijkheden, wordt een signaal afgegeven voor redactionele controle en factcheck.

  • Regelmatige QA-beoordelingen: geselecteerde artikelen en gebeurtenissen worden maandelijks gecontroleerd met een precisiebeoordeling; elke afwijking leidt tot aanpassingen van de prompt, het model of de trefwoorden.

Traceerbaarheid:

  • Elke statistiek is te herleiden naar artikelen en links in de database, zodat je alles kunt controleren.

Beperkingen

Dekkingslimieten:

  • GCS-gebaseerde detectie is afhankelijk van trefwoorden en CSE-configuratie; niet alle incidenten worden vastgelegd, vooral buiten geconfigureerde talen of content met een betaalmuur.

  • Sommige sites blokkeren geautomatiseerd ophalen; dergelijke artikelen kunnen gedeeltelijk of volledig ontbreken.

LLM-specifieke risico's:

  • Ondanks deterministische instellingen en gestructureerde prompts kan er toch een verkeerde classificatie plaatsvinden, vooral bij schaarse of dubbelzinnige teksten.

  • Eventclustering kan in randgevallen hetzelfde incident opsplitsen in meerdere events, of vergelijkbare maar afzonderlijke incidenten samenvoegen.

Hoe statistieken worden berekend

Velden op artikelniveau zijn afgeleid van directe extractie en LLM-uitvoer (opgeslagen per record).

Metrics op eventniveau aggregeren artikelen op basis van event_id:

  • aantal artikelen, datum van eerste/laatste weergave

  • gededupliceerde getroffen organisaties en bedreigingsactoren

  • representatieve titels en lijsten met canonieke links

De rapportstatistieken worden uit deze opgeslagen tabellen gehaald; elk cijfer is terug te voeren naar events en onderliggende artikelrecords.

Databereik

De statistieken en inzichten waarnaar in onze cyberbeveiligingscontent wordt verwezen, zijn afgeleid van een combinatie van:

  • Publiekelijk beschikbare rapportage van cybersecurity-incidenten

  • Mediaberichtgeving over bevestigde cyberincidenten

  • Brancherapporten en -enquêtes

  • Openbaarmakingen van de overheid en regelgevende instanties

De gegevens weerspiegelen publiekelijk waarneembare en gerapporteerde activiteiten, niet het volledige universum van alle cyberincidenten die wereldwijd plaatsvinden. Veel cyberincidenten worden nooit openbaar gemaakt, gemeld of door de media behandeld.

Databronnen en detectie

Bronsoorten

Artikelen en rapporten over cyberbeveiliging worden verzameld uit meerdere broncategorieën, waaronder:

  • Mainstream- en techmedia.
    Voorbeelden zijn grote internationale nieuwsorganisaties en technologiepublicaties.

  • Betrouwbare en deskundige bronnen op het gebied van cyberbeveiliging.
    Waaronder overheidsinstanties, onderzoeksorganisaties op het gebied van cyberbeveiliging en gerenommeerde vakbladen.

  • Regionale en lokale nieuwsmedia.
    Verslaggeving over cyberbeveiligingsincidenten in Noord-Amerika, Europa, Azië-Pacific en andere regio's.

  • Branche- en onderzoeksrapporten.
    Inclusief jaarlijkse inbreukrapporten, rapporten over het dreigingslandschap, enquêtes en economische analyses.

Elke bron wordt vermeld op artikel- of rapportniveau, waarbij de publicatiedatum, de uitgever en de oorspronkelijke URL behouden blijven.

Ontdekkingsproces

Het opsporen van inhoud gebeurt met behulp van geautomatiseerde zoekopdrachten op basis van een bijgewerkte lijst met cybersecurity-trefwoorden. Trefwoorden zijn gegroepeerd per onderwerp (bijvoorbeeld: datalekken, ransomware, phishing, kwetsbaarheden, regelgeving).

Er worden dagelijks zoekopdrachten uitgevoerd om nieuw gepubliceerde inhoud vast te leggen. Bij elke uitvoering wordt alleen recent materiaal doorzocht, zodat de gegevensset de actuele rapportage weerspiegelt.

Verzameling en verwerking van inhoud

Ophalen van het artikel

Zodra een bron is gevonden, wordt de volledige tekst van het artikel opgehaald met behulp van geautomatiseerde extractietools. Als de primaire extractie mislukt, worden alternatieve methoden gebruikt om een robuuste dekking te garanderen.

Deduplicatie

Zo wordt dubbeltelling voorkomen:

  • Identieke URL's worden slechts één keer verwerkt

  • Opnieuw gepubliceerde of gesyndiceerde content wordt op artikelniveau gededupliceerd

  • Eventniveau-aggregatie (hieronder beschreven) vermindert verdere duplicatie tussen verschillende nieuwsbronnen.

Relevantiefiltering en classificatie

Beoordeling van de relevantie voor cybersecurity

Elk artikel wordt beoordeeld om te bepalen of het relevant is voor cybersecuritystatistieken. Artikelen moeten een cyberbeveiligingsincident, -bedreiging, -kwetsbaarheid of regelgevende actie op een zinvolle manier beschrijven of analyseren.

Classificatie van het type event

Relevante artikelen worden ingedeeld in algemene categorieën, waaronder:

  • Incident – Een bevestigde cyberaanval of inbreuk die al heeft plaatsgevonden

  • Kwetsbaarheid – Openbaarmaking van een beveiligingszwakte die kan worden uitgebuit

  • Threat intelligence – Rapportage over cybercriminelen, tools, campagnes of technieken

  • Regelgeving / wetgeving – Wetten, handhavingsmaatregelen, beleidswijzigingen of juridische procedures met betrekking tot cybersecurity

Deze classificatie zorgt ervoor dat statistieken die verwijzen naar 'incidenten', 'inbreuken' of 'aanvallen' niet worden verward met openbaarmakingen van kwetsbaarheden of algemene commentaren.

Eventclustering (het groeperen van artikelen per gebeurtenis)

Vaak verschijnen er meerdere artikelen over hetzelfde cyberincident. Zo wordt overrapportage voorkomen:

  • Artikelen die hetzelfde incident beschrijven, worden gegroepeerd in één event

  • Events krijgen vaste interne identificatoren toegewezen.

  • Artikelen worden alleen gekoppeld aan bestaande events wanneer er een hoge mate van zekerheid is dat ze dezelfde gebeurtenis beschrijven.

Indicatoren die worden gebruikt voor clustering zijn onder andere getroffen organisaties, dreigingsactoren, tijdlijnen en incidentbeschrijvingen.

Eventniveau-records bevatten:

  • Eerste en laatste verschijningsdatum

  • Aantal gerelateerde artikelen

  • Getroffen organisaties

  • Genoemde bedreigingsactoren

  • Bronlinks ter verificatie

Gebruik van geautomatiseerde analyse en kwaliteitscontroles

Geautomatiseerde classificatie

Er wordt gebruikgemaakt van gestructureerde, deterministische taalmodellenanalyse voor classificatie, extractie en aggregatie. Alle geautomatiseerde outputs volgen vooraf gedefinieerde schema's om consistentie te garanderen.

De modellen werken met deterministische instellingen om variabiliteit en het risico op hallucinaties te verminderen.

Kwaliteitsborging

Om de nauwkeurigheid te waarborgen:

  • Schemavalidatie zorgt ervoor dat alleen correct gestructureerde outputs worden meegeteld.

  • Er worden regelmatig maandelijkse steekproeven en controleprocedures uitgevoerd, inclusief een nauwkeurigheidscontrole, om afwijkingen in de classificatie op te sporen. Deze beoordeling brengt verschuivingen in de classificatie aan het licht, wat ertoe leidt dat het model moet worden aangepast.

  • Dubbelzinnige of impactvolle incidenten worden gemarkeerd voor menselijke beoordeling.

  • Geaggregeerde statistieken blijven traceerbaar naar individuele artikelen en gebeurtenissen

Hoe statistieken worden berekend

Metrics op artikelniveau vs. eventniveau

Sommige statistieken zijn gebaseerd op:

  • Tellingen op artikelniveau (bijv. omvang van de media-aandacht)

  • Tellingen op eventniveau (bijv. aantal unieke datalekken of incidenten)

Waar mogelijk worden eventniveau-metrics gebruikt om dubbeltellingen te voorkomen.

Interpretatie van aantallen en frequenties

Statistieken zoals 'incidenten per dag' of 'inbreuken per jaar' geven de gemelde of in de media zichtbare activiteit weer, niet de totale wereldwijde activiteit.

Telemetrie van leveranciers, klachtensystemen van de overheid en economische prognoses rapporteren vaak aanzienlijk hogere volumes vanwege verschillen in reikwijdte en methodologie. Deze verschillen worden waar relevant vermeld.

Beperkingen en aandachtspunten

Hoewel er zorgvuldig is gewerkt aan de nauwkeurigheid en consistentie, hebben de gegevens inherente beperkingen:

  • Niet alle incidenten worden openbaar gemaakt of gemeld

  • De berichtgeving in de media verschilt per regio, sector en omvang van het incident

  • Sommige bronnen beperken de toegang

  • In uitzonderlijke gevallen kunnen er classificatiefouten optreden

  • De cijfers over de economische schade kunnen veranderen naarmate onderzoeken vorderen

Statistieken moeten daarom worden gezien als richtinggevende indicatoren, niet als uitputtende metingen.

Bronnenindex

Elke genummerde bron hieronder komt overeen met een verwijzing in superscript die wordt gebruikt op de 'Cybersecurity-statistieken'-pagina. Superscripts verwijzen rechtstreeks naar de betreffende bronvermelding op deze pagina.

Bron 1

Statista –
Cybercrime worldwide

Bron 2

Identity Theft
Resource Center
(ITRC) – Weekly
Breach
Breakdown
Q3 2025

Bron 3

Identity Theft
Resource Center
(ITRC) – H1 2025
Data Breach Analysis

Bron 4

Verizon –
Data Breach
Investigations
Report (DBIR) 2025

Bron 5

IBM –
Cost of a Data
Breach Report 2025

Bron 6

South Korean
Ministry of
Science and
ICT – SK Telecom data
exfiltration
incident

Bron 7

Aflac – June
2025 security
incident
regulatory filing

Bron 8

HIPAA Journal –
Largest healthcare
data breaches of 2025

Bron 9

California Attorney
General – Aflac
breach report
(SB24-616010)

Bron 10

Iowa Attorney
General – Aflac
data breach notification

Bron 11

Rhode Island
Attorney General –
Data‑breach
notifications

Bron 12

Rhode Island
AG –
Data‑breach
notification

Bron 13

Aflac Newsroom –
June 2025
security incident
update

Bron 14

HIPAA Journal –
Aflac data
breach article

Bron 15

Office of the
Australian Information
Commissioner –
Statement on Qantas
cyber incident

Bron 16

Qantas – Information
for customers on
cyber incident

Bron 17

Qantas Newsroom –
Update on Qantas
cyber incident
(9 July 2025)

Bron 18

Michigan Attorney
General – Consumer
alert on data breaches
(TransUnion)

Bron 19

Maine Attorney
General – Allianz Life
cyber incident notice

Bron 20

California Attorney
General – Allianz data
breach report
(SB24-612078)

Bron 21

University of
Maryland – Cyber
Security Statistics

Bron 22

Microsoft Digital
Defense Report 2023

Bron 23

WIRED – NotPetya
cyberattack article

Bron 24

Reuters – UnitedHealth
tech unit hack article

Bron 25

The Guardian – Jaguar
Land Rover hack article

Bron 26

NBC News –
MGM Resorts
cyberattack cost article

Bron 27

Delaware Department
of Technology &
Information –
eSecurityNews
(Oct 2023)

Bron 28

Cybersecurity
Ventures – Global
ransomware damage
cost projection

Bron 29

JumpCloud – Phishing
attack statistics

Bron 30

Hornetsecurity – Email
threats in 2024

Bron 31

Spearshield –
Click‑to‑credential
phishing study

Bron 32

APWG – Phishing
Activity Trends Reports

Bron 33

arXiv – Academic
password/credential
research (2025)

Bron 34

DeepStrike – Password
statistics 2025

Bron 35

NordPass – Top 200
Most Common
Passwords

Bron 36

Financial Times –
Supply‑chain
cybersecurity article

Bron 37

SecurityScorecard –
2025 Supply Chain
Cybersecurity Trends

Bron 38

National Technology &
Security Coalition –
2025 Software Supply
Chain Security Report

Bron 39

Palo Alto Networks –
State of Cloud
Native Security

Bron 40

IBM – Threat
Intelligence Report

Bron 41

Tenable –
Cloud Security
Risk Report 2025

Bron 42

Cybersecurity
Ventures –
Cybersecurity Cost
Report

Bron 43

Statista Market
Insights – Estimated
cost of cybercrime
worldwide 2018‑2029
(ResearchGate)

Bron 44

Statista – Cost of
cybercrime worldwide
forecast

Bron 45

FTC – Consumer
Sentinel Network Data
Book 2024

Bron 46

FBI IC3 – 2024 Internet
Crime Report

Bron 47

Kroll – Data Breach
Outlook 2025

Bron 48

IBM – Cost of a Data
Breach 2024: Financial
Industry

Bron 49

SailPoint – 2024
State of Identity
Security in Financial
Services

Bron 50

DeepStrike –
Healthcare data
breach statistics 2025

Bron 51

Proofpoint &
Ponemon – Healthcare
Cybersecurity Report

Bron 52

Check Point –
Cyber Security
Report 2025

Bron 53

Thales – 2024
Data Threat Report:
Critical Infrastructure
Edition

Bron 54

Cyfirma – Energy &
Utilities industry report

Bron 55

World Economic
Forum – Global
Cybersecurity Outlook
2025

Bron 56

DeepStrike – Cyber
attacks on small
businesses

Bron 57

Devolutions – State of
IT Security Report 2025

Bron 58

TotalAssure –
Small business
cybersecurity statistics
2025

Bron 59

Cisco – Cybersecurity
Readiness Index 2025

Bron 60

IANS Research –
Security budgets
press release (2024)

Bron 61

Munich Re –
Cyber insurance risks
and trends 2025

Bron 62

Gartner – 2025
information security
spending forecast

Bron 63

Forrester – 2024
Cybersecurity
Benchmarks (Global)

Bron 64

Ivanti – State of
Cybersecurity Report

Bron 65

U.S. Department of
Homeland Security –
FY 2025 Budget in Brief

Bron 66

U.S. Department of
Defense – CYBERCOM
Budget Justification

Bron 67

Google Cloud –
Cybersecurity forecast

Bron 68

Gartner – Generative AI
attack survey
(Sep 22 2025)

Bron 69

Splashtop – Top
cybersecurity trends
and predictions
for 2026

Bron 70

ENISA – Threat
Landscape 2024