Cybersecuritystatistieken:
methodologie en bronnen

Doel van deze pagina

We leggen uit hoe de statistieken op onze Cybersecuritystatistieken-pagina worden verzameld, verwerkt en geïnterpreteerd en bieden transparantie over bronnen. Op de hoofdpagina met cybersecuritystatistieken vind je een overzicht van de bevindingen en onderzoeksinzichten van NordVPN.

Databronnen en bronvermelding

Bronnen worden gevonden via de Google Custom Search API (GCS), met meerdere Custom Search Engines (CSE’s) die zijn ingesteld voor:

mediakanalen: 44 reguliere en technische mediabronnen (bijv. BBC, CNN, The New York Times, WSJ, FT, Reuters, Bloomberg, TechCrunch, Wired, Ars Technica, Time, Forbes).
gezaghebbende referentiebronnen: 25 bronnen uit de sector en van cybersecurityexperts (zoals CISA, KrebsOnSecurity, The Hacker News, Dark Reading, BleepingComputer, SecurityWeek en Infosecurity Magazine).
lokaal nieuws: meer dan 100 regionale en nationale media in APAC, EMEA en Noord- en Zuid-Amerika (bijv. Channel NewsAsia, CSA.gov.sg, Zaobao; HK01, unwire.hk; Japan Times, NISC, JPCERT, ITMedia).
onbeperkt/algemeen.

Zoekopdrachten zijn gebaseerd op trefwoorden uit een bijgehouden trefwoordenlijst waarin termen per categorie zijn gegroepeerd.

Alle records bevatten een expliciete bronvermelding:

Link naar het originele artikel
Mediakanaal (domein geëxtraheerd uit de URL)
Publicatiedatum en verzameldatum

We combineren informatie uit verschillende bronnen voor statistieken en gebeurtenisanalyses; elke statistiek is gebaseerd op bewijs uit artikelen dat inclusief bronlinks wordt opgeslagen.

Frequentie van het ophalen en verzamelen van content

Haalt volledige tekstcontent op uit gevonden links met:

Primair: NewsPlease
Fallback: directe HTML-download via een beveiligde requests-sessie en extractie met Trafilatura.

Time-outs, nieuwe pogingen, TLS-fallbacks en referer-headers worden gebruikt om tijdelijke storingen te verminderen.

Publicatiedatum en titel worden overgenomen uit de extractor, indien beschikbaar; datumparsing wordt genormaliseerd naar alleen datum.

Dagelijkse scans doorzoeken content van de afgelopen dag.

Feature-extractie

Geëxtraheerde velden omvatten:

Mediakanaal (van URL)
Eerste alinea (eerste 3–5 zinnen)
Trefwoordkenmerken: totaal aantal keren in de tekst, aanwezigheid in de titel, zinnen die het starttrefwoord bevatten en aanwezigheid van trefwoorden uit de bijgewerkte lijst
Aantal woorden

LLM-relevantiebeoordeling

Elk artikel wordt beoordeeld door een LLM met een deterministische instelling (temperatuur 0) en een beperkte prompt die expliciete, gestructureerde outputs vereist:

1. Of het artikel relevant is voor cyberincidenten

2. Indien relevant, wordt een algemeen gebeurtenistype toegewezen:

Incident: er heeft al een bevestigde cyberaanval of inbreuk plaatsgevonden (bijv. inzet van ransomware, gegevensexfiltratie, DDoS, systeemaantasting).
Kwetsbaarheid: ontdekking of openbaarmaking van een veiligheidsfout in software/hardware/systemen die kan worden uitgebuit (potentieel risico in plaats van bevestigde uitbuiting).
Threat Intelligence: rapportage over bedreigingsactoren, tools, TTP's en campagnes – richt zich op 'wie/hoe', niet op een specifiek slachtofferincident.
Regelgeving en wetgeving: wetten, voorschriften, handhavingsmaatregelen, rechterlijke beslissingen of belangrijke beleidswijzigingen die van invloed zijn op cybersecurityverplichtingen.

Artikeltype en categorisering

Relevante artikelen worden gecategoriseerd via gestructureerde taxonomische criteria (primair: status van de aanval, type gebeurtenis, regelgeving/juridisch; secundair: impactstatistieken/klasse, technische details, sectoren, regio, omvang, geschatte schade).

Eventclustering (het groeperen van artikelen per gebeurtenis)

Doel: artikelen die hetzelfde onderliggende incident beschrijven, groeperen in één 'gebeurtenis'.

Methode:

Haal bestaande events uit de database op om context te bieden (titels, bekende getroffen organisaties, dreigingsactoren en links).
Voor elk kandidaatartikel (waarbij het artikeltype is ingesteld op 'Single Incident') vergelijkt het LLM de details met batches bestaande events en doet vervolgens één van de volgende:

1. Wijst een bestaand gebeurtenis-ID toe wanneer er een match met een hoge betrouwbaarheid is, of

2. Maakt een nieuwe gebeurtenis aan.

Prompts leggen de nadruk op hoge precisie: link alleen naar een bestaande gebeurtenis als je er heel zeker van bent. Getroffen organisatie(s) en signalen van bedreigingsactoren worden behandeld als sterke indicatoren.

Gebeurtenissen bevatten geaggregeerde velden: eerste/laatste waarnemingsdatum, aantal artikelen, getroffen organisaties, bedreigingsactoren, titels, links.

Nauwkeurigheid en kwaliteitsborging

Determinisme en beperkingen:

LLM-temperatuur ingesteld op 0 om determinisme te maximaliseren en hallucinaties te verminderen.
Bij constrained prompts zijn vaste velden en JSON-output verplicht, zodat de structuur automatisch gecontroleerd kan worden.
Artikelen zonder inhoud (ontbrekende titel/tekst) worden meteen afgewezen.

Door LLM beheerde, schema-gevalideerde statistieken:

Alle metrische velden worden gegenereerd door deterministische LLM-runs (temperature 0) volgens strikte, gedocumenteerde richtlijnen en JSON-schema’s. Alleen outputs die aan het schema voldoen worden meegenomen, met periodieke menselijke kwaliteitscontroles om consistentie te bewaken en afwijkingen te voorkomen.

Classificatie van events/artikelen voor nauwkeurige filtering:

Classificatie op basis van eventtype en artikelfocus fungeert als strikte relevantiecheck, die content filtert die off-topic, weinig informatief of meer overzichtsgericht is. Deze focus op rapportage van afzonderlijke incidenten vermindert ruis en verbetert de precisie en nauwkeurigheid van de dataset meetbaar.

Validatie uit meerdere bronnen:

Eventclustering gebruikt eerder opgeslagen eventcontext als referentie; bij afwijkingen is de kans op onjuiste samenvoegingen kleiner.
Aggregaties bevatten de lijst met bronlinks per event voor handmatige verificatie.

Menselijke tussenkomst:

Bij gevallen met een hoge impact of onduidelijkheden, wordt een signaal afgegeven voor redactionele controle en factcheck.
Regelmatige QA-beoordelingen: geselecteerde artikelen en gebeurtenissen worden maandelijks gecontroleerd met een precisiebeoordeling; elke afwijking leidt tot aanpassingen van de prompt, het model of de trefwoorden.

Traceerbaarheid:

Elke statistiek is te herleiden naar artikelen en links in de database, zodat je alles kunt controleren.

Beperkingen

Dekkingslimieten:

GCS-gebaseerde detectie is afhankelijk van trefwoorden en CSE-configuratie; niet alle incidenten worden vastgelegd, vooral buiten geconfigureerde talen of content met een betaalmuur.
Sommige sites blokkeren geautomatiseerd ophalen; dergelijke artikelen kunnen gedeeltelijk of volledig ontbreken.

LLM-specifieke risico's:

Ondanks deterministische instellingen en gestructureerde prompts kan er toch een verkeerde classificatie plaatsvinden, vooral bij schaarse of dubbelzinnige teksten.
Eventclustering kan in randgevallen hetzelfde incident opsplitsen in meerdere events, of vergelijkbare maar afzonderlijke incidenten samenvoegen.

Hoe statistieken worden berekend

Velden op artikelniveau zijn afgeleid van directe extractie en LLM-uitvoer (opgeslagen per record).

Metrics op eventniveau aggregeren artikelen op basis van event_id:

aantal artikelen, datum van eerste/laatste weergave
gededupliceerde getroffen organisaties en bedreigingsactoren
representatieve titels en lijsten met canonieke links

De rapportstatistieken worden uit deze opgeslagen tabellen gehaald; elk cijfer is terug te voeren naar events en onderliggende artikelrecords.

Databereik

De statistieken en inzichten waarnaar in onze cyberbeveiligingscontent wordt verwezen, zijn afgeleid van een combinatie van:

Publiekelijk beschikbare rapportage van cybersecurity-incidenten
Mediaberichtgeving over bevestigde cyberincidenten
Brancherapporten en -enquêtes
Openbaarmakingen van de overheid en regelgevende instanties

De gegevens weerspiegelen publiekelijk waarneembare en gerapporteerde activiteiten, niet het volledige universum van alle cyberincidenten die wereldwijd plaatsvinden. Veel cyberincidenten worden nooit openbaar gemaakt, gemeld of door de media behandeld.

Databronnen en detectie

Bronsoorten

Artikelen en rapporten over cyberbeveiliging worden verzameld uit meerdere broncategorieën, waaronder:

Mainstream- en techmedia.
Voorbeelden zijn grote internationale nieuwsorganisaties en technologiepublicaties.
Betrouwbare en deskundige bronnen op het gebied van cyberbeveiliging.
Waaronder overheidsinstanties, onderzoeksorganisaties op het gebied van cyberbeveiliging en gerenommeerde vakbladen.
Regionale en lokale nieuwsmedia.
Verslaggeving over cyberbeveiligingsincidenten in Noord-Amerika, Europa, Azië-Pacific en andere regio's.
Branche- en onderzoeksrapporten.
Inclusief jaarlijkse inbreukrapporten, rapporten over het dreigingslandschap, enquêtes en economische analyses.

Elke bron wordt vermeld op artikel- of rapportniveau, waarbij de publicatiedatum, de uitgever en de oorspronkelijke URL behouden blijven.

Ontdekkingsproces

Het opsporen van inhoud gebeurt met behulp van geautomatiseerde zoekopdrachten op basis van een bijgewerkte lijst met cybersecurity-trefwoorden. Trefwoorden zijn gegroepeerd per onderwerp (bijvoorbeeld: datalekken, ransomware, phishing, kwetsbaarheden, regelgeving).

Er worden dagelijks zoekopdrachten uitgevoerd om nieuw gepubliceerde inhoud vast te leggen. Bij elke uitvoering wordt alleen recent materiaal doorzocht, zodat de gegevensset de actuele rapportage weerspiegelt.

Verzameling en verwerking van inhoud

Ophalen van het artikel

Zodra een bron is gevonden, wordt de volledige tekst van het artikel opgehaald met behulp van geautomatiseerde extractietools. Als de primaire extractie mislukt, worden alternatieve methoden gebruikt om een robuuste dekking te garanderen.

Deduplicatie

Zo wordt dubbeltelling voorkomen:

Identieke URL's worden slechts één keer verwerkt
Opnieuw gepubliceerde of gesyndiceerde content wordt op artikelniveau gededupliceerd
Eventniveau-aggregatie (hieronder beschreven) vermindert verdere duplicatie tussen verschillende nieuwsbronnen.

Relevantiefiltering en classificatie

Beoordeling van de relevantie voor cybersecurity

Elk artikel wordt beoordeeld om te bepalen of het relevant is voor cybersecuritystatistieken. Artikelen moeten een cyberbeveiligingsincident, -bedreiging, -kwetsbaarheid of regelgevende actie op een zinvolle manier beschrijven of analyseren.

Classificatie van het type event

Relevante artikelen worden ingedeeld in algemene categorieën, waaronder:

Incident – Een bevestigde cyberaanval of inbreuk die al heeft plaatsgevonden
Kwetsbaarheid – Openbaarmaking van een beveiligingszwakte die kan worden uitgebuit
Threat intelligence – Rapportage over cybercriminelen, tools, campagnes of technieken
Regelgeving / wetgeving – Wetten, handhavingsmaatregelen, beleidswijzigingen of juridische procedures met betrekking tot cybersecurity

Deze classificatie zorgt ervoor dat statistieken die verwijzen naar 'incidenten', 'inbreuken' of 'aanvallen' niet worden verward met openbaarmakingen van kwetsbaarheden of algemene commentaren.

Eventclustering (het groeperen van artikelen per gebeurtenis)

Vaak verschijnen er meerdere artikelen over hetzelfde cyberincident. Zo wordt overrapportage voorkomen:

Artikelen die hetzelfde incident beschrijven, worden gegroepeerd in één event
Events krijgen vaste interne identificatoren toegewezen.
Artikelen worden alleen gekoppeld aan bestaande events wanneer er een hoge mate van zekerheid is dat ze dezelfde gebeurtenis beschrijven.

Indicatoren die worden gebruikt voor clustering zijn onder andere getroffen organisaties, dreigingsactoren, tijdlijnen en incidentbeschrijvingen.

Eventniveau-records bevatten:

Eerste en laatste verschijningsdatum
Aantal gerelateerde artikelen
Getroffen organisaties
Genoemde bedreigingsactoren
Bronlinks ter verificatie

Gebruik van geautomatiseerde analyse en kwaliteitscontroles

Geautomatiseerde classificatie

Er wordt gebruikgemaakt van gestructureerde, deterministische taalmodellenanalyse voor classificatie, extractie en aggregatie. Alle geautomatiseerde outputs volgen vooraf gedefinieerde schema's om consistentie te garanderen.

De modellen werken met deterministische instellingen om variabiliteit en het risico op hallucinaties te verminderen.

Kwaliteitsborging

Om de nauwkeurigheid te waarborgen:

Schemavalidatie zorgt ervoor dat alleen correct gestructureerde outputs worden meegeteld.
Er worden regelmatig maandelijkse steekproeven en controleprocedures uitgevoerd, inclusief een nauwkeurigheidscontrole, om afwijkingen in de classificatie op te sporen. Deze beoordeling brengt verschuivingen in de classificatie aan het licht, wat ertoe leidt dat het model moet worden aangepast.
Dubbelzinnige of impactvolle incidenten worden gemarkeerd voor menselijke beoordeling.
Geaggregeerde statistieken blijven traceerbaar naar individuele artikelen en gebeurtenissen

Hoe statistieken worden berekend

Metrics op artikelniveau vs. eventniveau

Sommige statistieken zijn gebaseerd op:

Tellingen op artikelniveau (bijv. omvang van de media-aandacht)
Tellingen op eventniveau (bijv. aantal unieke datalekken of incidenten)

Waar mogelijk worden eventniveau-metrics gebruikt om dubbeltellingen te voorkomen.

Interpretatie van aantallen en frequenties

Statistieken zoals 'incidenten per dag' of 'inbreuken per jaar' geven de gemelde of in de media zichtbare activiteit weer, niet de totale wereldwijde activiteit.

Telemetrie van leveranciers, klachtensystemen van de overheid en economische prognoses rapporteren vaak aanzienlijk hogere volumes vanwege verschillen in reikwijdte en methodologie. Deze verschillen worden waar relevant vermeld.

Beperkingen en aandachtspunten

Hoewel er zorgvuldig is gewerkt aan de nauwkeurigheid en consistentie, hebben de gegevens inherente beperkingen:

Niet alle incidenten worden openbaar gemaakt of gemeld
De berichtgeving in de media verschilt per regio, sector en omvang van het incident
Sommige bronnen beperken de toegang
In uitzonderlijke gevallen kunnen er classificatiefouten optreden
De cijfers over de economische schade kunnen veranderen naarmate onderzoeken vorderen

Statistieken moeten daarom worden gezien als richtinggevende indicatoren, niet als uitputtende metingen.

Bronnenindex

Elke genummerde bron hieronder komt overeen met een verwijzing in superscript die wordt gebruikt op de 'Cybersecurity-statistieken'-pagina. Superscripts verwijzen rechtstreeks naar de betreffende bronvermelding op deze pagina.

Bron ¹ Statista – Cybercrime worldwide Link⁠‌
Bron ² Identity Theft Resource Center (ITRC) – Weekly Breach Breakdown Q3 2025 Link⁠‌
Bron ³ Identity Theft Resource Center (ITRC) – H1 2025 Data Breach Analysis Link⁠‌
Bron ⁴ Verizon – Data Breach Investigations Report (DBIR) 2025 Link⁠‌
Bron ⁵ IBM – Cost of a Data Breach Report 2025 Link⁠‌
Bron ⁶ South Korean Ministry of Science and ICT – SK Telecom data exfiltration incident Link⁠‌
Bron ⁷ Aflac – June 2025 security incident regulatory filing Link⁠‌
Bron ⁸ HIPAA Journal – Largest healthcare data breaches of 2025 Link⁠‌
Bron ⁹ California Attorney General – Aflac breach report (SB24-616010) Link⁠‌
Bron ¹⁰ Iowa Attorney General – Aflac data breach notification Link⁠‌
Bron ¹¹ Rhode Island Attorney General – Data‑breach notifications Link⁠‌
Bron ¹² Rhode Island AG – Data‑breach notification Link⁠‌
Bron ¹³ Aflac Newsroom – June 2025 security incident update Link⁠‌
Bron ¹⁴ HIPAA Journal – Aflac data breach article Link⁠‌
Bron ¹⁵ Office of the Australian Information Commissioner – Statement on Qantas cyber incident Link⁠‌
Bron ¹⁶ Qantas – Information for customers on cyber incident Link⁠‌
Bron ¹⁷ Qantas Newsroom – Update on Qantas cyber incident (9 July 2025) Link⁠‌
Bron ¹⁸ Michigan Attorney General – Consumer alert on data breaches (TransUnion) Link⁠‌
Bron ¹⁹ Maine Attorney General – Allianz Life cyber incident notice Link⁠‌
Bron ²⁰ California Attorney General – Allianz data breach report (SB24-612078) Link⁠‌
Bron ²¹ University of Maryland – Cyber Security Statistics Link⁠‌
Bron ²² Microsoft Digital Defense Report 2023 Link⁠‌
Bron ²³ WIRED – NotPetya cyberattack article Link⁠‌
Bron ²⁴ Reuters – UnitedHealth tech unit hack article Link⁠‌
Bron ²⁵ The Guardian – Jaguar Land Rover hack article Link⁠‌
Bron ²⁶ NBC News – MGM Resorts cyberattack cost article Link⁠‌
Bron ²⁷ Delaware Department of Technology & Information – eSecurityNews (Oct 2023) Link⁠‌
Bron ²⁸ Cybersecurity Ventures – Global ransomware damage cost projection Link⁠‌
Bron ²⁹ JumpCloud – Phishing attack statistics Link⁠‌
Bron ³⁰ Hornetsecurity – Email threats in 2024 Link⁠‌
Bron ³¹ Spearshield – Click‑to‑credential phishing study Link⁠‌
Bron ³² APWG – Phishing Activity Trends Reports Link⁠‌
Bron ³³ arXiv – Academic password/credential research (2025) Link⁠‌
Bron ³⁴ DeepStrike – Password statistics 2025 Link⁠‌
Bron ³⁵ NordPass – Top 200 Most Common Passwords Link⁠‌
Bron ³⁶ Financial Times – Supply‑chain cybersecurity article Link⁠‌
Bron ³⁷ SecurityScorecard – 2025 Supply Chain Cybersecurity Trends Link⁠‌
Bron ³⁸ National Technology & Security Coalition – 2025 Software Supply Chain Security Report Link⁠‌
Bron ³⁹ Palo Alto Networks – State of Cloud Native Security Link⁠‌
Bron ⁴⁰ IBM – Threat Intelligence Report Link⁠‌
Bron ⁴¹ Tenable – Cloud Security Risk Report 2025 Link⁠‌
Bron ⁴² Cybersecurity Ventures – Cybersecurity Cost Report Link⁠‌
Bron ⁴³ Statista Market Insights – Estimated cost of cybercrime worldwide 2018‑2029 (ResearchGate) Link⁠‌
Bron ⁴⁴ Statista – Cost of cybercrime worldwide forecast Link⁠‌
Bron ⁴⁵ FTC – Consumer Sentinel Network Data Book 2024 Link⁠‌
Bron ⁴⁶ FBI IC3 – 2024 Internet Crime Report Link⁠‌
Bron ⁴⁷ Kroll – Data Breach Outlook 2025 Link⁠‌
Bron ⁴⁸ IBM – Cost of a Data Breach 2024: Financial Industry Link⁠‌
Bron ⁴⁹ SailPoint – 2024 State of Identity Security in Financial Services Link⁠‌
Bron ⁵⁰ DeepStrike – Healthcare data breach statistics 2025 Link⁠‌
Bron ⁵¹ Proofpoint & Ponemon – Healthcare Cybersecurity Report Link⁠‌
Bron ⁵² Check Point – Cyber Security Report 2025 Link⁠‌
Bron ⁵³ Thales – 2024 Data Threat Report: Critical Infrastructure Edition Link⁠‌
Bron ⁵⁴ Cyfirma – Energy & Utilities industry report Link⁠‌
Bron ⁵⁵ World Economic Forum – Global Cybersecurity Outlook 2025 Link⁠‌
Bron ⁵⁶ DeepStrike – Cyber attacks on small businesses Link⁠‌
Bron ⁵⁷ Devolutions – State of IT Security Report 2025 Link⁠‌
Bron ⁵⁸ TotalAssure – Small business cybersecurity statistics 2025 Link⁠‌
Bron ⁵⁹ Cisco – Cybersecurity Readiness Index 2025 Link⁠‌
Bron ⁶⁰ IANS Research – Security budgets press release (2024) Link⁠‌
Bron ⁶¹ Munich Re – Cyber insurance risks and trends 2025 Link⁠‌
Bron ⁶² Gartner – 2025 information security spending forecast Link⁠‌
Bron ⁶³ Forrester – 2024 Cybersecurity Benchmarks (Global) Link⁠‌
Bron ⁶⁴ Ivanti – State of Cybersecurity Report Link⁠‌
Bron ⁶⁵ U.S. Department of Homeland Security – FY 2025 Budget in Brief Link⁠‌
Bron ⁶⁶ U.S. Department of Defense – CYBERCOM Budget Justification Link⁠‌
Bron ⁶⁷ Google Cloud – Cybersecurity forecast Link⁠‌
Bron ⁶⁸ Gartner – Generative AI attack survey (Sep 22 2025) Link⁠‌
Bron ⁶⁹ Splashtop – Top cybersecurity trends and predictions for 2026 Link⁠‌
Bron ⁷⁰ ENISA – Threat Landscape 2024 Link⁠‌

Cybersecurity­statistieken: methodologie en bronnen

Doel van deze pagina

Databereik

Databronnen en detectie

Bronsoorten

Ontdekkingsproces

Verzameling en verwerking van inhoud

Ophalen van het artikel

Deduplicatie

Relevantiefiltering en classificatie

Beoordeling van de relevantie voor cybersecurity

Classificatie van het type event

Eventclustering (het groeperen van artikelen per gebeurtenis)

Gebruik van geautomatiseerde analyse en kwaliteitscontroles

Geautomatiseerde classificatie

Kwaliteitsborging

Hoe statistieken worden berekend

Metrics op artikelniveau vs. eventniveau

Interpretatie van aantallen en frequenties

Beperkingen en aandachtspunten

Bronnenindex

Cybersecuritystatistieken:
methodologie en bronnen