Cybersecuritystatistieken:
methodologie en bronnen
Doel van deze pagina
We leggen uit hoe de statistieken op onze Cybersecuritystatistieken-pagina worden verzameld, verwerkt en geïnterpreteerd en bieden transparantie over bronnen. Op de hoofdpagina met cybersecuritystatistieken vind je een overzicht van de bevindingen en onderzoeksinzichten van NordVPN.
Databronnen en bronvermelding
Bronnen worden gevonden via de Google Custom Search API (GCS), met meerdere Custom Search Engines (CSE’s) die zijn ingesteld voor:
mediakanalen: 44 reguliere en technische mediabronnen (bijv. BBC, CNN, The New York Times, WSJ, FT, Reuters, Bloomberg, TechCrunch, Wired, Ars Technica, Time, Forbes).
gezaghebbende referentiebronnen: 25 bronnen uit de sector en van cybersecurityexperts (zoals CISA, KrebsOnSecurity, The Hacker News, Dark Reading, BleepingComputer, SecurityWeek en Infosecurity Magazine).
lokaal nieuws: meer dan 100 regionale en nationale media in APAC, EMEA en Noord- en Zuid-Amerika (bijv. Channel NewsAsia, CSA.gov.sg, Zaobao; HK01, unwire.hk; Japan Times, NISC, JPCERT, ITMedia).
onbeperkt/algemeen.
Zoekopdrachten zijn gebaseerd op trefwoorden uit een bijgehouden trefwoordenlijst waarin termen per categorie zijn gegroepeerd.
Alle records bevatten een expliciete bronvermelding:
Link naar het originele artikel
Mediakanaal (domein geëxtraheerd uit de URL)
Publicatiedatum en verzameldatum
We combineren informatie uit verschillende bronnen voor statistieken en gebeurtenisanalyses; elke statistiek is gebaseerd op bewijs uit artikelen dat inclusief bronlinks wordt opgeslagen.
Frequentie van het ophalen en verzamelen van content
Haalt volledige tekstcontent op uit gevonden links met:
Primair: NewsPlease
Fallback: directe HTML-download via een beveiligde requests-sessie en extractie met Trafilatura.
Time-outs, nieuwe pogingen, TLS-fallbacks en referer-headers worden gebruikt om tijdelijke storingen te verminderen.
Publicatiedatum en titel worden overgenomen uit de extractor, indien beschikbaar; datumparsing wordt genormaliseerd naar alleen datum.
Dagelijkse scans doorzoeken content van de afgelopen dag.
Feature-extractie
Geëxtraheerde velden omvatten:
Mediakanaal (van URL)
Eerste alinea (eerste 3–5 zinnen)
Trefwoordkenmerken: totaal aantal keren in de tekst, aanwezigheid in de titel, zinnen die het starttrefwoord bevatten en aanwezigheid van trefwoorden uit de bijgewerkte lijst
Aantal woorden
LLM-relevantiebeoordeling
Elk artikel wordt beoordeeld door een LLM met een deterministische instelling (temperatuur 0) en een beperkte prompt die expliciete, gestructureerde outputs vereist:
1. Of het artikel relevant is voor cyberincidenten
2. Indien relevant, wordt een algemeen gebeurtenistype toegewezen:
Incident: er heeft al een bevestigde cyberaanval of inbreuk plaatsgevonden (bijv. inzet van ransomware, gegevensexfiltratie, DDoS, systeemaantasting).
Kwetsbaarheid: ontdekking of openbaarmaking van een veiligheidsfout in software/hardware/systemen die kan worden uitgebuit (potentieel risico in plaats van bevestigde uitbuiting).
Threat Intelligence: rapportage over bedreigingsactoren, tools, TTP's en campagnes – richt zich op 'wie/hoe', niet op een specifiek slachtofferincident.
Regelgeving en wetgeving: wetten, voorschriften, handhavingsmaatregelen, rechterlijke beslissingen of belangrijke beleidswijzigingen die van invloed zijn op cybersecurityverplichtingen.
Artikeltype en categorisering
Relevante artikelen worden gecategoriseerd via gestructureerde taxonomische criteria (primair: status van de aanval, type gebeurtenis, regelgeving/juridisch; secundair: impactstatistieken/klasse, technische details, sectoren, regio, omvang, geschatte schade).
Eventclustering (het groeperen van artikelen per gebeurtenis)
Doel: artikelen die hetzelfde onderliggende incident beschrijven, groeperen in één 'gebeurtenis'.
Methode:
Haal bestaande events uit de database op om context te bieden (titels, bekende getroffen organisaties, dreigingsactoren en links).
Voor elk kandidaatartikel (waarbij het artikeltype is ingesteld op 'Single Incident') vergelijkt het LLM de details met batches bestaande events en doet vervolgens één van de volgende:
1. Wijst een bestaand gebeurtenis-ID toe wanneer er een match met een hoge betrouwbaarheid is, of
2. Maakt een nieuwe gebeurtenis aan.
Prompts leggen de nadruk op hoge precisie: link alleen naar een bestaande gebeurtenis als je er heel zeker van bent. Getroffen organisatie(s) en signalen van bedreigingsactoren worden behandeld als sterke indicatoren.
Gebeurtenissen bevatten geaggregeerde velden: eerste/laatste waarnemingsdatum, aantal artikelen, getroffen organisaties, bedreigingsactoren, titels, links.
Nauwkeurigheid en kwaliteitsborging
Determinisme en beperkingen:
LLM-temperatuur ingesteld op 0 om determinisme te maximaliseren en hallucinaties te verminderen.
Bij constrained prompts zijn vaste velden en JSON-output verplicht, zodat de structuur automatisch gecontroleerd kan worden.
Artikelen zonder inhoud (ontbrekende titel/tekst) worden meteen afgewezen.
Door LLM beheerde, schema-gevalideerde statistieken:
Alle metrische velden worden gegenereerd door deterministische LLM-runs (temperature 0) volgens strikte, gedocumenteerde richtlijnen en JSON-schema’s. Alleen outputs die aan het schema voldoen worden meegenomen, met periodieke menselijke kwaliteitscontroles om consistentie te bewaken en afwijkingen te voorkomen.
Classificatie van events/artikelen voor nauwkeurige filtering:
Classificatie op basis van eventtype en artikelfocus fungeert als strikte relevantiecheck, die content filtert die off-topic, weinig informatief of meer overzichtsgericht is. Deze focus op rapportage van afzonderlijke incidenten vermindert ruis en verbetert de precisie en nauwkeurigheid van de dataset meetbaar.
Validatie uit meerdere bronnen:
Eventclustering gebruikt eerder opgeslagen eventcontext als referentie; bij afwijkingen is de kans op onjuiste samenvoegingen kleiner.
Aggregaties bevatten de lijst met bronlinks per event voor handmatige verificatie.
Menselijke tussenkomst:
Bij gevallen met een hoge impact of onduidelijkheden, wordt een signaal afgegeven voor redactionele controle en factcheck.
Regelmatige QA-beoordelingen: geselecteerde artikelen en gebeurtenissen worden maandelijks gecontroleerd met een precisiebeoordeling; elke afwijking leidt tot aanpassingen van de prompt, het model of de trefwoorden.
Traceerbaarheid:
Elke statistiek is te herleiden naar artikelen en links in de database, zodat je alles kunt controleren.
Beperkingen
Dekkingslimieten:
GCS-gebaseerde detectie is afhankelijk van trefwoorden en CSE-configuratie; niet alle incidenten worden vastgelegd, vooral buiten geconfigureerde talen of content met een betaalmuur.
Sommige sites blokkeren geautomatiseerd ophalen; dergelijke artikelen kunnen gedeeltelijk of volledig ontbreken.
LLM-specifieke risico's:
Ondanks deterministische instellingen en gestructureerde prompts kan er toch een verkeerde classificatie plaatsvinden, vooral bij schaarse of dubbelzinnige teksten.
Eventclustering kan in randgevallen hetzelfde incident opsplitsen in meerdere events, of vergelijkbare maar afzonderlijke incidenten samenvoegen.
Hoe statistieken worden berekend
Velden op artikelniveau zijn afgeleid van directe extractie en LLM-uitvoer (opgeslagen per record).
Metrics op eventniveau aggregeren artikelen op basis van event_id:
aantal artikelen, datum van eerste/laatste weergave
gededupliceerde getroffen organisaties en bedreigingsactoren
representatieve titels en lijsten met canonieke links
De rapportstatistieken worden uit deze opgeslagen tabellen gehaald; elk cijfer is terug te voeren naar events en onderliggende artikelrecords.
Databereik
De statistieken en inzichten waarnaar in onze cyberbeveiligingscontent wordt verwezen, zijn afgeleid van een combinatie van:
Publiekelijk beschikbare rapportage van cybersecurity-incidenten
Mediaberichtgeving over bevestigde cyberincidenten
Brancherapporten en -enquêtes
Openbaarmakingen van de overheid en regelgevende instanties
De gegevens weerspiegelen publiekelijk waarneembare en gerapporteerde activiteiten, niet het volledige universum van alle cyberincidenten die wereldwijd plaatsvinden. Veel cyberincidenten worden nooit openbaar gemaakt, gemeld of door de media behandeld.
Databronnen en detectie
Bronsoorten
Artikelen en rapporten over cyberbeveiliging worden verzameld uit meerdere broncategorieën, waaronder:
Mainstream- en techmedia.
Voorbeelden zijn grote internationale nieuwsorganisaties en technologiepublicaties.Betrouwbare en deskundige bronnen op het gebied van cyberbeveiliging.
Waaronder overheidsinstanties, onderzoeksorganisaties op het gebied van cyberbeveiliging en gerenommeerde vakbladen.Regionale en lokale nieuwsmedia.
Verslaggeving over cyberbeveiligingsincidenten in Noord-Amerika, Europa, Azië-Pacific en andere regio's.Branche- en onderzoeksrapporten.
Inclusief jaarlijkse inbreukrapporten, rapporten over het dreigingslandschap, enquêtes en economische analyses.
Elke bron wordt vermeld op artikel- of rapportniveau, waarbij de publicatiedatum, de uitgever en de oorspronkelijke URL behouden blijven.
Ontdekkingsproces
Het opsporen van inhoud gebeurt met behulp van geautomatiseerde zoekopdrachten op basis van een bijgewerkte lijst met cybersecurity-trefwoorden. Trefwoorden zijn gegroepeerd per onderwerp (bijvoorbeeld: datalekken, ransomware, phishing, kwetsbaarheden, regelgeving).
Er worden dagelijks zoekopdrachten uitgevoerd om nieuw gepubliceerde inhoud vast te leggen. Bij elke uitvoering wordt alleen recent materiaal doorzocht, zodat de gegevensset de actuele rapportage weerspiegelt.
Verzameling en verwerking van inhoud
Ophalen van het artikel
Zodra een bron is gevonden, wordt de volledige tekst van het artikel opgehaald met behulp van geautomatiseerde extractietools. Als de primaire extractie mislukt, worden alternatieve methoden gebruikt om een robuuste dekking te garanderen.
Deduplicatie
Zo wordt dubbeltelling voorkomen:
Identieke URL's worden slechts één keer verwerkt
Opnieuw gepubliceerde of gesyndiceerde content wordt op artikelniveau gededupliceerd
Eventniveau-aggregatie (hieronder beschreven) vermindert verdere duplicatie tussen verschillende nieuwsbronnen.
Relevantiefiltering en classificatie
Beoordeling van de relevantie voor cybersecurity
Elk artikel wordt beoordeeld om te bepalen of het relevant is voor cybersecuritystatistieken. Artikelen moeten een cyberbeveiligingsincident, -bedreiging, -kwetsbaarheid of regelgevende actie op een zinvolle manier beschrijven of analyseren.
Classificatie van het type event
Relevante artikelen worden ingedeeld in algemene categorieën, waaronder:
Incident – Een bevestigde cyberaanval of inbreuk die al heeft plaatsgevonden
Kwetsbaarheid – Openbaarmaking van een beveiligingszwakte die kan worden uitgebuit
Threat intelligence – Rapportage over cybercriminelen, tools, campagnes of technieken
Regelgeving / wetgeving – Wetten, handhavingsmaatregelen, beleidswijzigingen of juridische procedures met betrekking tot cybersecurity
Deze classificatie zorgt ervoor dat statistieken die verwijzen naar 'incidenten', 'inbreuken' of 'aanvallen' niet worden verward met openbaarmakingen van kwetsbaarheden of algemene commentaren.
Eventclustering (het groeperen van artikelen per gebeurtenis)
Vaak verschijnen er meerdere artikelen over hetzelfde cyberincident. Zo wordt overrapportage voorkomen:
Artikelen die hetzelfde incident beschrijven, worden gegroepeerd in één event
Events krijgen vaste interne identificatoren toegewezen.
Artikelen worden alleen gekoppeld aan bestaande events wanneer er een hoge mate van zekerheid is dat ze dezelfde gebeurtenis beschrijven.
Indicatoren die worden gebruikt voor clustering zijn onder andere getroffen organisaties, dreigingsactoren, tijdlijnen en incidentbeschrijvingen.
Eventniveau-records bevatten:
Eerste en laatste verschijningsdatum
Aantal gerelateerde artikelen
Getroffen organisaties
Genoemde bedreigingsactoren
Bronlinks ter verificatie
Gebruik van geautomatiseerde analyse en kwaliteitscontroles
Geautomatiseerde classificatie
Er wordt gebruikgemaakt van gestructureerde, deterministische taalmodellenanalyse voor classificatie, extractie en aggregatie. Alle geautomatiseerde outputs volgen vooraf gedefinieerde schema's om consistentie te garanderen.
De modellen werken met deterministische instellingen om variabiliteit en het risico op hallucinaties te verminderen.
Kwaliteitsborging
Om de nauwkeurigheid te waarborgen:
Schemavalidatie zorgt ervoor dat alleen correct gestructureerde outputs worden meegeteld.
Er worden regelmatig maandelijkse steekproeven en controleprocedures uitgevoerd, inclusief een nauwkeurigheidscontrole, om afwijkingen in de classificatie op te sporen. Deze beoordeling brengt verschuivingen in de classificatie aan het licht, wat ertoe leidt dat het model moet worden aangepast.
Dubbelzinnige of impactvolle incidenten worden gemarkeerd voor menselijke beoordeling.
Geaggregeerde statistieken blijven traceerbaar naar individuele artikelen en gebeurtenissen
Hoe statistieken worden berekend
Metrics op artikelniveau vs. eventniveau
Sommige statistieken zijn gebaseerd op:
Tellingen op artikelniveau (bijv. omvang van de media-aandacht)
Tellingen op eventniveau (bijv. aantal unieke datalekken of incidenten)
Waar mogelijk worden eventniveau-metrics gebruikt om dubbeltellingen te voorkomen.
Interpretatie van aantallen en frequenties
Statistieken zoals 'incidenten per dag' of 'inbreuken per jaar' geven de gemelde of in de media zichtbare activiteit weer, niet de totale wereldwijde activiteit.
Telemetrie van leveranciers, klachtensystemen van de overheid en economische prognoses rapporteren vaak aanzienlijk hogere volumes vanwege verschillen in reikwijdte en methodologie. Deze verschillen worden waar relevant vermeld.
Beperkingen en aandachtspunten
Hoewel er zorgvuldig is gewerkt aan de nauwkeurigheid en consistentie, hebben de gegevens inherente beperkingen:
Niet alle incidenten worden openbaar gemaakt of gemeld
De berichtgeving in de media verschilt per regio, sector en omvang van het incident
Sommige bronnen beperken de toegang
In uitzonderlijke gevallen kunnen er classificatiefouten optreden
De cijfers over de economische schade kunnen veranderen naarmate onderzoeken vorderen
Statistieken moeten daarom worden gezien als richtinggevende indicatoren, niet als uitputtende metingen.
Bronnenindex
Elke genummerde bron hieronder komt overeen met een verwijzing in superscript die wordt gebruikt op de 'Cybersecurity-statistieken'-pagina. Superscripts verwijzen rechtstreeks naar de betreffende bronvermelding op deze pagina.
Bron 1 Statista – |
|---|
Bron 2 Identity Theft |
Bron 3 Identity Theft |
Bron 4 Verizon – |
Bron 5 IBM – |
Bron 6 South Korean |
Bron 7 Aflac – June |
Bron 8 HIPAA Journal – |
Bron 9 California Attorney |
Bron 10 Iowa Attorney |
Bron 11 Rhode Island |
Bron 12 Rhode Island |
Bron 13 Aflac Newsroom – |
Bron 14 HIPAA Journal – |
Bron 15 Office of the |
Bron 16 Qantas – Information |
Bron 17 Qantas Newsroom – |
Bron 18 Michigan Attorney |
Bron 19 Maine Attorney |
Bron 20 California Attorney |
Bron 21 University of |
Bron 22 Microsoft Digital |
Bron 23 WIRED – NotPetya |
Bron 24 Reuters – UnitedHealth |
Bron 25 The Guardian – Jaguar |
Bron 26 NBC News – |
Bron 27 Delaware Department |
Bron 28 Cybersecurity |
Bron 29 JumpCloud – Phishing |
Bron 30 Hornetsecurity – Email |
Bron 31 Spearshield – |
Bron 32 APWG – Phishing |
Bron 33 arXiv – Academic |
Bron 34 DeepStrike – Password |
Bron 35 NordPass – Top 200 |
Bron 36 Financial Times – |
Bron 37 SecurityScorecard – |
Bron 38 National Technology & |
Bron 39 Palo Alto Networks – |
Bron 40 IBM – Threat |
Bron 41 Tenable – |
Bron 42 Cybersecurity |
Bron 43 Statista Market |
Bron 44 Statista – Cost of |
Bron 45 FTC – Consumer |
Bron 46 FBI IC3 – 2024 Internet |
Bron 47 Kroll – Data Breach |
Bron 48 IBM – Cost of a Data |
Bron 49 SailPoint – 2024 |
Bron 50 DeepStrike – |
Bron 51 Proofpoint & |
Bron 52 Check Point – |
Bron 53 Thales – 2024 |
Bron 54 Cyfirma – Energy & |
Bron 55 World Economic |
Bron 56 DeepStrike – Cyber |
Bron 57 Devolutions – State of |
Bron 58 TotalAssure – |
Bron 59 Cisco – Cybersecurity |
Bron 60 IANS Research – |
Bron 61 Munich Re – |
Bron 62 Gartner – 2025 |
Bron 63 Forrester – 2024 |
Bron 64 Ivanti – State of |
Bron 65 U.S. Department of |
Bron 66 U.S. Department of |
Bron 67 Google Cloud – |
Bron 68 Gartner – Generative AI |
Bron 69 Splashtop – Top |
Bron 70 ENISA – Threat |