Statistik om cybersikkerhed:
Metode og kilder

Formålet med denne side

Denne side beskriver, hvordan de data, der præsenteres på vores side "Statistik om cybersikkerhed", indsamles, behandles og fortolkes, og giver fuld gennemsigtighed hvad angår de anvendte datakilder. På hovedsiden "Statistik om cybersikkerhed" finder du sammenfattede resultater og konklusioner fra NordVPN's undersøgelser.

Datakilder og kildeangivelse

Kildesøgningen foregår via Google Custom Search API (GCS) ved hjælp af flere Custom Search Engines (CSE'er), der er konfigureret til følgende:

  • medier: 44 mainstream- og tech-mediekilder (f.eks. BBC, CNN, The New York Times, WSJ, FT, Reuters, Bloomberg, TechCrunch, Wired, Ars Technica, Time, Forbes).

  • autoritative hjemmesider/referencehjemmesider: 25 branche- og ekspertkilder (f.eks. CISA, KrebsOnSecurity, The Hacker News, Dark Reading, BleepingComputer, SecurityWeek, Infosecurity Magazine).

  • lokale nyheder: Mere end 100 regionale og nationale medier i APAC, EMEA og Nord- og Sydamerika (f.eks. Channel NewsAsia, CSA.gov.sg, Zaobao; HK01, unwire.hk; Japan Times, NISC, JPCERT, ITMedia).

  • ubegrænset/generelt.

Forespørgslerne er baseret på en vedligeholdt nøgleordsliste, hvor termerne er organiseret efter kategori.

Alle dataene indeholder en tydelig henvisning til kilden:

  • Link til den originale artikel

  • Medievirksomhed (domæne hentet fra URL'en)

  • Udgivelsesdato og indsamlingsdato

Vi sammenfatter oplysninger fra mange kilder til statistik og aggregering af hændelser. Hver statistik stammer fra dokumentation på artikelniveau, der er gemt med links.

Hyppighed af opdatering og indsamling af indhold

Henter den fulde tekst fra de fundne links med:

  • Primær: NewsPlease

  • Fallback: direkte download af HTML-koden ved hjælp af en forstærket Requests-session og udtrækning af teksten ved hjælp af Trafilatura-metoden.

Timeouts, gentagelser, TLS-fallbacks og referer-headers bruges til at reducere forbigående fejl.

Udgivelsesdatoen og titlen er hentet fra udtrækkerprogrammet, hvis det er tilgængeligt, og dataanalysen er standardiseret til kun at omfatte datoen.

Daglige kørsler forespørger efter indhold fra den seneste dag.

Udtrækning af funktioner

De udtrukne felter omfatter:

  • Medievirksomhed (fra URL)

  • Første afsnit (de første 3-5 sætninger)

  • Nøgleordskarakteristika: Samlet antal i teksten, forekomster i titlen, sætninger med seed-nøgleordet og forekomster af nøgleord fra den vedligeholdte liste

  • Antal ord

Vurdering af LLM's relevans

Hver artikel evalueres af en LLM med en deterministisk indstilling (temperatur 0) og en begrænset prompt, der kræver eksplicitte, strukturerede output:

1. Om artiklen er relevant for cyberhændelser

2. Hvis det er relevant, tildeles en overordnet hændelsestype:

  • Hændelse: Et bekræftet cyberangreb eller databrud har allerede fundet sted (f.eks. spredning af ransomware, eksfiltrering af data, DDoS-angreb, systemkompromittering).

  • Sårbarhed: Opdagelse eller afsløring af et hul i sikkerheden i software/hardware/systemer, som kan udnyttes (potentiel risiko snarere end bekræftet udnyttelse).

  • Analyse af trusler: Rapporter om trusselsaktører, værktøjer, TTP'er og kampagner – der lægges vægt på "hvem/hvordan", ikke på en konkret hændelse med et offer.

  • Lovgivning/retlig: Love, bestemmelser, håndhævelsestiltag, domstolsafgørelser eller større politiske ændringer, der påvirker krav til cybersikkerhed.

Artikeltype og kategorisering

De relevante artikler kategoriseres via strukturerede prompts til taksonomien (primært: angrebsstatus, hændelsestype, lovgivning/retlig; sekundært: konsekvensmåledata/-klasse, tekniske detaljer, sektorer, geografi, størrelse, anslået skade).

Hændelsesgruppering (aggregering af artikler til hændelser)

Mål: Gruppere artikler, der beskriver den samme underliggende hændelse, i en enkelt "hændelse".

Metode:

  • Hent eksisterende hændelser fra databasen for at give kontekstuelle oplysninger (titel, kendte berørte organisationer, trusselsaktører, links).

  • For hver kandidatartikel, hvis artikeltype er "Single Incident", sammenligner LLM detaljerne i artiklen med grupper af eksisterende hændelser og træffer derefter en beslutning:

1. Tildeler et eksisterende hændelses-id, hvis der foreligger et match med stor sandsynlighed, eller

2. Opretter ellers en ny hændelse.

  • Disse prompts lægger vægt på høj nøjagtighed: Du bør kun linke til en eksisterende hændelse, hvis det ikke er forbundet med ricisi. Den eller de berørte organisationer og signaler om trusselsaktører betragtes som stærke indikatorer.

Hændelser indeholder aggregerede felter: datoer for første/sidste forekomst, antal artikler, berørte organisationer, trusselsaktører, titel, links.

Nøjagtighed og kvalitetssikring

Determinisme og begrænsninger:

  • LLM-temperaturen er sat til 0 for at maksimere determinismen og mindske fejlfortolkninger.

  • Begrænsede prompts kræver eksplicitte felter og JSON-output, og analysen håndhæver skemaet.

  • Artikler uden indhold (manglende titel/tekst) afvises tidligt.

LLM-styrede, skemavaliderede måledata:

  • Alle måledatafelter genereres af deterministiske LLM-kørsler (temperatur 0) i henhold til strenge, dokumenterede retningslinjer og JSON-skemaer, og det er kun skemakompatible output, som tælles med, og der udføres regelmæssigt manuel kvalitetssikring for at kalibrere og undgå afvigelser.

Klassificering af hændelser/artikler til præcisionsfiltrering:

  • Klassificeringen efter hændelsestype og artiklens fokus fungerer som et strengt relevansfilter, der sorterer indhold, der ligger uden for emnet, er mindre meningsfuldt eller er opsummeret fra. Ved at koncentrere sig om rapporter om enkelthændelser reduceres antallet af irrelevante hits, og kvaliteten af datasættet forbedres mærkbart.

Validering fra flere kilder:

  • Hændelsesgrupperingen refererer til den tidligere gemte hændelseskontekst, og uoverensstemmelser reducerer sandsynligheden for forkerte sammenfletninger.

  • Aggregeringerne indeholder en liste over kildelinks per hændelse, som skal bekræftes manuelt.

Menneskelig overvågning:

  • Tilfælde med store konsekvenser eller tvetydige sager kan markeres til redaktionel gennemgang og faktatjek.

  • Regelmæssig kvalitetsgennemgang: Stikprøver af artikler og hændelser underkastes en månedlig audit. Enhver afvigelse udløser justeringer af prompts/modeller eller nøgleord.

Sporbarhed:

  • Alle statistikker kan spores tilbage til artikler og links i databasen for at sikre muligheden for at gennemføre audits.

Begrænsninger

Dækningsgrænser:

  • GCS-baseret registrering afhænger af nøgleord og CSE-konfiguration. Det er ikke alle hændelser, der registreres, især ikke uden for de konfigurerede sprog eller indhold med betalingsmur.

  • Nogle hjemmesider blokerer automatisk hentning, og derfor kan sådanne artikler mangle helt eller delvist.

LLM-specifikke risici:

  • På trods af deterministiske indstillinger og strukturerede prompts kan der opstå fejlklassificeringer, især ved sparsomme eller tvetydige tekster.

  • Hændelsesgruppering kan opdele den samme hændelse i flere hændelser eller, i grænsetilfælde, sammenflette lignende, men forskellige hændelser.

Sådan beregnes statistikker

Felter på artikelniveau stammer fra direkte udtræk og LLM-output (gemt per datapost).

Måledata på hændelsesniveau samler de enkelte artikler efter hændelses-id:

  • artikelantal, datoer for første/sidste visning

  • deduplikerede berørte organisationer og trusselsaktører

  • repræsentative titler og kanoniske linklister

Rapportstatistikkerne hentes fra disse lagrede tabeller, og hvert tal kan spores tilbage til hændelsesrækker og de underliggende artikeldataposter.

Dataenes omfang

De statistikker og indsigter, der henvises til i hele vores indhold om cybersikkerhed, stammer fra en kombination af:

  • Offentligt tilgængelige rapporter om cybersikkerhedshændelser

  • Mediedækning af bekræftede cyberhændelser

  • Brancherapporter og spørgeundersøgelser

  • Oplysninger fra myndigheder og tilsynsmyndigheder

Dataene viser offentligt observerbar og rapporteret aktivitet, ikke hele spektret af cyberhændelser, der finder sted på verdensplan. Mange cyberhændelser bliver aldrig offentliggjort, rapporteret eller dækket af medierne.

Datakilder og -opdagelse

Kildetyper

Artikler og rapporter om cybersikkerhed er indsamlet fra flere kildekategorier, herunder:

  • Mainstream- og teknologimedier.
    Disse omfatter for eksempel store internationale nyhedsbureauer og teknologiske fagpublikationer.

  • Autoritative og ekspertkilder inden for cybersikkerhed.
    Herunder offentlige myndigheder, forskningsorganisationer inden for cybersikkerhed og etablerede branchepublikationer.

  • Regionale og lokale nyhedsmedier.
    Dækker cybersikkerhedshændelser i Nordamerika, Europa, Asien-Stillehavsområdet og andre regioner.

  • Branche- og forskningsrapporter.
    Herunder årlige rapporter om databrud, trusselsrapporter, spørgeundersøgelser og økonomiske analyser.

Alle kilder er angivet på artikel- eller rapportniveau, hvor udgivelsesdatoen, mediet og den oprindelige URL er bibeholdt.

Opdagelsesprocessen

Opdagelsen af indhold sker via automatiserede søgeforespørgsler på baggrund af en vedligeholdt liste over nøgleord om cybersikkerhed. Nøgleord grupperes efter emne (f.eks.: databrud, ransomware, phishing, sårbarheder, regulative forhold).

Der foretages daglige søgninger for at indsamle nyligt publiceret indhold. Ved hver kørsel hentes kun de aktuelle data for at sikre, at datasættet stemmer overens med de aktuelle rapporter.

Indsamling og behandling af indhold

Hentning af artikler

Så snart der er fundet en kilde, hentes hele artiklens tekst ved hjælp af automatiserede værktøjer til dataudtræk. Hvis den primære dataudtrækning mislykkes, anvendes alternative metoder for at sikre en pålidelig dækning.

Deduplikering

Undgå dobbelttælling:

  • Identiske URL'er behandles kun én gang

  • Genudgivet eller syndikeret indhold deduplikeres på artikelniveau

  • Aggregeringen på hændelsesniveau (beskrevet nedenfor) reducerer antallet af dobbelttællinger mellem de forskellige medier i endnu højere grad

Relevansfiltrering og klassificering

Vurdering af relevans for cybersikkerhed

Alle artikler vurderes for at afgøre, om de er relevante for statistikken om cybersikkerhed. Artiklerne skal indeholde en meningsfuld beskrivelse eller analyse af en cybersikkerhedshændelse, en trussel, en sårbarhed eller en lovgivningsmæssig foranstaltning.

Klassificering af hændelsestype

Relevante artikler er klassificeret i overordnede kategorier, herunder:

  • Hændelse – Et bekræftet cyberangreb eller databrud, der allerede har fundet sted

  • Sårbarhed – Afsløring af et hul i sikkerheden, der kan udnyttes

  • Analyse af trusler – Rapporter om trusselsaktører, værktøjer, kampagner eller teknikker

  • Lovgivning/retlig – Love, håndhævelsestiltag, politiske ændringer eller retssager vedrørende cybersikkerhed

Denne klassificering sørger for, at statistikker om "hændelser", "databrud" eller "angreb" ikke forveksles med offentliggørelser af huller i sikkerheden eller generelle kommentarer.

Hændelsesgruppering (aggregering af artikler til hændelser)

Ofte omhandler flere artikler den samme underliggende cyberhændelse. Undgå dobbelttælling:

  • Artikler, der beskriver den samme hændelse, samles under én hændelse

  • Hændelserne tildeles faste interne identifikatorer

  • Artikler knyttes kun til eksisterende hændelser, hvis der er stor sandsynlighed for, at de beskriver den samme hændelse

Blandt de indikatorer, der anvendes til gruppering, findes berørte organisationer, trusselsaktører, tidslinjer og beskrivelser af hændelser.

Dataposter på hændelsesniveau indeholder:

  • Dato for første og sidste forekomst

  • Antal relaterede artikler

  • Berørte organisationer

  • Trusselsaktører, der henvises til

  • Kildelinks til bekræftelse

Brug af automatiseret analyse og kvalitetskontrol

Automatiseret klassificering

Til klassificering, dataudtræk og aggregering anvendes en struktureret, deterministisk sprogmodelanalyse. Alle automatiske output følger foruddefinerede skemaer for at sikre ensartethed.

Modellerne anvender deterministiske indstillinger for at mindske variabiliteten og risikoen for fejlfortolkninger.

Kvalitetssikring

Sørg for nøjagtighed:

  • Skemavalideringen sørger for, at kun korrekt strukturerede output tælles med

  • Der gennemføres regelmæssigt månedlige stikprøve- og kontrolprocedurer, herunder en gennemgang af nøjagtigheden, for at afdække eventuelle klassificeringsafvigelser. Denne gennemgang afslører ændringer i klassificeringen, som derefter danner grundlag for og nødvendiggør justeringer af modellen.

  • Tvetydige eller særligt alvorlige tilfælde markeres til manuel gennemgang

  • De aggregerede statistikker bibeholder sporbarheden til de enkelte artikler og hændelser

Sådan beregnes statistikker

Måledata på artikelniveau vs. på hændelsesniveau

Nogle statistikker er baseret på:

  • Antal på artikelniveau (f.eks. omfanget af mediedækning)

  • Antal på hændelsesniveau (f.eks. antal særskilte databrud eller hændelser)

Hvor det er muligt, foretrækkes måledata på hændelsesniveau for at undgå dobbelttælling.

Fortolkning af antal og hyppighed

Statistikker såsom "hændelser per dag" eller "overtrædelser per år" viser indberettede eller medieomtalte aktiviteter, ikke den samlede globale aktivitet.

Leverandørtelemetri, myndighedernes klagesystemer og økonomiske prognoser viser ofte markant højere tal, hvilket skyldes forskelle i dækningsomfanget og metoden. Disse forskelle er angivet, hvor det er relevant.

Begrænsninger og overvejelser

Selvom vi bestræber os på at sikre nøjagtighed og ensartethed, indeholder dataene visse begrænsninger:

  • Det er ikke alle hændelser, der offentliggøres eller anmeldes

  • Mediedækningen varierer afhængigt af region, sektor og hændelsens omfang

  • Nogle kilder begrænser adgangen

  • I særlige tilfælde kan der forekomme klassificeringsfejl

  • Tallene for økonomiske tab kan ændre sig, i takt med at undersøgelserne skrider frem

Statistikken bør derfor fortolkes som vejledende tal og ikke som udtømmende målinger.

Kildeindeks

Hver af de nedenfor anførte nummererede kilder svarer til en henvisning i hævet skrift, der anvendes på siden "Statistik om cybersikkerhed". Henvisningerne i hævet skrift fører direkte til den relevante kildehenvisning på denne side.

Kilde 1

Statista –
Cybercrime worldwide

Kilde 2

Identity Theft
Resource Center
(ITRC) – Weekly
Breach
Breakdown
Q3 2025

Kilde 3

Identity Theft
Resource Center
(ITRC) – H1 2025
Data Breach Analysis

Kilde 4

Verizon –
Data Breach
Investigations
Report (DBIR) 2025

Kilde 5

IBM –
Cost of a Data
Breach Report 2025

Kilde 6

South Korean
Ministry of
Science and
ICT – SK Telecom data
exfiltration
incident

Kilde 7

Aflac – June
2025 security
incident
regulatory filing

Kilde 8

HIPAA Journal –
Largest healthcare
data breaches of 2025

Kilde 9

California Attorney
General – Aflac
breach report
(SB24-616010)

Kilde 10

Iowa Attorney
General – Aflac
data breach notification

Kilde 11

Rhode Island
Attorney General –
Data‑breach
notifications

Kilde 12

Rhode Island
AG –
Data‑breach
notification

Kilde 13

Aflac Newsroom –
June 2025
security incident
update

Kilde 14

HIPAA Journal –
Aflac data
breach article

Kilde 15

Office of the
Australian Information
Commissioner –
Statement on Qantas
cyber incident

Kilde 16

Qantas – Information
for customers on
cyber incident

Kilde 17

Qantas Newsroom –
Update on Qantas
cyber incident
(9 July 2025)

Kilde 18

Michigan Attorney
General – Consumer
alert on data breaches
(TransUnion)

Kilde 19

Maine Attorney
General – Allianz Life
cyber incident notice

Kilde 20

California Attorney
General – Allianz data
breach report
(SB24-612078)

Kilde 21

University of
Maryland – Cyber
Security Statistics

Kilde 22

Microsoft Digital
Defense Report 2023

Kilde 23

WIRED – NotPetya
cyberattack article

Kilde 24

Reuters – UnitedHealth
tech unit hack article

Kilde 25

The Guardian – Jaguar
Land Rover hack article

Kilde 26

NBC News –
MGM Resorts
cyberattack cost article

Kilde 27

Delaware Department
of Technology &
Information –
eSecurityNews
(Oct 2023)

Kilde 28

Cybersecurity
Ventures – Global
ransomware damage
cost projection

Kilde 29

JumpCloud – Phishing
attack statistics

Kilde 30

Hornetsecurity – Email
threats in 2024

Kilde 31

Spearshield –
Click‑to‑credential
phishing study

Kilde 32

APWG – Phishing
Activity Trends Reports

Kilde 33

arXiv – Academic
password/credential
research (2025)

Kilde 34

DeepStrike – Password
statistics 2025

Kilde 35

NordPass – Top 200
Most Common
Passwords

Kilde 36

Financial Times –
Supply‑chain
cybersecurity article

Kilde 37

SecurityScorecard –
2025 Supply Chain
Cybersecurity Trends

Kilde 38

National Technology &
Security Coalition –
2025 Software Supply
Chain Security Report

Kilde 39

Palo Alto Networks –
State of Cloud
Native Security

Kilde 40

IBM – Threat
Intelligence Report

Kilde 41

Tenable –
Cloud Security
Risk Report 2025

Kilde 42

Cybersecurity
Ventures –
Cybersecurity Cost
Report

Kilde 43

Statista Market
Insights – Estimated
cost of cybercrime
worldwide 2018‑2029
(ResearchGate)

Kilde 44

Statista – Cost of
cybercrime worldwide
forecast

Kilde 45

FTC – Consumer
Sentinel Network Data
Book 2024

Kilde 46

FBI IC3 – 2024 Internet
Crime Report

Kilde 47

Kroll – Data Breach
Outlook 2025

Kilde 48

IBM – Cost of a Data
Breach 2024: Financial
Industry

Kilde 49

SailPoint – 2024
State of Identity
Security in Financial
Services

Kilde 50

DeepStrike –
Healthcare data
breach statistics 2025

Kilde 51

Proofpoint &
Ponemon – Healthcare
Cybersecurity Report

Kilde 52

Check Point –
Cyber Security
Report 2025

Kilde 53

Thales – 2024
Data Threat Report:
Critical Infrastructure
Edition

Kilde 54

Cyfirma – Energy &
Utilities industry report

Kilde 55

World Economic
Forum – Global
Cybersecurity Outlook
2025

Kilde 56

DeepStrike – Cyber
attacks on small
businesses

Kilde 57

Devolutions – State of
IT Security Report 2025

Kilde 58

TotalAssure –
Small business
cybersecurity statistics
2025

Kilde 59

Cisco – Cybersecurity
Readiness Index 2025

Kilde 60

IANS Research –
Security budgets
press release (2024)

Kilde 61

Munich Re –
Cyber insurance risks
and trends 2025

Kilde 62

Gartner – 2025
information security
spending forecast

Kilde 63

Forrester – 2024
Cybersecurity
Benchmarks (Global)

Kilde 64

Ivanti – State of
Cybersecurity Report

Kilde 65

U.S. Department of
Homeland Security –
FY 2025 Budget in Brief

Kilde 66

U.S. Department of
Defense – CYBERCOM
Budget Justification

Kilde 67

Google Cloud –
Cybersecurity forecast

Kilde 68

Gartner – Generative AI
attack survey
(Sep 22 2025)

Kilde 69

Splashtop – Top
cybersecurity trends
and predictions
for 2026

Kilde 70

ENISA – Threat
Landscape 2024