Statistik om cybersikkerhed:
Metode og kilder
Formålet med denne side
Denne side beskriver, hvordan de data, der præsenteres på vores side "Statistik om cybersikkerhed", indsamles, behandles og fortolkes, og giver fuld gennemsigtighed hvad angår de anvendte datakilder. På hovedsiden "Statistik om cybersikkerhed" finder du sammenfattede resultater og konklusioner fra NordVPN's undersøgelser.
Datakilder og kildeangivelse
Kildesøgningen foregår via Google Custom Search API (GCS) ved hjælp af flere Custom Search Engines (CSE'er), der er konfigureret til følgende:
medier: 44 mainstream- og tech-mediekilder (f.eks. BBC, CNN, The New York Times, WSJ, FT, Reuters, Bloomberg, TechCrunch, Wired, Ars Technica, Time, Forbes).
autoritative hjemmesider/referencehjemmesider: 25 branche- og ekspertkilder (f.eks. CISA, KrebsOnSecurity, The Hacker News, Dark Reading, BleepingComputer, SecurityWeek, Infosecurity Magazine).
lokale nyheder: Mere end 100 regionale og nationale medier i APAC, EMEA og Nord- og Sydamerika (f.eks. Channel NewsAsia, CSA.gov.sg, Zaobao; HK01, unwire.hk; Japan Times, NISC, JPCERT, ITMedia).
ubegrænset/generelt.
Forespørgslerne er baseret på en vedligeholdt nøgleordsliste, hvor termerne er organiseret efter kategori.
Alle dataene indeholder en tydelig henvisning til kilden:
Link til den originale artikel
Medievirksomhed (domæne hentet fra URL'en)
Udgivelsesdato og indsamlingsdato
Vi sammenfatter oplysninger fra mange kilder til statistik og aggregering af hændelser. Hver statistik stammer fra dokumentation på artikelniveau, der er gemt med links.
Hyppighed af opdatering og indsamling af indhold
Henter den fulde tekst fra de fundne links med:
Primær: NewsPlease
Fallback: direkte download af HTML-koden ved hjælp af en forstærket Requests-session og udtrækning af teksten ved hjælp af Trafilatura-metoden.
Timeouts, gentagelser, TLS-fallbacks og referer-headers bruges til at reducere forbigående fejl.
Udgivelsesdatoen og titlen er hentet fra udtrækkerprogrammet, hvis det er tilgængeligt, og dataanalysen er standardiseret til kun at omfatte datoen.
Daglige kørsler forespørger efter indhold fra den seneste dag.
Udtrækning af funktioner
De udtrukne felter omfatter:
Medievirksomhed (fra URL)
Første afsnit (de første 3-5 sætninger)
Nøgleordskarakteristika: Samlet antal i teksten, forekomster i titlen, sætninger med seed-nøgleordet og forekomster af nøgleord fra den vedligeholdte liste
Antal ord
Vurdering af LLM's relevans
Hver artikel evalueres af en LLM med en deterministisk indstilling (temperatur 0) og en begrænset prompt, der kræver eksplicitte, strukturerede output:
1. Om artiklen er relevant for cyberhændelser
2. Hvis det er relevant, tildeles en overordnet hændelsestype:
Hændelse: Et bekræftet cyberangreb eller databrud har allerede fundet sted (f.eks. spredning af ransomware, eksfiltrering af data, DDoS-angreb, systemkompromittering).
Sårbarhed: Opdagelse eller afsløring af et hul i sikkerheden i software/hardware/systemer, som kan udnyttes (potentiel risiko snarere end bekræftet udnyttelse).
Analyse af trusler: Rapporter om trusselsaktører, værktøjer, TTP'er og kampagner – der lægges vægt på "hvem/hvordan", ikke på en konkret hændelse med et offer.
Lovgivning/retlig: Love, bestemmelser, håndhævelsestiltag, domstolsafgørelser eller større politiske ændringer, der påvirker krav til cybersikkerhed.
Artikeltype og kategorisering
De relevante artikler kategoriseres via strukturerede prompts til taksonomien (primært: angrebsstatus, hændelsestype, lovgivning/retlig; sekundært: konsekvensmåledata/-klasse, tekniske detaljer, sektorer, geografi, størrelse, anslået skade).
Hændelsesgruppering (aggregering af artikler til hændelser)
Mål: Gruppere artikler, der beskriver den samme underliggende hændelse, i en enkelt "hændelse".
Metode:
Hent eksisterende hændelser fra databasen for at give kontekstuelle oplysninger (titel, kendte berørte organisationer, trusselsaktører, links).
For hver kandidatartikel, hvis artikeltype er "Single Incident", sammenligner LLM detaljerne i artiklen med grupper af eksisterende hændelser og træffer derefter en beslutning:
1. Tildeler et eksisterende hændelses-id, hvis der foreligger et match med stor sandsynlighed, eller
2. Opretter ellers en ny hændelse.
Disse prompts lægger vægt på høj nøjagtighed: Du bør kun linke til en eksisterende hændelse, hvis det ikke er forbundet med ricisi. Den eller de berørte organisationer og signaler om trusselsaktører betragtes som stærke indikatorer.
Hændelser indeholder aggregerede felter: datoer for første/sidste forekomst, antal artikler, berørte organisationer, trusselsaktører, titel, links.
Nøjagtighed og kvalitetssikring
Determinisme og begrænsninger:
LLM-temperaturen er sat til 0 for at maksimere determinismen og mindske fejlfortolkninger.
Begrænsede prompts kræver eksplicitte felter og JSON-output, og analysen håndhæver skemaet.
Artikler uden indhold (manglende titel/tekst) afvises tidligt.
LLM-styrede, skemavaliderede måledata:
Alle måledatafelter genereres af deterministiske LLM-kørsler (temperatur 0) i henhold til strenge, dokumenterede retningslinjer og JSON-skemaer, og det er kun skemakompatible output, som tælles med, og der udføres regelmæssigt manuel kvalitetssikring for at kalibrere og undgå afvigelser.
Klassificering af hændelser/artikler til præcisionsfiltrering:
Klassificeringen efter hændelsestype og artiklens fokus fungerer som et strengt relevansfilter, der sorterer indhold, der ligger uden for emnet, er mindre meningsfuldt eller er opsummeret fra. Ved at koncentrere sig om rapporter om enkelthændelser reduceres antallet af irrelevante hits, og kvaliteten af datasættet forbedres mærkbart.
Validering fra flere kilder:
Hændelsesgrupperingen refererer til den tidligere gemte hændelseskontekst, og uoverensstemmelser reducerer sandsynligheden for forkerte sammenfletninger.
Aggregeringerne indeholder en liste over kildelinks per hændelse, som skal bekræftes manuelt.
Menneskelig overvågning:
Tilfælde med store konsekvenser eller tvetydige sager kan markeres til redaktionel gennemgang og faktatjek.
Regelmæssig kvalitetsgennemgang: Stikprøver af artikler og hændelser underkastes en månedlig audit. Enhver afvigelse udløser justeringer af prompts/modeller eller nøgleord.
Sporbarhed:
Alle statistikker kan spores tilbage til artikler og links i databasen for at sikre muligheden for at gennemføre audits.
Begrænsninger
Dækningsgrænser:
GCS-baseret registrering afhænger af nøgleord og CSE-konfiguration. Det er ikke alle hændelser, der registreres, især ikke uden for de konfigurerede sprog eller indhold med betalingsmur.
Nogle hjemmesider blokerer automatisk hentning, og derfor kan sådanne artikler mangle helt eller delvist.
LLM-specifikke risici:
På trods af deterministiske indstillinger og strukturerede prompts kan der opstå fejlklassificeringer, især ved sparsomme eller tvetydige tekster.
Hændelsesgruppering kan opdele den samme hændelse i flere hændelser eller, i grænsetilfælde, sammenflette lignende, men forskellige hændelser.
Sådan beregnes statistikker
Felter på artikelniveau stammer fra direkte udtræk og LLM-output (gemt per datapost).
Måledata på hændelsesniveau samler de enkelte artikler efter hændelses-id:
artikelantal, datoer for første/sidste visning
deduplikerede berørte organisationer og trusselsaktører
repræsentative titler og kanoniske linklister
Rapportstatistikkerne hentes fra disse lagrede tabeller, og hvert tal kan spores tilbage til hændelsesrækker og de underliggende artikeldataposter.
Dataenes omfang
De statistikker og indsigter, der henvises til i hele vores indhold om cybersikkerhed, stammer fra en kombination af:
Offentligt tilgængelige rapporter om cybersikkerhedshændelser
Mediedækning af bekræftede cyberhændelser
Brancherapporter og spørgeundersøgelser
Oplysninger fra myndigheder og tilsynsmyndigheder
Dataene viser offentligt observerbar og rapporteret aktivitet, ikke hele spektret af cyberhændelser, der finder sted på verdensplan. Mange cyberhændelser bliver aldrig offentliggjort, rapporteret eller dækket af medierne.
Datakilder og -opdagelse
Kildetyper
Artikler og rapporter om cybersikkerhed er indsamlet fra flere kildekategorier, herunder:
Mainstream- og teknologimedier.
Disse omfatter for eksempel store internationale nyhedsbureauer og teknologiske fagpublikationer.Autoritative og ekspertkilder inden for cybersikkerhed.
Herunder offentlige myndigheder, forskningsorganisationer inden for cybersikkerhed og etablerede branchepublikationer.Regionale og lokale nyhedsmedier.
Dækker cybersikkerhedshændelser i Nordamerika, Europa, Asien-Stillehavsområdet og andre regioner.Branche- og forskningsrapporter.
Herunder årlige rapporter om databrud, trusselsrapporter, spørgeundersøgelser og økonomiske analyser.
Alle kilder er angivet på artikel- eller rapportniveau, hvor udgivelsesdatoen, mediet og den oprindelige URL er bibeholdt.
Opdagelsesprocessen
Opdagelsen af indhold sker via automatiserede søgeforespørgsler på baggrund af en vedligeholdt liste over nøgleord om cybersikkerhed. Nøgleord grupperes efter emne (f.eks.: databrud, ransomware, phishing, sårbarheder, regulative forhold).
Der foretages daglige søgninger for at indsamle nyligt publiceret indhold. Ved hver kørsel hentes kun de aktuelle data for at sikre, at datasættet stemmer overens med de aktuelle rapporter.
Indsamling og behandling af indhold
Hentning af artikler
Så snart der er fundet en kilde, hentes hele artiklens tekst ved hjælp af automatiserede værktøjer til dataudtræk. Hvis den primære dataudtrækning mislykkes, anvendes alternative metoder for at sikre en pålidelig dækning.
Deduplikering
Undgå dobbelttælling:
Identiske URL'er behandles kun én gang
Genudgivet eller syndikeret indhold deduplikeres på artikelniveau
Aggregeringen på hændelsesniveau (beskrevet nedenfor) reducerer antallet af dobbelttællinger mellem de forskellige medier i endnu højere grad
Relevansfiltrering og klassificering
Vurdering af relevans for cybersikkerhed
Alle artikler vurderes for at afgøre, om de er relevante for statistikken om cybersikkerhed. Artiklerne skal indeholde en meningsfuld beskrivelse eller analyse af en cybersikkerhedshændelse, en trussel, en sårbarhed eller en lovgivningsmæssig foranstaltning.
Klassificering af hændelsestype
Relevante artikler er klassificeret i overordnede kategorier, herunder:
Hændelse – Et bekræftet cyberangreb eller databrud, der allerede har fundet sted
Sårbarhed – Afsløring af et hul i sikkerheden, der kan udnyttes
Analyse af trusler – Rapporter om trusselsaktører, værktøjer, kampagner eller teknikker
Lovgivning/retlig – Love, håndhævelsestiltag, politiske ændringer eller retssager vedrørende cybersikkerhed
Denne klassificering sørger for, at statistikker om "hændelser", "databrud" eller "angreb" ikke forveksles med offentliggørelser af huller i sikkerheden eller generelle kommentarer.
Hændelsesgruppering (aggregering af artikler til hændelser)
Ofte omhandler flere artikler den samme underliggende cyberhændelse. Undgå dobbelttælling:
Artikler, der beskriver den samme hændelse, samles under én hændelse
Hændelserne tildeles faste interne identifikatorer
Artikler knyttes kun til eksisterende hændelser, hvis der er stor sandsynlighed for, at de beskriver den samme hændelse
Blandt de indikatorer, der anvendes til gruppering, findes berørte organisationer, trusselsaktører, tidslinjer og beskrivelser af hændelser.
Dataposter på hændelsesniveau indeholder:
Dato for første og sidste forekomst
Antal relaterede artikler
Berørte organisationer
Trusselsaktører, der henvises til
Kildelinks til bekræftelse
Brug af automatiseret analyse og kvalitetskontrol
Automatiseret klassificering
Til klassificering, dataudtræk og aggregering anvendes en struktureret, deterministisk sprogmodelanalyse. Alle automatiske output følger foruddefinerede skemaer for at sikre ensartethed.
Modellerne anvender deterministiske indstillinger for at mindske variabiliteten og risikoen for fejlfortolkninger.
Kvalitetssikring
Sørg for nøjagtighed:
Skemavalideringen sørger for, at kun korrekt strukturerede output tælles med
Der gennemføres regelmæssigt månedlige stikprøve- og kontrolprocedurer, herunder en gennemgang af nøjagtigheden, for at afdække eventuelle klassificeringsafvigelser. Denne gennemgang afslører ændringer i klassificeringen, som derefter danner grundlag for og nødvendiggør justeringer af modellen.
Tvetydige eller særligt alvorlige tilfælde markeres til manuel gennemgang
De aggregerede statistikker bibeholder sporbarheden til de enkelte artikler og hændelser
Sådan beregnes statistikker
Måledata på artikelniveau vs. på hændelsesniveau
Nogle statistikker er baseret på:
Antal på artikelniveau (f.eks. omfanget af mediedækning)
Antal på hændelsesniveau (f.eks. antal særskilte databrud eller hændelser)
Hvor det er muligt, foretrækkes måledata på hændelsesniveau for at undgå dobbelttælling.
Fortolkning af antal og hyppighed
Statistikker såsom "hændelser per dag" eller "overtrædelser per år" viser indberettede eller medieomtalte aktiviteter, ikke den samlede globale aktivitet.
Leverandørtelemetri, myndighedernes klagesystemer og økonomiske prognoser viser ofte markant højere tal, hvilket skyldes forskelle i dækningsomfanget og metoden. Disse forskelle er angivet, hvor det er relevant.
Begrænsninger og overvejelser
Selvom vi bestræber os på at sikre nøjagtighed og ensartethed, indeholder dataene visse begrænsninger:
Det er ikke alle hændelser, der offentliggøres eller anmeldes
Mediedækningen varierer afhængigt af region, sektor og hændelsens omfang
Nogle kilder begrænser adgangen
I særlige tilfælde kan der forekomme klassificeringsfejl
Tallene for økonomiske tab kan ændre sig, i takt med at undersøgelserne skrider frem
Statistikken bør derfor fortolkes som vejledende tal og ikke som udtømmende målinger.
Kildeindeks
Hver af de nedenfor anførte nummererede kilder svarer til en henvisning i hævet skrift, der anvendes på siden "Statistik om cybersikkerhed". Henvisningerne i hævet skrift fører direkte til den relevante kildehenvisning på denne side.
Kilde 1 Statista – |
|---|
Kilde 2 Identity Theft |
Kilde 3 Identity Theft |
Kilde 4 Verizon – |
Kilde 5 IBM – |
Kilde 6 South Korean |
Kilde 7 Aflac – June |
Kilde 8 HIPAA Journal – |
Kilde 9 California Attorney |
Kilde 10 Iowa Attorney |
Kilde 11 Rhode Island |
Kilde 12 Rhode Island |
Kilde 13 Aflac Newsroom – |
Kilde 14 HIPAA Journal – |
Kilde 15 Office of the |
Kilde 16 Qantas – Information |
Kilde 17 Qantas Newsroom – |
Kilde 18 Michigan Attorney |
Kilde 19 Maine Attorney |
Kilde 20 California Attorney |
Kilde 21 University of |
Kilde 22 Microsoft Digital |
Kilde 23 WIRED – NotPetya |
Kilde 24 Reuters – UnitedHealth |
Kilde 25 The Guardian – Jaguar |
Kilde 26 NBC News – |
Kilde 27 Delaware Department |
Kilde 28 Cybersecurity |
Kilde 29 JumpCloud – Phishing |
Kilde 30 Hornetsecurity – Email |
Kilde 31 Spearshield – |
Kilde 32 APWG – Phishing |
Kilde 33 arXiv – Academic |
Kilde 34 DeepStrike – Password |
Kilde 35 NordPass – Top 200 |
Kilde 36 Financial Times – |
Kilde 37 SecurityScorecard – |
Kilde 38 National Technology & |
Kilde 39 Palo Alto Networks – |
Kilde 40 IBM – Threat |
Kilde 41 Tenable – |
Kilde 42 Cybersecurity |
Kilde 43 Statista Market |
Kilde 44 Statista – Cost of |
Kilde 45 FTC – Consumer |
Kilde 46 FBI IC3 – 2024 Internet |
Kilde 47 Kroll – Data Breach |
Kilde 48 IBM – Cost of a Data |
Kilde 49 SailPoint – 2024 |
Kilde 50 DeepStrike – |
Kilde 51 Proofpoint & |
Kilde 52 Check Point – |
Kilde 53 Thales – 2024 |
Kilde 54 Cyfirma – Energy & |
Kilde 55 World Economic |
Kilde 56 DeepStrike – Cyber |
Kilde 57 Devolutions – State of |
Kilde 58 TotalAssure – |
Kilde 59 Cisco – Cybersecurity |
Kilde 60 IANS Research – |
Kilde 61 Munich Re – |
Kilde 62 Gartner – 2025 |
Kilde 63 Forrester – 2024 |
Kilde 64 Ivanti – State of |
Kilde 65 U.S. Department of |
Kilde 66 U.S. Department of |
Kilde 67 Google Cloud – |
Kilde 68 Gartner – Generative AI |
Kilde 69 Splashtop – Top |
Kilde 70 ENISA – Threat |