Cybersäkerhetsstatistik:
Metod och källor
Syftet med denna sida
På denna sida förklarar vi hur statistiken på vår sida Cybersäkerhetsstatistik samlas in, bearbetas och tolkas, samt ger full insyn i de datakällor som ligger till grund för innehållet. På startsidan för cybersäkerhetsstatistiken presenteras en sammanfattning av resultaten och forskningsinsikter från NordVPN.
Datakällor och källhänvisning
Sökningen efter källor sker via Google Custom Search API (GCS) med hjälp av flera anpassade sökmotorer (CSE) som är konfigurerade för:
medier: 44 etablerade och teknikinriktade mediekällor (t.ex. BBC, CNN, The New York Times, WSJ, FT, Reuters, Bloomberg, TechCrunch, Wired, Ars Technica, Time och Forbes).
auktoritativa webbplatser och referenswebbplatser: 25 bransch- och expertkällor (t.ex. CISA, KrebsOnSecurity, The Hacker News, Dark Reading, BleepingComputer, SecurityWeek och Infosecurity Magazine).
lokala nyheter: över 100 regionala och nationella nyhetskällor i APAC, EMEA och Amerika (t.ex. Channel NewsAsia, CSA.gov.sg, Zaobao; HK01, unwire.hk; Japan Times, NISC, JPCERT och ITMedia).
obegränsat/allmänt innehåll.
Sökfrågorna baseras på nyckelord från en uppdaterad nyckelordslista där termerna är grupperade efter kategori.
Alla uppgifter har tydlig källhänvisning:
Länk till originalartikel
Mediekanal (domän hämtad från webbadressen)
Publiceringsdatum och insamlingsdatum
Vi sammanställer information från många källor för statistik och händelseaggregering. Varje statistisk uppgift baseras på bevis på artikelnivå som lagras tillsammans med länkar.
Hämtnings- och insamlingsfrekvens för innehåll
Fulltextinnehåll hämtas från identifierade länkar med:
Primärt: NewsPlease
Alternativt: direkt HTML-nedladdning via en "hardened requests session" och extrahering via Trafilatura.
Timeout, upprepade försök, TLS-fallback och referer-header används för att minska tillfälliga fel.
Publiceringsdatum och titel hämtas från extraheringsverktyget om tillgängliga. Datumparsing normaliseras till endast datum.
Förfrågningar görs dagligen på innehåll från det senaste dygnet.
Extraherat innehåll
Extraherade fält inkluderar:
Mediekanal (från webbadress)
Första stycket (första 3–5 meningarna)
Nyckelordsegenskaper: totalt antal i text, förekomst i rubrik, meningar som innehåller huvudnyckelordet samt förekomst av nyckelord från den uppdaterade listan
Antal ord
Relevansbedömning med LLM
Varje artikel utvärderas av en LLM med en deterministisk inställning (temperatur 0) och en begränsad prompt som kräver explicita och strukturerade utdata:
1. Om artikeln har relevans för cyberhändelser
2. Om den har relevans tilldelas en övergripande händelsetyp:
Incident: En bekräftad cyberattack eller ett intrång har redan inträffat (t.ex. spridning av utpressningsprogram, dataexfiltrering, DDoS-attack eller äventyrande av system).
Sårbarhet: Upptäckt eller avslöjande av en säkerhetsbrist i programvara, hårdvara eller system som kan utnyttjas (en potentiell risk snarare än en bekräftad attack).
Hotunderrättelse: Rapportering om hotaktörer, verktyg, TTP:er och kampanjer – med fokus på "vem" och "hur", inte på en specifik incident där någon drabbats.
Reglering och lagstiftning: Lagar, förordningar, tillsynsåtgärder, domstolsbeslut och större policyförändringar som påverkar skyldigheterna avseende cybersäkerhet.
Artikeltyp och kategorisering
Relevanta artiklar kategoriseras med strukturerade taxonomiska promptar (primära: attackstatus, händelsetyp, regulatorisk/juridisk; sekundära: mätvärden för påverkan/klass, tekniska detaljer, sektorer, geografi, storlek, uppskattad skada).
Händelsegruppering (artikel-till-händelse-aggregering)
Syfte: att gruppera artiklar som beskriver samma underliggande incident till en enda "händelse".
Metod:
Hämta befintliga händelser från databasen i sammanhangssyfte (rubriker, kända berörda organisationer, hotaktörer, länkar).
LLM-modellen jämför artikelinformation för varje möjlig artikel (där Artikeltyp = Enskild incident) med batcher av befintliga händelser och antingen:
1. tilldelar ett befintligt händelse-ID om det finns en mycket säker träff, eller
2. skapar en ny händelse.
Promptarna lägger stor vikt vid hög precision: länka endast till en befintlig händelse vid mycket säker träff. Berörda organisationer och signaler för hotaktörer betraktas som starka indikatorer.
Händelserna innehåller aggregerade fält: datum för när de först/senast visades, antal artiklar, berörda organisationer, hotaktörer, rubriker och länkar.
Noggrannhet och kvalitetssäkring
Determinism och begränsningar:
LLM-temperaturen är inställd på 0 för att maximera determinismen och minska hallucinationerna.
Begränsade promptar kräver explicita fält och JSON-utdata. Parsningen säkerställer att schemat följs.
Artiklar som saknar innehåll (saknar rubrik/text) avvisas i ett tidigt skede.
LLM-styrda, schemavaliderade mätvärden:
Alla fält med mätvärden genereras genom deterministiska LLM-körningar (temperatur 0) enligt strikta, dokumenterade riktlinjer och JSON-scheman. Endast utdata som överensstämmer med schemat räknas. Regelbundna manuella kvalitetskontroller genomförs för att kalibrera och förhindra avvikelser.
Klassificering av händelser och artiklar för precisionsfiltrering:
Klassificering efter händelsetyp och artikelfokus fungerar som en strikt relevansgräns som filtrerar bort innehåll som är irrelevant, har låg relevans eller är av sammanfattande karaktär. Detta fokus på rapportering av enskilda incidenter minskar bruset och förbättrar mätbart datasetens precision och korrekthet.
Validering från flera källor:
Händelsegrupperingen hänvisar till tidigare lagrad kontext. Avvikelser minskar risken för felaktiga sammanslagningar.
Aggregeringarna inkluderar listan över källänkar för varje händelse för manuell verifiering.
Mänsklig kontroll:
Fall med stor påverkan eller som är tvetydiga kan flaggas för manuell granskning och faktakontroll.
Regelbundna kvalitetsgranskningar: ett urval av artiklar och händelser granskas varje månad med precisionsgranskning. Eventuella avvikelser leder till justeringar av prompt/modell eller nyckelord.
Spårbarhet:
Varje statistisk uppgift kan härledas till artiklar och länkar i databasen för att möjliggöra granskning.
Begränsningar
Begränsningar i omfattning:
GCS-baserad upptäck är beroende av nyckelord och CSE-konfigurationen. Alla incidenter fångas inte upp, särskilt inte utanför de konfigurerade språken eller när innehållet publicerats bakom en betalvägg.
Vissa webbplatser blockerar automatiserad insamling. Sådana artiklar kan saknas helt eller delvis.
LLM-specifika risker:
Trots deterministiska inställningar och strukturerade promptar kan felklassificeringar förekomma, särskilt när det gäller knapphändiga eller tvetydiga texter.
Vid gränsfall kan händelsegruppering resultera i att samma incident delas upp i flera händelser eller att liknande men separata incidenter slås ihop.
Så fastställs statistiken
Fält på artikelnivå hämtas från direkt extrahering och LLM-utdata (lagrade per post).
Mätvärden på händelsenivå aggregerar artiklar som ingår efter händelse-ID:
antal artiklar, datum för första/sista visning
deduplicerade berörda organisationer och hotaktörer
representativa rubriker och listor över kanoniska länkar.
Rapportstatistiken hämtar från dessa lagrade tabeller och varje siffra kan spåras tillbaka till händelserader och underliggande artikelposter.
Dataomfattning
Den statistik och de insikter som används i vårt innehåll om cybersäkerhet hämtas från en kombination av:
offentligt tillgängliga rapporter om cybersäkerhetsincidenter
mediebevakning av bekräftade cyberincidenter
branschrapporter och -undersökningar
offentliggöranden från myndigheter och tillsynsmyndigheter.
Uppgifterna avser offentligt iakttagbar och rapporterad aktivitet, inte alla cyberincidenter som inträffar globalt. Många cyberhändelser offentliggörs aldrig, rapporteras inte och uppmärksammas inte heller i media.
Datakällor och dataidentifiering
Källtyper
Artiklar och rapporter kopplade till cybersäkerhet samlas in från flera olika källkategorier, bland annat:
Mainstream- och teknikmedia.
Exempel på detta är stora internationella nyhetsorganisationer och teknikpublikationer.Auktoritativa och sakkunniga källor inom cybersäkerhet.
Däribland myndigheter, organisationer inom cybersäkerhetsforskning och etablerade branschpublikationer.Regionala och lokala nyhetskanaler.
Som bevakar cybersäkerhetsincidenter i Nordamerika, Europa, Asien-Stillahavsområdet och andra regioner.Bransch- och forskningsrapporter.
Inklusive årliga rapporter om dataintrång, hotbildsanalyser, undersökningar och ekonomiska analyser.
Varje källa anges på artikel- eller rapportnivå, tillsammans med publiceringsdatum, kanal och den ursprungliga webbadressen.
Identifieringsprocess
Innehållsidentifieringen sker med hjälp av automatiserade sökfrågor baserade på en uppdaterad lista med nyckelord för cybersäkerhet. Nyckelorden är grupperade efter ämne (till exempel: dataintrång, utpressningsprogram, nätfiske, sårbarheter, lagstiftning).
Sökningar körs dagligen för att fånga upp nypublicerat innehåll. Varje fråga körs endast på det senaste materialet, vilket säkerställer att datasetet speglar den senaste rapporteringen.
Insamling och behandling av innehåll
Insamling av artiklar
När en källa har identifieras hämtas hela artikeltexten med hjälp av automatiska extraheringsverktyg. Om den primära extraktionen misslyckas används alternativa metoder för att säkerställa ett stabilt dataunderlag.
Deduplicering
För att undvika dubbelregistrering:
Identiska webbadresser behandlas endast en gång
Återpublicerat och syndikerat innehåll dedupliceras på artikelnivå
Aggregering på händelsenivå (som beskrivs nedan) minskar duplicering mellan olika kanaler ytterligare.
Relevansfiltrering och klassificering
Bedömning av cybersäkerhetsrelevans
Varje artikel utvärderas för att avgöra om den är relevant för cybersäkerhetsstatistik. Artiklarna måste på ett meningsfullt sätt beskriva eller analysera en händelse, ett hot, en sårbarhet eller en regulatorisk åtgärd med koppling till cybersäkerhet.
Klassificering av händelsetyper
Relevanta artiklar delas in i övergripande kategorier, bland annat:
Incident: En bekräftad cyberattack eller ett dataintrång som redan har inträffat.
Sårbarhet: Avslöjande av en säkerhetsbrist som kan utnyttjas.
Hotunderrättelse: Rapportering om hotaktörer, verktyg, kampanjer eller tekniker.
Lagstiftning/juridik: Lagar, tillsynsåtgärder, policyändringar och rättsliga förfaranden som rör cybersäkerhet.
Dessa klassificeringar säkerställer att statistik som avser "incidenter", "dataintrång" och "attacker" inte blandas ihop med sårbarhetsrapporter eller allmänna kommentarer.
Händelsegruppering (artikel-till-händelse-aggregering)
Flera artiklar rapporterar ofta om samma cyberincident. För att undvika att de räknas fler gånger:
Artiklar som beskriver samma incident grupperas till en enda händelse.
Händelserna tilldelas fasta interna identifierare.
Artiklar kopplas endast till befintliga händelser när det är mycket säkert att de beskriver samma händelse.
Indikatorer som används för gruppering omfattar berörda organisationer, hotaktörer, tidsperioder och beskrivningar av incidenter.
Uppgifter på händelsenivå innehåller:
Datum för första och sista förekomsten
Antal relaterade artiklar
Berörda organisationer
Nämnda hotaktörer
Länkar till källor för verifiering.
Användning av automatiserad analys och kvalitetskontroller
Automatiserad klassificering
Strukturerad och deterministisk språkmodell-analys används för klassificering, extrahering och aggregering. Alla automatiserade utdata följer fördefinierade scheman för att säkerställa konsekvens.
Modellerna använder deterministiska inställningar för att minska variation och risken för hallucinationer.
Kvalitetssäkring
För att säkerställa precision:
Schemavalideringen säkerställer att endast korrekt strukturerade utdata räknas.
Regelbundna månatliga stickprov och granskningar, inklusive en precisionsgranskning, genomförs för att upptäcka avvikelser i klassificeringen. Denna granskning identifierar förändringar i klassificeringen, vilket i sin tur ligger till grund för nödvändiga justeringar av modellen.
Fall med stor inverkan eller som är tvetydiga flaggas för manuell granskning.
Aggregerad statistik kan fortfarande spåras till enskilda artiklar och händelser.
Så beräknas statistiken
Mätvärden på artikelnivå respektive händelsenivå
Vissa statistiska uppgifter baseras på:
Antal på artikelnivå (t.ex. mediebevakningens omfattning)
Antal på händelsenivå (t.ex. antal unika intrång eller incidenter)
Om tillämpligt föredras mätvärden på händelsenivå i syfte att minska duplicering.
Tolkning av antal och frekvenser
Statistik som "incidenter per dag" och "intrång per år" avser rapporterade och mediebevakade händelser, inte total global aktivitet.
Telemetridata hos leverantörer, anmälningssystem hos myndigheter och ekonomiska prognoser visar ofta betydligt högre volymer på grund av skillnader i omfattning och metodik. Dessa skillnader noteras där det är relevant.
Begränsningar och beaktanden
Även om vi strävar efter att säkerställa precision och konsekvens finns det inneboende databegränsningar:
Alla incidenter offentliggörs/rapporteras inte.
Mediebevakning varierar beroende på region, sektor och incidentens omfattning.
Vissa källor begränsar åtkomst.
Klassificeringsfel kan förekomma i gränsfall.
Uppskattade ekonomiska förluster kan ändras när utredningarna fortskrider.
Statistiken bör därför tolkas som vägledande indikatorer, inte uttömmande mätningar.
Källindex
Varje numrerad källa nedan motsvarar en referens i form av en referenssiffra som används på sidan Cybersäkerhetsstatistik. Referenssiffrorna länkar direkt till respektive källhänvisningar på denna sida.
Källa 1 Statista – |
|---|
Källa 2 Identity Theft |
Källa 3 Identity Theft |
Källa 4 Verizon – |
Källa 5 IBM – |
Källa 6 South Korean |
Källa 7 Aflac – June |
Källa 8 HIPAA Journal – |
Källa 9 California Attorney |
Källa 10 Iowa Attorney |
Källa 11 Rhode Island |
Källa 12 Rhode Island |
Källa 13 Aflac Newsroom – |
Källa 14 HIPAA Journal – |
Källa 15 Office of the |
Källa 16 Qantas – Information |
Källa 17 Qantas Newsroom – |
Källa 18 Michigan Attorney |
Källa 19 Maine Attorney |
Källa 20 California Attorney |
Källa 21 University of |
Källa 22 Microsoft Digital |
Källa 23 WIRED – NotPetya |
Källa 24 Reuters – UnitedHealth |
Källa 25 The Guardian – Jaguar |
Källa 26 NBC News – |
Källa 27 Delaware Department |
Källa 28 Cybersecurity |
Källa 29 JumpCloud – Phishing |
Källa 30 Hornetsecurity – Email |
Källa 31 Spearshield – |
Källa 32 APWG – Phishing |
Källa 33 arXiv – Academic |
Källa 34 DeepStrike – Password |
Källa 35 NordPass – Top 200 |
Källa 36 Financial Times – |
Källa 37 SecurityScorecard – |
Källa 38 National Technology & |
Källa 39 Palo Alto Networks – |
Källa 40 IBM – Threat |
Källa 41 Tenable – |
Källa 42 Cybersecurity |
Källa 43 Statista Market |
Källa 44 Statista – Cost of |
Källa 45 FTC – Consumer |
Källa 46 FBI IC3 – 2024 Internet |
Källa 47 Kroll – Data Breach |
Källa 48 IBM – Cost of a Data |
Källa 49 SailPoint – 2024 |
Källa 50 DeepStrike – |
Källa 51 Proofpoint & |
Källa 52 Check Point – |
Källa 53 Thales – 2024 |
Källa 54 Cyfirma – Energy & |
Källa 55 World Economic |
Källa 56 DeepStrike – Cyber |
Källa 57 Devolutions – State of |
Källa 58 TotalAssure – |
Källa 59 Cisco – Cybersecurity |
Källa 60 IANS Research – |
Källa 61 Munich Re – |
Källa 62 Gartner – 2025 |
Källa 63 Forrester – 2024 |
Källa 64 Ivanti – State of |
Källa 65 U.S. Department of |
Källa 66 U.S. Department of |
Källa 67 Google Cloud – |
Källa 68 Gartner – Generative AI |
Källa 69 Splashtop – Top |
Källa 70 ENISA – Threat |