Statistikk om nettsikkerhet:
Metode og kilder
Formålet med denne siden
Denne siden forklarer hvordan nettsikkerhetsstatistikken som presenteres på nettsikkerhetsstatistikken vår samles inn, behandles og tolkes, og gir full åpenhet om datakildene det refereres til. Hovedsiden for nettsikkerhetsstatistikk presenterer oppsummerte funn og forskningsinnsikt fra NordVPN.
Datakilder og kildehenvisninger
Kildeoppdagelse utføres via Google Custom Search API (GCS) ved hjelp av flere egendefinerte søkemotorer (CSE-er) som er konfigurert for:
mediekanaler: 44 vanlige og teknologiske mediekilder (f.eks. BBC, CNN, The New York Times, WSJ, FT, Reuters, Bloomberg, TechCrunch, Wired, Ars Technica, Time, Forbes).
autoritative nettsteder og referansesider: 25 bransje- og ekspertkilder (f.eks. CISA, KrebsOnSecurity, The Hacker News, Dark Reading, BleepingComputer, SecurityWeek, Infosecurity Magazine).
lokale nyheter: Over 100 regionale og nasjonale nyhetskilder i APAC, EMEA og Amerika (f.eks. Channel NewsAsia, CSA.gov.sg, Zaobao; HK01, unwire.hk; Japan Times, NISC, JPCERT, ITMedia).
ubegrenset/generelt.
Søkeforespørsler styres av søkeord fra en vedlikeholdt søkeordliste som grupperer termer etter kategori.
Alle poster inkluderer eksplisitt tillatelse:
Opprinnelig artikkellenke
Mediekanal (domene hentet fra nettadressen)
Publiseringsdato og innsamlingsdato
Vi sammenstiller informasjon fra mange kilder for statistikk og hendelsesaggregering. Hver statistikk er avledet fra dokumentasjon på artikkelnivå som er lagret med koblinger.
Henting av innhold og hyppighet for innsamling
Henter fulltekstinnhold fra oppdagede lenker med:
Hovedside: NewsPlease
Reserve: direkte HTML-nedlasting med forsterket forespørselssesjon og trafilatura-ekstraksjon.
Tidsavbrudd, nye forsøk, TLS-fallback og referer-overskrifter brukes for å redusere midlertidige feil.
Publiseringsdato og tittel er hentet fra uttrekksverktøyet når den er tilgjengelig; datoparsering er normalisert til kun dato.
Daglige kjøringer henter innhold fra det siste døgnet.
Funksjonsuttrekking
Uttrukne felt inkluderer:
Mediekanal (fra URL)
Første avsnitt (første 3–5 setninger)
Nøkkelordfunksjoner: totalt antall forekomster i teksten, forekomst i tittelen, setninger som inneholder primære søkeord, og forekomst av nøkkelord fra den vedlikeholdte listen
Antall ord
LLM-relevansvurdering
Hver artikkel evalueres av en LLM med en deterministisk innstilling (temperatur 0) og en begrenset ledetekst som krever eksplisitte, strukturerte utdata:
1. Om artikkelen er relevant for cyberhendelser
2. Hvis den er relevant, tilordnes en hendelsestype på høyt nivå:
Hendelse: Et bekreftet nettangrep eller brudd har allerede funnet sted (f.eks. distribusjon av løsepengevirus, dataeksfiltrering, DDoS, kompromittering av systemet).
Sårbarhet: Oppdagelse eller avsløring av en sikkerhetsfeil i programvare/maskinvare/systemer som kan utnyttes (potensiell risiko i stedet for bekreftet utnyttelse).
Trusselinformasjon: Rapportering om trusselaktører, verktøy, TTP-er og kampanjer – med fokus på «hvem/hvordan», ikke på en bestemt hendelse som rammer et offer.
Regulatorisk/juridisk: Lover, forskrifter, håndhevelsestiltak, rettsavgjørelser eller store endringer i retningslinjene som påvirker nettsikkerhetsforpliktelser.
Artikkeltype og kategorisering
Relevante artikler kategoriseres via strukturerte taksonomibaserte ledetekster (primær: angrepsstatus, aktivitetstype, regulatorisk/juridisk; sekundær: påvirkningsberegninger/klasse, tekniske spesifikasjoner, sektorer, geografi, størrelse, omtrentlig skade).
Hendelsesgruppering (aggregering av artikkel til hendelse)
Mål: gruppere artikler som beskriver den samme underliggende hendelsen i én enkelt «hendelse».
Metode:
Hent eksisterende hendelser fra databasen for å gi kontekst (titler, berørte kjente organisasjoner, trusselaktører, koblinger).
For hver kandidatartikkel (der artikkeltype = enkel hendelse) sammenligner LLM-artikkeldetaljer med grupper av eksisterende hendelser og enten:
1. Tilordner en eksisterende hendelses-ID når det er et treff med høy konfisens, eller
2. Oppretter en ny hendelse på annen måte.
Ledetekster legger vekt på høy presisjon: koble kun til en eksisterende hendelse når du er svært sikker. Signaler fra berørte organisasjoner og trusselaktører behandles som sterke indikatorer.
Aktivitetene opprettholder aggregerte felt: dato for første og siste observasjon, antall artikler, berørte organisasjoner, trusselaktører, titler, koblinger.
Nøyaktighet og kvalitetssikring
Determinisme og begrensninger:
LLM-temperatur satt til 0 for å maksimere determinisme og redusere hallusinasjoner.
Begrensede ledetekster krever eksplisitte felt og JSON-utdata; tolking håndhever skjema.
Artikler uten innhold (manglende tittel/tekst) avvises tidlig.
LLM-styrte, skjemavaliderte beregninger:
Alle metrikkfeltene produseres av deterministiske LLM-kjøringer (temperatur 0) i henhold til strenge, dokumenterte retningslinjer og JSON-skjemaer. Kun skjemakompatible utdata telles, med periodisk menneskelig kvalitetssikring for å kalibrere og forhindre avvik.
Klassifisering av hendelse/artikkel for presisjonsfiltrering:
Klassifisering etter hendelsestype og artikkelens fokus fungerer som en streng relevansport, og filtrerer bort innhold som er utenfor emnet, har lav signalstyrke eller er i oppsummeringsstil. Dette fokuset på rapportering av enkelthendelser reduserer støy og forbedrer målbar datasettpresisjon og -nøyaktighet.
Validering fra flere kilder:
Hendelsesklustering refererer til tidligere lagret hendelseskontekst; uoverensstemmelser reduserer sjansen for feilaktige sammenslåinger.
Aggregeringer inkluderer listen over kildelenker per hendelse for manuell verifisering.
Menneskelig innblanding:
Saker med stor innvirkning eller som er tvetydige, kan flagges for redaksjonell gjennomgang og faktasjekk.
Regelmessige QA-gjennomganger: Utvalgte artikler og hendelser revideres månedlig med presisjonsgjennomgang. Eventuelle avvik fører til justeringer av ledetekst/modell eller søkeord.
Sporbarhet:
Hver statistikk kan spores til artikler og koblinger i databasen for revisjonssporbarhet.
Begrensninger
Dekningsgrenser:
GCS-basert oppdagelse avhenger av søkeord og CSE-konfigurasjon. Ikke alle hendelser registreres, spesielt utenfor konfigurerte språk eller betalingsbelagt innhold.
Noen nettsteder blokkerer automatisk henting; slike artikler kan være delvis eller helt manglende.
LLM-spesifikke risikoer:
Til tross for deterministiske innstillinger og strukturerte ledetekster, kan feilklassifisering forekomme, spesielt med sparsomme eller tvetydige tekster.
Gruppering av hendelser kan dele samme hendelse inn i flere hendelser eller slå sammen lignende, men forskjellige hendelser i grensetilfeller.
Slik beregnes statistikk
Felt på artikkelnivå utledes fra direkte ekstraksjon og LLM-utdata (lagret per post).
Målinger på hendelsesnivå aggregerer underordnede artikler etter event_id:
antall artikler, første/siste sett-datoer
dedupliserte berørte organisasjoner og trusselaktører
representative titler og standardiserte lenkelister
Rapportstatistikk trekkes fra disse lagrede tabellene; hver figur kan spores tilbake til hendelsesrader og underliggende artikkelposter.
Omfanget av dataene
Statistikken og innsikten som refereres til i nettsikkerhetsinnholdet vårt, er hentet fra en kombinasjon av:
Offentlig tilgjengelig rapportering av hendelser som berører nettsikkerhet
Mediedekning av bekreftede cyberhendelser
Bransjerapporter og undersøkelser
Offentlige og regulatoriske opplysninger
Dataene gjenspeiler offentlig observerbar og rapportert aktivitet, ikke hele universet av alle cyberhendelser som forekommer globalt. Mange cyberhendelser blir aldri avslørt, rapportert eller dekket av media.
Datakilder og kartlegging
Kildetyper
Artikler og rapporter om nettsikkerhet samles inn fra flere kildekategorier, blant annet:
Tradisjonelle medier og teknologimedier.
Eksempler inkluderer store internasjonale nyhetsorganisasjoner og teknologipublikasjoner.Autoritative og ekspertkilder for nettsikkerhet.
Inkludert offentlige etater, nettsikkerhetsforskningsorganisasjoner og etablerte industripublikasjoner.Regionale og lokale nyhetskanaler.
Dekker hendelser som berører nettsikkerhet i Nord-Amerika, Europa, Asia-Stillehavsområdet og andre regioner.Bransje- og forskningsrapporter.
Inkludert årlige bruddrapporter, trussellandskapsrapporter, undersøkelser og økonomiske analyser.
Hver kilde tilskrives på artikkel- eller rapportnivå, med bevarte utgivelsesdatoer, mediekilder og opprinnelige nettadresser.
Oppdagelsesprosess
Innhentingsprosess for innhold utføres ved hjelp av automatiserte søk basert på en liste over vedlikeholdte søkeord for nettsikkerhet. Søkeord er gruppert etter emne (for eksempel: datainnbrudd, løsepengevirus, phishing, sårbarheter, regulering).
Søk kjøres daglig for å fange opp nylig publisert innhold. Hver kjøring spør bare etter nylig materiale, slik at datasettet gjenspeiler gjeldende rapportering.
Innsamling og behandling av innhold
Artikkelhenting
Når en kilde er oppdaget, hentes hele artikkelteksten ved hjelp av automatiserte uttrekkingsverktøy. Der primært uttrekk mislykkes, brukes reservemetoder for å sikre robust dekning.
Rensing av duplikater
For å unngå dobbel telling:
Identiske nettadresser behandles bare én gang
Gjenpublisert eller syndikert innhold blir renset for duplikater på artikkelnivå
Aggregering på hendelsesnivå (beskrevet nedenfor) reduserer ytterligere duplisering på tvers av kanaler
Relevansfiltrering og klassifisering
Vurdering av relevans for nettsikkerhet
Hver artikkel evalueres for å avgjøre om den er relevant for nettsikkerhetsstatistikk. Artikler må beskrive eller analysere en nettsikkerhetshendelse, trussel, sårbarhet eller regulatoriske tiltak på en meningsfull måte.
Klassifisering av aktivitetstype
Relevante artikler er klassifisert i kategorier på høyt nivå, inkludert:
Hendelse – Et bekreftet nettangrep eller brudd som allerede har funnet sted
Sårbarhet – Avsløring av en sikkerhetssvakhet som kan utnyttes
Trusselinformasjon – Rapportering om trusselaktører, verktøy, kampanjer eller teknikker
Regulatorisk/juridisk – Lover, håndhevelseshandlinger, policyendringer eller rettssaker relatert til nettsikkerhet
Denne klassifiseringen sikrer at statistikk som refererer til «hendelser», «brudd» eller «angrep» ikke blandes sammen med avsløringer om sårbarhet eller generelle kommentarer.
Hendelsesgruppering (aggregering av artikkel til hendelse)
Det hender ofte at flere artikler omhandler den samme underliggende cybersikkerhetshendelsen. For å forhindre overtelling:
Artikler som beskriver samme hendelse er gruppert i én hendelse
Hendelser er tildelt stabile interne identifikatorer
Artikler er bare knyttet til eksisterende hendelser når det er høy grad av sikkerhet for at de beskriver samme forekomst
Indikatorer som brukes for gruppering inkluderer berørte organisasjoner, trusselaktører, tidslinjer og hendelsesbeskrivelser.
Registreringer på hendelsesnivå inneholder:
datoer for første og siste opptreden
antall relaterte artikler
berørte organisasjoner
refererte trusselaktører
kildekoblinger for verifisering
Bruk av automatiserte analyser og kvalitetskontroller
Automatisk klassifisering
Strukturert, deterministisk analyse med språkmodeller brukes til klassifisering, uttrekking og aggregering. Alle automatiske utdata følger forhåndsdefinerte skjemaer for å sikre konsistens.
Modellene opererer med deterministiske innstillinger for å redusere variabilitet og hallusinasjonsrisiko.
Kvalitetssikring
For å opprettholde nøyaktigheten:
Skjemavalidering sikrer at bare riktig strukturerte utdata telles
Regelmessige månedlige prøvetakings- og gjennomgangsprosedyrer, inkludert en presisjonsgjennomgang, utføres for å oppdage klassifiseringsdrift. Denne gjennomgangen identifiserer endringer i klassifiseringen, som deretter informerer og nødvendiggjør justeringer av modellen.
Tvetydige saker eller saker med høy effekt er flagget for menneskelig gjennomgang
Aggregert statistikk beholder sporbarhet til individuelle artikler og hendelser
Slik beregnes statistikk
Beregninger på artikkelnivå kontra hendelsesnivå
Noen statistikker er basert på:
Antall på artikkelnivå (f.eks. omfanget av mediedekning)
Antall på hendelsesnivå (f.eks. antall forskjellige brudd eller hendelser)
Der det er aktuelt, foretrekkes beregninger på hendelsesnivå for å redusere duplisering.
Tolkning av antall og hyppigheter
Statistikk som «hendelser per dag» eller «brudd per år» gjenspeiler rapporterte eller medieomtalte hendelser, ikke den totale globale aktiviteten.
Leverandørtelemetri, offentlige klagesystemer og økonomiske fremskrivninger rapporterer ofte betydelig høyere volumer på grunn av forskjeller i omfang og metodikk. Disse forskjellene noteres der det er relevant.
Begrensninger og hensyn
Selv om det legges vekt på å sikre nøyaktighet og konsistens, har dataene iboende begrensninger:
Ikke alle hendelser offentliggjøres eller rapporteres
Mediedekning varierer etter region, sektor og hendelsesskala
Noen kilder begrenser tilgang
Klassifiseringsfeil kan oppstå i grensetilfeller
Økonomiske tapstall kan endres etter hvert som undersøkelser utvikler seg
Statistikk skal derfor tolkes som veiledende indikatorer, ikke uttømmende målinger.
Kildeindeks
Hver nummerert kilde nedenfor tilsvarer en henvisning i hevet skrift som brukes på siden for nettsikkerhetsstatistikk. Hevede referanser kobles direkte til den relevante kildeoppføringen på denne siden.
Kilde 1 Statista – |
|---|
Kilde 2 Identity Theft |
Kilde 3 Identity Theft |
Kilde 4 Verizon – |
Kilde 5 IBM – |
Kilde 6 South Korean |
Kilde 7 Aflac – June |
Kilde 8 HIPAA Journal – |
Kilde 9 California Attorney |
Kilde 10 Iowa Attorney |
Kilde 11 Rhode Island |
Kilde 12 Rhode Island |
Kilde 13 Aflac Newsroom – |
Kilde 14 HIPAA Journal – |
Kilde 15 Office of the |
Kilde 16 Qantas – Information |
Kilde 17 Qantas Newsroom – |
Kilde 18 Michigan Attorney |
Kilde 19 Maine Attorney |
Kilde 20 California Attorney |
Kilde 21 University of |
Kilde 22 Microsoft Digital |
Kilde 23 WIRED – NotPetya |
Kilde 24 Reuters – UnitedHealth |
Kilde 25 The Guardian – Jaguar |
Kilde 26 NBC News – |
Kilde 27 Delaware Department |
Kilde 28 Cybersecurity |
Kilde 29 JumpCloud – Phishing |
Kilde 30 Hornetsecurity – Email |
Kilde 31 Spearshield – |
Kilde 32 APWG – Phishing |
Kilde 33 arXiv – Academic |
Kilde 34 DeepStrike – Password |
Kilde 35 NordPass – Top 200 |
Kilde 36 Financial Times – |
Kilde 37 SecurityScorecard – |
Kilde 38 National Technology & |
Kilde 39 Palo Alto Networks – |
Kilde 40 IBM – Threat |
Kilde 41 Tenable – |
Kilde 42 Cybersecurity |
Kilde 43 Statista Market |
Kilde 44 Statista – Cost of |
Kilde 45 FTC – Consumer |
Kilde 46 FBI IC3 – 2024 Internet |
Kilde 47 Kroll – Data Breach |
Kilde 48 IBM – Cost of a Data |
Kilde 49 SailPoint – 2024 |
Kilde 50 DeepStrike – |
Kilde 51 Proofpoint & |
Kilde 52 Check Point – |
Kilde 53 Thales – 2024 |
Kilde 54 Cyfirma – Energy & |
Kilde 55 World Economic |
Kilde 56 DeepStrike – Cyber |
Kilde 57 Devolutions – State of |
Kilde 58 TotalAssure – |
Kilde 59 Cisco – Cybersecurity |
Kilde 60 IANS Research – |
Kilde 61 Munich Re – |
Kilde 62 Gartner – 2025 |
Kilde 63 Forrester – 2024 |
Kilde 64 Ivanti – State of |
Kilde 65 U.S. Department of |
Kilde 66 U.S. Department of |
Kilde 67 Google Cloud – |
Kilde 68 Gartner – Generative AI |
Kilde 69 Splashtop – Top |
Kilde 70 ENISA – Threat |