Statistikk om nettsikkerhet:
Metode og kilder

Formålet med denne siden

Denne siden forklarer hvordan nettsikkerhetsstatistikken som presenteres på nettsikkerhetsstatistikken vår samles inn, behandles og tolkes, og gir full åpenhet om datakildene det refereres til. Hovedsiden for nettsikkerhetsstatistikk presenterer oppsummerte funn og forskningsinnsikt fra NordVPN.

Datakilder og kildehenvisninger

Kildeoppdagelse utføres via Google Custom Search API (GCS) ved hjelp av flere egendefinerte søkemotorer (CSE-er) som er konfigurert for:

mediekanaler: 44 vanlige og teknologiske mediekilder (f.eks. BBC, CNN, The New York Times, WSJ, FT, Reuters, Bloomberg, TechCrunch, Wired, Ars Technica, Time, Forbes).
autoritative nettsteder og referansesider: 25 bransje- og ekspertkilder (f.eks. CISA, KrebsOnSecurity, The Hacker News, Dark Reading, BleepingComputer, SecurityWeek, Infosecurity Magazine).
lokale nyheter: Over 100 regionale og nasjonale nyhetskilder i APAC, EMEA og Amerika (f.eks. Channel NewsAsia, CSA.gov.sg, Zaobao; HK01, unwire.hk; Japan Times, NISC, JPCERT, ITMedia).
ubegrenset/generelt.

Søkeforespørsler styres av søkeord fra en vedlikeholdt søkeordliste som grupperer termer etter kategori.

Alle poster inkluderer eksplisitt tillatelse:

Opprinnelig artikkellenke
Mediekanal (domene hentet fra nettadressen)
Publiseringsdato og innsamlingsdato

Vi sammenstiller informasjon fra mange kilder for statistikk og hendelsesaggregering. Hver statistikk er avledet fra dokumentasjon på artikkelnivå som er lagret med koblinger.

Henting av innhold og hyppighet for innsamling

Henter fulltekstinnhold fra oppdagede lenker med:

Hovedside: NewsPlease
Reserve: direkte HTML-nedlasting med forsterket forespørselssesjon og trafilatura-ekstraksjon.

Tidsavbrudd, nye forsøk, TLS-fallback og referer-overskrifter brukes for å redusere midlertidige feil.

Publiseringsdato og tittel er hentet fra uttrekksverktøyet når den er tilgjengelig; datoparsering er normalisert til kun dato.

Daglige kjøringer henter innhold fra det siste døgnet.

Funksjonsuttrekking

Uttrukne felt inkluderer:

Mediekanal (fra URL)
Første avsnitt (første 3–5 setninger)
Nøkkelordfunksjoner: totalt antall forekomster i teksten, forekomst i tittelen, setninger som inneholder primære søkeord, og forekomst av nøkkelord fra den vedlikeholdte listen
Antall ord

LLM-relevansvurdering

Hver artikkel evalueres av en LLM med en deterministisk innstilling (temperatur 0) og en begrenset ledetekst som krever eksplisitte, strukturerte utdata:

1. Om artikkelen er relevant for cyberhendelser

2. Hvis den er relevant, tilordnes en hendelsestype på høyt nivå:

Hendelse: Et bekreftet nettangrep eller brudd har allerede funnet sted (f.eks. distribusjon av løsepengevirus, dataeksfiltrering, DDoS, kompromittering av systemet).
Sårbarhet: Oppdagelse eller avsløring av en sikkerhetsfeil i programvare/maskinvare/systemer som kan utnyttes (potensiell risiko i stedet for bekreftet utnyttelse).
Trusselinformasjon: Rapportering om trusselaktører, verktøy, TTP-er og kampanjer – med fokus på «hvem/hvordan», ikke på en bestemt hendelse som rammer et offer.
Regulatorisk/juridisk: Lover, forskrifter, håndhevelsestiltak, rettsavgjørelser eller store endringer i retningslinjene som påvirker nettsikkerhetsforpliktelser.

Artikkeltype og kategorisering

Relevante artikler kategoriseres via strukturerte taksonomibaserte ledetekster (primær: angrepsstatus, aktivitetstype, regulatorisk/juridisk; sekundær: påvirkningsberegninger/klasse, tekniske spesifikasjoner, sektorer, geografi, størrelse, omtrentlig skade).

Hendelsesgruppering (aggregering av artikkel til hendelse)

Mål: gruppere artikler som beskriver den samme underliggende hendelsen i én enkelt «hendelse».

Metode:

Hent eksisterende hendelser fra databasen for å gi kontekst (titler, berørte kjente organisasjoner, trusselaktører, koblinger).
For hver kandidatartikkel (der artikkeltype = enkel hendelse) sammenligner LLM-artikkeldetaljer med grupper av eksisterende hendelser og enten:

1. Tilordner en eksisterende hendelses-ID når det er et treff med høy konfisens, eller

2. Oppretter en ny hendelse på annen måte.

Ledetekster legger vekt på høy presisjon: koble kun til en eksisterende hendelse når du er svært sikker. Signaler fra berørte organisasjoner og trusselaktører behandles som sterke indikatorer.

Aktivitetene opprettholder aggregerte felt: dato for første og siste observasjon, antall artikler, berørte organisasjoner, trusselaktører, titler, koblinger.

Nøyaktighet og kvalitetssikring

Determinisme og begrensninger:

LLM-temperatur satt til 0 for å maksimere determinisme og redusere hallusinasjoner.
Begrensede ledetekster krever eksplisitte felt og JSON-utdata; tolking håndhever skjema.
Artikler uten innhold (manglende tittel/tekst) avvises tidlig.

LLM-styrte, skjemavaliderte beregninger:

Alle metrikkfeltene produseres av deterministiske LLM-kjøringer (temperatur 0) i henhold til strenge, dokumenterte retningslinjer og JSON-skjemaer. Kun skjemakompatible utdata telles, med periodisk menneskelig kvalitetssikring for å kalibrere og forhindre avvik.

Klassifisering av hendelse/artikkel for presisjonsfiltrering:

Klassifisering etter hendelsestype og artikkelens fokus fungerer som en streng relevansport, og filtrerer bort innhold som er utenfor emnet, har lav signalstyrke eller er i oppsummeringsstil. Dette fokuset på rapportering av enkelthendelser reduserer støy og forbedrer målbar datasettpresisjon og -nøyaktighet.

Validering fra flere kilder:

Hendelsesklustering refererer til tidligere lagret hendelseskontekst; uoverensstemmelser reduserer sjansen for feilaktige sammenslåinger.
Aggregeringer inkluderer listen over kildelenker per hendelse for manuell verifisering.

Menneskelig innblanding:

Saker med stor innvirkning eller som er tvetydige, kan flagges for redaksjonell gjennomgang og faktasjekk.
Regelmessige QA-gjennomganger: Utvalgte artikler og hendelser revideres månedlig med presisjonsgjennomgang. Eventuelle avvik fører til justeringer av ledetekst/modell eller søkeord.

Sporbarhet:

Hver statistikk kan spores til artikler og koblinger i databasen for revisjonssporbarhet.

Begrensninger

Dekningsgrenser:

GCS-basert oppdagelse avhenger av søkeord og CSE-konfigurasjon. Ikke alle hendelser registreres, spesielt utenfor konfigurerte språk eller betalingsbelagt innhold.
Noen nettsteder blokkerer automatisk henting; slike artikler kan være delvis eller helt manglende.

LLM-spesifikke risikoer:

Til tross for deterministiske innstillinger og strukturerte ledetekster, kan feilklassifisering forekomme, spesielt med sparsomme eller tvetydige tekster.
Gruppering av hendelser kan dele samme hendelse inn i flere hendelser eller slå sammen lignende, men forskjellige hendelser i grensetilfeller.

Slik beregnes statistikk

Felt på artikkelnivå utledes fra direkte ekstraksjon og LLM-utdata (lagret per post).

Målinger på hendelsesnivå aggregerer underordnede artikler etter event_id:

antall artikler, første/siste sett-datoer
dedupliserte berørte organisasjoner og trusselaktører
representative titler og standardiserte lenkelister

Rapportstatistikk trekkes fra disse lagrede tabellene; hver figur kan spores tilbake til hendelsesrader og underliggende artikkelposter.

Omfanget av dataene

Statistikken og innsikten som refereres til i nettsikkerhetsinnholdet vårt, er hentet fra en kombinasjon av:

Offentlig tilgjengelig rapportering av hendelser som berører nettsikkerhet
Mediedekning av bekreftede cyberhendelser
Bransjerapporter og undersøkelser
Offentlige og regulatoriske opplysninger

Dataene gjenspeiler offentlig observerbar og rapportert aktivitet, ikke hele universet av alle cyberhendelser som forekommer globalt. Mange cyberhendelser blir aldri avslørt, rapportert eller dekket av media.

Datakilder og kartlegging

Kildetyper

Artikler og rapporter om nettsikkerhet samles inn fra flere kildekategorier, blant annet:

Tradisjonelle medier og teknologimedier.
Eksempler inkluderer store internasjonale nyhetsorganisasjoner og teknologipublikasjoner.
Autoritative og ekspertkilder for nettsikkerhet.
Inkludert offentlige etater, nettsikkerhetsforskningsorganisasjoner og etablerte industripublikasjoner.
Regionale og lokale nyhetskanaler.
Dekker hendelser som berører nettsikkerhet i Nord-Amerika, Europa, Asia-Stillehavsområdet og andre regioner.
Bransje- og forskningsrapporter.
Inkludert årlige bruddrapporter, trussellandskapsrapporter, undersøkelser og økonomiske analyser.

Hver kilde tilskrives på artikkel- eller rapportnivå, med bevarte utgivelsesdatoer, mediekilder og opprinnelige nettadresser.

Oppdagelsesprosess

Innhentingsprosess for innhold utføres ved hjelp av automatiserte søk basert på en liste over vedlikeholdte søkeord for nettsikkerhet. Søkeord er gruppert etter emne (for eksempel: datainnbrudd, løsepengevirus, phishing, sårbarheter, regulering).

Søk kjøres daglig for å fange opp nylig publisert innhold. Hver kjøring spør bare etter nylig materiale, slik at datasettet gjenspeiler gjeldende rapportering.

Innsamling og behandling av innhold

Artikkelhenting

Når en kilde er oppdaget, hentes hele artikkelteksten ved hjelp av automatiserte uttrekkingsverktøy. Der primært uttrekk mislykkes, brukes reservemetoder for å sikre robust dekning.

Rensing av duplikater

For å unngå dobbel telling:

Identiske nettadresser behandles bare én gang
Gjenpublisert eller syndikert innhold blir renset for duplikater på artikkelnivå
Aggregering på hendelsesnivå (beskrevet nedenfor) reduserer ytterligere duplisering på tvers av kanaler

Relevansfiltrering og klassifisering

Vurdering av relevans for nettsikkerhet

Hver artikkel evalueres for å avgjøre om den er relevant for nettsikkerhetsstatistikk. Artikler må beskrive eller analysere en nettsikkerhetshendelse, trussel, sårbarhet eller regulatoriske tiltak på en meningsfull måte.

Klassifisering av aktivitetstype

Relevante artikler er klassifisert i kategorier på høyt nivå, inkludert:

Hendelse – Et bekreftet nettangrep eller brudd som allerede har funnet sted
Sårbarhet – Avsløring av en sikkerhetssvakhet som kan utnyttes
Trusselinformasjon – Rapportering om trusselaktører, verktøy, kampanjer eller teknikker
Regulatorisk/juridisk – Lover, håndhevelseshandlinger, policyendringer eller rettssaker relatert til nettsikkerhet

Denne klassifiseringen sikrer at statistikk som refererer til «hendelser», «brudd» eller «angrep» ikke blandes sammen med avsløringer om sårbarhet eller generelle kommentarer.

Hendelsesgruppering (aggregering av artikkel til hendelse)

Det hender ofte at flere artikler omhandler den samme underliggende cybersikkerhetshendelsen. For å forhindre overtelling:

Artikler som beskriver samme hendelse er gruppert i én hendelse
Hendelser er tildelt stabile interne identifikatorer
Artikler er bare knyttet til eksisterende hendelser når det er høy grad av sikkerhet for at de beskriver samme forekomst

Indikatorer som brukes for gruppering inkluderer berørte organisasjoner, trusselaktører, tidslinjer og hendelsesbeskrivelser.

Registreringer på hendelsesnivå inneholder:

datoer for første og siste opptreden
antall relaterte artikler
berørte organisasjoner
refererte trusselaktører
kildekoblinger for verifisering

Bruk av automatiserte analyser og kvalitetskontroller

Automatisk klassifisering

Strukturert, deterministisk analyse med språkmodeller brukes til klassifisering, uttrekking og aggregering. Alle automatiske utdata følger forhåndsdefinerte skjemaer for å sikre konsistens.

Modellene opererer med deterministiske innstillinger for å redusere variabilitet og hallusinasjonsrisiko.

Kvalitetssikring

For å opprettholde nøyaktigheten:

Skjemavalidering sikrer at bare riktig strukturerte utdata telles
Regelmessige månedlige prøvetakings- og gjennomgangsprosedyrer, inkludert en presisjonsgjennomgang, utføres for å oppdage klassifiseringsdrift. Denne gjennomgangen identifiserer endringer i klassifiseringen, som deretter informerer og nødvendiggjør justeringer av modellen.
Tvetydige saker eller saker med høy effekt er flagget for menneskelig gjennomgang
Aggregert statistikk beholder sporbarhet til individuelle artikler og hendelser

Slik beregnes statistikk

Beregninger på artikkelnivå kontra hendelsesnivå

Noen statistikker er basert på:

Antall på artikkelnivå (f.eks. omfanget av mediedekning)
Antall på hendelsesnivå (f.eks. antall forskjellige brudd eller hendelser)

Der det er aktuelt, foretrekkes beregninger på hendelsesnivå for å redusere duplisering.

Tolkning av antall og hyppigheter

Statistikk som «hendelser per dag» eller «brudd per år» gjenspeiler rapporterte eller medieomtalte hendelser, ikke den totale globale aktiviteten.

Leverandørtelemetri, offentlige klagesystemer og økonomiske fremskrivninger rapporterer ofte betydelig høyere volumer på grunn av forskjeller i omfang og metodikk. Disse forskjellene noteres der det er relevant.

Begrensninger og hensyn

Selv om det legges vekt på å sikre nøyaktighet og konsistens, har dataene iboende begrensninger:

Ikke alle hendelser offentliggjøres eller rapporteres
Mediedekning varierer etter region, sektor og hendelsesskala
Noen kilder begrenser tilgang
Klassifiseringsfeil kan oppstå i grensetilfeller
Økonomiske tapstall kan endres etter hvert som undersøkelser utvikler seg

Statistikk skal derfor tolkes som veiledende indikatorer, ikke uttømmende målinger.

Kildeindeks

Hver nummerert kilde nedenfor tilsvarer en henvisning i hevet skrift som brukes på siden for nettsikkerhetsstatistikk. Hevede referanser kobles direkte til den relevante kildeoppføringen på denne siden.

Kilde ¹ Statista – Cybercrime worldwide Lenke⁠‌
Kilde ² Identity Theft Resource Center (ITRC) – Weekly Breach Breakdown Q3 2025 Lenke⁠‌
Kilde ³ Identity Theft Resource Center (ITRC) – H1 2025 Data Breach Analysis Lenke⁠‌
Kilde ⁴ Verizon – Data Breach Investigations Report (DBIR) 2025 Lenke⁠‌
Kilde ⁵ IBM – Cost of a Data Breach Report 2025 Lenke⁠‌
Kilde ⁶ South Korean Ministry of Science and ICT – SK Telecom data exfiltration incident Lenke⁠‌
Kilde ⁷ Aflac – June 2025 security incident regulatory filing Lenke⁠‌
Kilde ⁸ HIPAA Journal – Largest healthcare data breaches of 2025 Lenke⁠‌
Kilde ⁹ California Attorney General – Aflac breach report (SB24-616010) Lenke⁠‌
Kilde ¹⁰ Iowa Attorney General – Aflac data breach notification Lenke⁠‌
Kilde ¹¹ Rhode Island Attorney General – Data‑breach notifications Lenke⁠‌
Kilde ¹² Rhode Island AG – Data‑breach notification Lenke⁠‌
Kilde ¹³ Aflac Newsroom – June 2025 security incident update Lenke⁠‌
Kilde ¹⁴ HIPAA Journal – Aflac data breach article Lenke⁠‌
Kilde ¹⁵ Office of the Australian Information Commissioner – Statement on Qantas cyber incident Lenke⁠‌
Kilde ¹⁶ Qantas – Information for customers on cyber incident Lenke⁠‌
Kilde ¹⁷ Qantas Newsroom – Update on Qantas cyber incident (9 July 2025) Lenke⁠‌
Kilde ¹⁸ Michigan Attorney General – Consumer alert on data breaches (TransUnion) Lenke⁠‌
Kilde ¹⁹ Maine Attorney General – Allianz Life cyber incident notice Lenke⁠‌
Kilde ²⁰ California Attorney General – Allianz data breach report (SB24-612078) Lenke⁠‌
Kilde ²¹ University of Maryland – Cyber Security Statistics Lenke⁠‌
Kilde ²² Microsoft Digital Defense Report 2023 Lenke⁠‌
Kilde ²³ WIRED – NotPetya cyberattack article Lenke⁠‌
Kilde ²⁴ Reuters – UnitedHealth tech unit hack article Lenke⁠‌
Kilde ²⁵ The Guardian – Jaguar Land Rover hack article Lenke⁠‌
Kilde ²⁶ NBC News – MGM Resorts cyberattack cost article Lenke⁠‌
Kilde ²⁷ Delaware Department of Technology & Information – eSecurityNews (Oct 2023) Lenke⁠‌
Kilde ²⁸ Cybersecurity Ventures – Global ransomware damage cost projection Lenke⁠‌
Kilde ²⁹ JumpCloud – Phishing attack statistics Lenke⁠‌
Kilde ³⁰ Hornetsecurity – Email threats in 2024 Lenke⁠‌
Kilde ³¹ Spearshield – Click‑to‑credential phishing study Lenke⁠‌
Kilde ³² APWG – Phishing Activity Trends Reports Lenke⁠‌
Kilde ³³ arXiv – Academic password/credential research (2025) Lenke⁠‌
Kilde ³⁴ DeepStrike – Password statistics 2025 Lenke⁠‌
Kilde ³⁵ NordPass – Top 200 Most Common Passwords Lenke⁠‌
Kilde ³⁶ Financial Times – Supply‑chain cybersecurity article Lenke⁠‌
Kilde ³⁷ SecurityScorecard – 2025 Supply Chain Cybersecurity Trends Lenke⁠‌
Kilde ³⁸ National Technology & Security Coalition – 2025 Software Supply Chain Security Report Lenke⁠‌
Kilde ³⁹ Palo Alto Networks – State of Cloud Native Security Lenke⁠‌
Kilde ⁴⁰ IBM – Threat Intelligence Report Lenke⁠‌
Kilde ⁴¹ Tenable – Cloud Security Risk Report 2025 Lenke⁠‌
Kilde ⁴² Cybersecurity Ventures – Cybersecurity Cost Report Lenke⁠‌
Kilde ⁴³ Statista Market Insights – Estimated cost of cybercrime worldwide 2018‑2029 (ResearchGate) Lenke⁠‌
Kilde ⁴⁴ Statista – Cost of cybercrime worldwide forecast Lenke⁠‌
Kilde ⁴⁵ FTC – Consumer Sentinel Network Data Book 2024 Lenke⁠‌
Kilde ⁴⁶ FBI IC3 – 2024 Internet Crime Report Lenke⁠‌
Kilde ⁴⁷ Kroll – Data Breach Outlook 2025 Lenke⁠‌
Kilde ⁴⁸ IBM – Cost of a Data Breach 2024: Financial Industry Lenke⁠‌
Kilde ⁴⁹ SailPoint – 2024 State of Identity Security in Financial Services Lenke⁠‌
Kilde ⁵⁰ DeepStrike – Healthcare data breach statistics 2025 Lenke⁠‌
Kilde ⁵¹ Proofpoint & Ponemon – Healthcare Cybersecurity Report Lenke⁠‌
Kilde ⁵² Check Point – Cyber Security Report 2025 Lenke⁠‌
Kilde ⁵³ Thales – 2024 Data Threat Report: Critical Infrastructure Edition Lenke⁠‌
Kilde ⁵⁴ Cyfirma – Energy & Utilities industry report Lenke⁠‌
Kilde ⁵⁵ World Economic Forum – Global Cybersecurity Outlook 2025 Lenke⁠‌
Kilde ⁵⁶ DeepStrike – Cyber attacks on small businesses Lenke⁠‌
Kilde ⁵⁷ Devolutions – State of IT Security Report 2025 Lenke⁠‌
Kilde ⁵⁸ TotalAssure – Small business cybersecurity statistics 2025 Lenke⁠‌
Kilde ⁵⁹ Cisco – Cybersecurity Readiness Index 2025 Lenke⁠‌
Kilde ⁶⁰ IANS Research – Security budgets press release (2024) Lenke⁠‌
Kilde ⁶¹ Munich Re – Cyber insurance risks and trends 2025 Lenke⁠‌
Kilde ⁶² Gartner – 2025 information security spending forecast Lenke⁠‌
Kilde ⁶³ Forrester – 2024 Cybersecurity Benchmarks (Global) Lenke⁠‌
Kilde ⁶⁴ Ivanti – State of Cybersecurity Report Lenke⁠‌
Kilde ⁶⁵ U.S. Department of Homeland Security – FY 2025 Budget in Brief Lenke⁠‌
Kilde ⁶⁶ U.S. Department of Defense – CYBERCOM Budget Justification Lenke⁠‌
Kilde ⁶⁷ Google Cloud – Cybersecurity forecast Lenke⁠‌
Kilde ⁶⁸ Gartner – Generative AI attack survey (Sep 22 2025) Lenke⁠‌
Kilde ⁶⁹ Splashtop – Top cybersecurity trends and predictions for 2026 Lenke⁠‌
Kilde ⁷⁰ ENISA – Threat Landscape 2024 Lenke⁠‌

Statistikk om nettsikkerhet: Metode og kilder

Formålet med denne siden

Omfanget av dataene

Datakilder og kartlegging

Kildetyper

Oppdagelsesprosess

Innsamling og behandling av innhold

Artikkelhenting

Rensing av duplikater

Relevansfiltrering og klassifisering

Vurdering av relevans for nettsikkerhet

Klassifisering av aktivitetstype

Hendelsesgruppering (aggregering av artikkel til hendelse)

Bruk av automatiserte analyser og kvalitetskontroller

Automatisk klassifisering

Kvalitetssikring

Slik beregnes statistikk

Beregninger på artikkelnivå kontra hendelsesnivå

Tolkning av antall og hyppigheter

Begrensninger og hensyn

Kildeindeks

Statistikk om nettsikkerhet:
Metode og kilder