Statistikk om nettsikkerhet:
Metode og kilder

Formålet med denne siden

Denne siden forklarer hvordan nettsikkerhetsstatistikken som presenteres på nettsikkerhetsstatistikken vår samles inn, behandles og tolkes, og gir full åpenhet om datakildene det refereres til. Hovedsiden for nettsikkerhetsstatistikk presenterer oppsummerte funn og forskningsinnsikt fra NordVPN.

Datakilder og kildehenvisninger

Kildeoppdagelse utføres via Google Custom Search API (GCS) ved hjelp av flere egendefinerte søkemotorer (CSE-er) som er konfigurert for:

  • mediekanaler: 44 vanlige og teknologiske mediekilder (f.eks. BBC, CNN, The New York Times, WSJ, FT, Reuters, Bloomberg, TechCrunch, Wired, Ars Technica, Time, Forbes).

  • autoritative nettsteder og referansesider: 25 bransje- og ekspertkilder (f.eks. CISA, KrebsOnSecurity, The Hacker News, Dark Reading, BleepingComputer, SecurityWeek, Infosecurity Magazine).

  • lokale nyheter: Over 100 regionale og nasjonale nyhetskilder i APAC, EMEA og Amerika (f.eks. Channel NewsAsia, CSA.gov.sg, Zaobao; HK01, unwire.hk; Japan Times, NISC, JPCERT, ITMedia).

  • ubegrenset/generelt.

Søkeforespørsler styres av søkeord fra en vedlikeholdt søkeordliste som grupperer termer etter kategori.

Alle poster inkluderer eksplisitt tillatelse:

  • Opprinnelig artikkellenke

  • Mediekanal (domene hentet fra nettadressen)

  • Publiseringsdato og innsamlingsdato

Vi sammenstiller informasjon fra mange kilder for statistikk og hendelsesaggregering. Hver statistikk er avledet fra dokumentasjon på artikkelnivå som er lagret med koblinger.

Henting av innhold og hyppighet for innsamling

Henter fulltekstinnhold fra oppdagede lenker med:

  • Hovedside: NewsPlease

  • Reserve: direkte HTML-nedlasting med forsterket forespørselssesjon og trafilatura-ekstraksjon.

Tidsavbrudd, nye forsøk, TLS-fallback og referer-overskrifter brukes for å redusere midlertidige feil.

Publiseringsdato og tittel er hentet fra uttrekksverktøyet når den er tilgjengelig; datoparsering er normalisert til kun dato.

Daglige kjøringer henter innhold fra det siste døgnet.

Funksjonsuttrekking

Uttrukne felt inkluderer:

  • Mediekanal (fra URL)

  • Første avsnitt (første 3–5 setninger)

  • Nøkkelordfunksjoner: totalt antall forekomster i teksten, forekomst i tittelen, setninger som inneholder primære søkeord, og forekomst av nøkkelord fra den vedlikeholdte listen

  • Antall ord

LLM-relevansvurdering

Hver artikkel evalueres av en LLM med en deterministisk innstilling (temperatur 0) og en begrenset ledetekst som krever eksplisitte, strukturerte utdata:

1. Om artikkelen er relevant for cyberhendelser

2. Hvis den er relevant, tilordnes en hendelsestype på høyt nivå:

  • Hendelse: Et bekreftet nettangrep eller brudd har allerede funnet sted (f.eks. distribusjon av løsepengevirus, dataeksfiltrering, DDoS, kompromittering av systemet).

  • Sårbarhet: Oppdagelse eller avsløring av en sikkerhetsfeil i programvare/maskinvare/systemer som kan utnyttes (potensiell risiko i stedet for bekreftet utnyttelse).

  • Trusselinformasjon: Rapportering om trusselaktører, verktøy, TTP-er og kampanjer – med fokus på «hvem/hvordan», ikke på en bestemt hendelse som rammer et offer.

  • Regulatorisk/juridisk: Lover, forskrifter, håndhevelsestiltak, rettsavgjørelser eller store endringer i retningslinjene som påvirker nettsikkerhetsforpliktelser.

Artikkeltype og kategorisering

Relevante artikler kategoriseres via strukturerte taksonomibaserte ledetekster (primær: angrepsstatus, aktivitetstype, regulatorisk/juridisk; sekundær: påvirkningsberegninger/klasse, tekniske spesifikasjoner, sektorer, geografi, størrelse, omtrentlig skade).

Hendelsesgruppering (aggregering av artikkel til hendelse)

Mål: gruppere artikler som beskriver den samme underliggende hendelsen i én enkelt «hendelse».

Metode:

  • Hent eksisterende hendelser fra databasen for å gi kontekst (titler, berørte kjente organisasjoner, trusselaktører, koblinger).

  • For hver kandidatartikkel (der artikkeltype = enkel hendelse) sammenligner LLM-artikkeldetaljer med grupper av eksisterende hendelser og enten:

1. Tilordner en eksisterende hendelses-ID når det er et treff med høy konfisens, eller

2. Oppretter en ny hendelse på annen måte.

  • Ledetekster legger vekt på høy presisjon: koble kun til en eksisterende hendelse når du er svært sikker. Signaler fra berørte organisasjoner og trusselaktører behandles som sterke indikatorer.

Aktivitetene opprettholder aggregerte felt: dato for første og siste observasjon, antall artikler, berørte organisasjoner, trusselaktører, titler, koblinger.

Nøyaktighet og kvalitetssikring

Determinisme og begrensninger:

  • LLM-temperatur satt til 0 for å maksimere determinisme og redusere hallusinasjoner.

  • Begrensede ledetekster krever eksplisitte felt og JSON-utdata; tolking håndhever skjema.

  • Artikler uten innhold (manglende tittel/tekst) avvises tidlig.

LLM-styrte, skjemavaliderte beregninger:

  • Alle metrikkfeltene produseres av deterministiske LLM-kjøringer (temperatur 0) i henhold til strenge, dokumenterte retningslinjer og JSON-skjemaer. Kun skjemakompatible utdata telles, med periodisk menneskelig kvalitetssikring for å kalibrere og forhindre avvik.

Klassifisering av hendelse/artikkel for presisjonsfiltrering:

  • Klassifisering etter hendelsestype og artikkelens fokus fungerer som en streng relevansport, og filtrerer bort innhold som er utenfor emnet, har lav signalstyrke eller er i oppsummeringsstil. Dette fokuset på rapportering av enkelthendelser reduserer støy og forbedrer målbar datasettpresisjon og -nøyaktighet.

Validering fra flere kilder:

  • Hendelsesklustering refererer til tidligere lagret hendelseskontekst; uoverensstemmelser reduserer sjansen for feilaktige sammenslåinger.

  • Aggregeringer inkluderer listen over kildelenker per hendelse for manuell verifisering.

Menneskelig innblanding:

  • Saker med stor innvirkning eller som er tvetydige, kan flagges for redaksjonell gjennomgang og faktasjekk.

  • Regelmessige QA-gjennomganger: Utvalgte artikler og hendelser revideres månedlig med presisjonsgjennomgang. Eventuelle avvik fører til justeringer av ledetekst/modell eller søkeord.

Sporbarhet:

  • Hver statistikk kan spores til artikler og koblinger i databasen for revisjonssporbarhet.

Begrensninger

Dekningsgrenser:

  • GCS-basert oppdagelse avhenger av søkeord og CSE-konfigurasjon. Ikke alle hendelser registreres, spesielt utenfor konfigurerte språk eller betalingsbelagt innhold.

  • Noen nettsteder blokkerer automatisk henting; slike artikler kan være delvis eller helt manglende.

LLM-spesifikke risikoer:

  • Til tross for deterministiske innstillinger og strukturerte ledetekster, kan feilklassifisering forekomme, spesielt med sparsomme eller tvetydige tekster.

  • Gruppering av hendelser kan dele samme hendelse inn i flere hendelser eller slå sammen lignende, men forskjellige hendelser i grensetilfeller.

Slik beregnes statistikk

Felt på artikkelnivå utledes fra direkte ekstraksjon og LLM-utdata (lagret per post).

Målinger på hendelsesnivå aggregerer underordnede artikler etter event_id:

  • antall artikler, første/siste sett-datoer

  • dedupliserte berørte organisasjoner og trusselaktører

  • representative titler og standardiserte lenkelister

Rapportstatistikk trekkes fra disse lagrede tabellene; hver figur kan spores tilbake til hendelsesrader og underliggende artikkelposter.

Omfanget av dataene

Statistikken og innsikten som refereres til i nettsikkerhetsinnholdet vårt, er hentet fra en kombinasjon av:

  • Offentlig tilgjengelig rapportering av hendelser som berører nettsikkerhet

  • Mediedekning av bekreftede cyberhendelser

  • Bransjerapporter og undersøkelser

  • Offentlige og regulatoriske opplysninger

Dataene gjenspeiler offentlig observerbar og rapportert aktivitet, ikke hele universet av alle cyberhendelser som forekommer globalt. Mange cyberhendelser blir aldri avslørt, rapportert eller dekket av media.

Datakilder og kartlegging

Kildetyper

Artikler og rapporter om nettsikkerhet samles inn fra flere kildekategorier, blant annet:

  • Tradisjonelle medier og teknologimedier.
    Eksempler inkluderer store internasjonale nyhetsorganisasjoner og teknologipublikasjoner.

  • Autoritative og ekspertkilder for nettsikkerhet.
    Inkludert offentlige etater, nettsikkerhetsforskningsorganisasjoner og etablerte industripublikasjoner.

  • Regionale og lokale nyhetskanaler.
    Dekker hendelser som berører nettsikkerhet i Nord-Amerika, Europa, Asia-Stillehavsområdet og andre regioner.

  • Bransje- og forskningsrapporter.
    Inkludert årlige bruddrapporter, trussellandskapsrapporter, undersøkelser og økonomiske analyser.

Hver kilde tilskrives på artikkel- eller rapportnivå, med bevarte utgivelsesdatoer, mediekilder og opprinnelige nettadresser.

Oppdagelsesprosess

Innhentingsprosess for innhold utføres ved hjelp av automatiserte søk basert på en liste over vedlikeholdte søkeord for nettsikkerhet. Søkeord er gruppert etter emne (for eksempel: datainnbrudd, løsepengevirus, phishing, sårbarheter, regulering).

Søk kjøres daglig for å fange opp nylig publisert innhold. Hver kjøring spør bare etter nylig materiale, slik at datasettet gjenspeiler gjeldende rapportering.

Innsamling og behandling av innhold

Artikkelhenting

Når en kilde er oppdaget, hentes hele artikkelteksten ved hjelp av automatiserte uttrekkingsverktøy. Der primært uttrekk mislykkes, brukes reservemetoder for å sikre robust dekning.

Rensing av duplikater

For å unngå dobbel telling:

  • Identiske nettadresser behandles bare én gang

  • Gjenpublisert eller syndikert innhold blir renset for duplikater på artikkelnivå

  • Aggregering på hendelsesnivå (beskrevet nedenfor) reduserer ytterligere duplisering på tvers av kanaler

Relevansfiltrering og klassifisering

Vurdering av relevans for nettsikkerhet

Hver artikkel evalueres for å avgjøre om den er relevant for nettsikkerhetsstatistikk. Artikler må beskrive eller analysere en nettsikkerhetshendelse, trussel, sårbarhet eller regulatoriske tiltak på en meningsfull måte.

Klassifisering av aktivitetstype

Relevante artikler er klassifisert i kategorier på høyt nivå, inkludert:

  • Hendelse – Et bekreftet nettangrep eller brudd som allerede har funnet sted

  • Sårbarhet – Avsløring av en sikkerhetssvakhet som kan utnyttes

  • Trusselinformasjon – Rapportering om trusselaktører, verktøy, kampanjer eller teknikker

  • Regulatorisk/juridisk – Lover, håndhevelseshandlinger, policyendringer eller rettssaker relatert til nettsikkerhet

Denne klassifiseringen sikrer at statistikk som refererer til «hendelser», «brudd» eller «angrep» ikke blandes sammen med avsløringer om sårbarhet eller generelle kommentarer.

Hendelsesgruppering (aggregering av artikkel til hendelse)

Det hender ofte at flere artikler omhandler den samme underliggende cybersikkerhetshendelsen. For å forhindre overtelling:

  • Artikler som beskriver samme hendelse er gruppert i én hendelse

  • Hendelser er tildelt stabile interne identifikatorer

  • Artikler er bare knyttet til eksisterende hendelser når det er høy grad av sikkerhet for at de beskriver samme forekomst

Indikatorer som brukes for gruppering inkluderer berørte organisasjoner, trusselaktører, tidslinjer og hendelsesbeskrivelser.

Registreringer på hendelsesnivå inneholder:

  • datoer for første og siste opptreden

  • antall relaterte artikler

  • berørte organisasjoner

  • refererte trusselaktører

  • kildekoblinger for verifisering

Bruk av automatiserte analyser og kvalitetskontroller

Automatisk klassifisering

Strukturert, deterministisk analyse med språkmodeller brukes til klassifisering, uttrekking og aggregering. Alle automatiske utdata følger forhåndsdefinerte skjemaer for å sikre konsistens.

Modellene opererer med deterministiske innstillinger for å redusere variabilitet og hallusinasjonsrisiko.

Kvalitetssikring

For å opprettholde nøyaktigheten:

  • Skjemavalidering sikrer at bare riktig strukturerte utdata telles

  • Regelmessige månedlige prøvetakings- og gjennomgangsprosedyrer, inkludert en presisjonsgjennomgang, utføres for å oppdage klassifiseringsdrift. Denne gjennomgangen identifiserer endringer i klassifiseringen, som deretter informerer og nødvendiggjør justeringer av modellen.

  • Tvetydige saker eller saker med høy effekt er flagget for menneskelig gjennomgang

  • Aggregert statistikk beholder sporbarhet til individuelle artikler og hendelser

Slik beregnes statistikk

Beregninger på artikkelnivå kontra hendelsesnivå

Noen statistikker er basert på:

  • Antall på artikkelnivå (f.eks. omfanget av mediedekning)

  • Antall på hendelsesnivå (f.eks. antall forskjellige brudd eller hendelser)

Der det er aktuelt, foretrekkes beregninger på hendelsesnivå for å redusere duplisering.

Tolkning av antall og hyppigheter

Statistikk som «hendelser per dag» eller «brudd per år» gjenspeiler rapporterte eller medieomtalte hendelser, ikke den totale globale aktiviteten.

Leverandørtelemetri, offentlige klagesystemer og økonomiske fremskrivninger rapporterer ofte betydelig høyere volumer på grunn av forskjeller i omfang og metodikk. Disse forskjellene noteres der det er relevant.

Begrensninger og hensyn

Selv om det legges vekt på å sikre nøyaktighet og konsistens, har dataene iboende begrensninger:

  • Ikke alle hendelser offentliggjøres eller rapporteres

  • Mediedekning varierer etter region, sektor og hendelsesskala

  • Noen kilder begrenser tilgang

  • Klassifiseringsfeil kan oppstå i grensetilfeller

  • Økonomiske tapstall kan endres etter hvert som undersøkelser utvikler seg

Statistikk skal derfor tolkes som veiledende indikatorer, ikke uttømmende målinger.

Kildeindeks

Hver nummerert kilde nedenfor tilsvarer en henvisning i hevet skrift som brukes på siden for nettsikkerhetsstatistikk. Hevede referanser kobles direkte til den relevante kildeoppføringen på denne siden.

Kilde 1

Statista –
Cybercrime worldwide

Kilde 2

Identity Theft
Resource Center
(ITRC) – Weekly
Breach
Breakdown
Q3 2025

Kilde 3

Identity Theft
Resource Center
(ITRC) – H1 2025
Data Breach Analysis

Kilde 4

Verizon –
Data Breach
Investigations
Report (DBIR) 2025

Kilde 5

IBM –
Cost of a Data
Breach Report 2025

Kilde 6

South Korean
Ministry of
Science and
ICT – SK Telecom data
exfiltration
incident

Kilde 7

Aflac – June
2025 security
incident
regulatory filing

Kilde 8

HIPAA Journal –
Largest healthcare
data breaches of 2025

Kilde 9

California Attorney
General – Aflac
breach report
(SB24-616010)

Kilde 10

Iowa Attorney
General – Aflac
data breach notification

Kilde 11

Rhode Island
Attorney General –
Data‑breach
notifications

Kilde 12

Rhode Island
AG –
Data‑breach
notification

Kilde 13

Aflac Newsroom –
June 2025
security incident
update

Kilde 14

HIPAA Journal –
Aflac data
breach article

Kilde 15

Office of the
Australian Information
Commissioner –
Statement on Qantas
cyber incident

Kilde 16

Qantas – Information
for customers on
cyber incident

Kilde 17

Qantas Newsroom –
Update on Qantas
cyber incident
(9 July 2025)

Kilde 18

Michigan Attorney
General – Consumer
alert on data breaches
(TransUnion)

Kilde 19

Maine Attorney
General – Allianz Life
cyber incident notice

Kilde 20

California Attorney
General – Allianz data
breach report
(SB24-612078)

Kilde 21

University of
Maryland – Cyber
Security Statistics

Kilde 22

Microsoft Digital
Defense Report 2023

Kilde 23

WIRED – NotPetya
cyberattack article

Kilde 24

Reuters – UnitedHealth
tech unit hack article

Kilde 25

The Guardian – Jaguar
Land Rover hack article

Kilde 26

NBC News –
MGM Resorts
cyberattack cost article

Kilde 27

Delaware Department
of Technology &
Information –
eSecurityNews
(Oct 2023)

Kilde 28

Cybersecurity
Ventures – Global
ransomware damage
cost projection

Kilde 29

JumpCloud – Phishing
attack statistics

Kilde 30

Hornetsecurity – Email
threats in 2024

Kilde 31

Spearshield –
Click‑to‑credential
phishing study

Kilde 32

APWG – Phishing
Activity Trends Reports

Kilde 33

arXiv – Academic
password/credential
research (2025)

Kilde 34

DeepStrike – Password
statistics 2025

Kilde 35

NordPass – Top 200
Most Common
Passwords

Kilde 36

Financial Times –
Supply‑chain
cybersecurity article

Kilde 37

SecurityScorecard –
2025 Supply Chain
Cybersecurity Trends

Kilde 38

National Technology &
Security Coalition –
2025 Software Supply
Chain Security Report

Kilde 39

Palo Alto Networks –
State of Cloud
Native Security

Kilde 40

IBM – Threat
Intelligence Report

Kilde 41

Tenable –
Cloud Security
Risk Report 2025

Kilde 42

Cybersecurity
Ventures –
Cybersecurity Cost
Report

Kilde 43

Statista Market
Insights – Estimated
cost of cybercrime
worldwide 2018‑2029
(ResearchGate)

Kilde 44

Statista – Cost of
cybercrime worldwide
forecast

Kilde 45

FTC – Consumer
Sentinel Network Data
Book 2024

Kilde 46

FBI IC3 – 2024 Internet
Crime Report

Kilde 47

Kroll – Data Breach
Outlook 2025

Kilde 48

IBM – Cost of a Data
Breach 2024: Financial
Industry

Kilde 49

SailPoint – 2024
State of Identity
Security in Financial
Services

Kilde 50

DeepStrike –
Healthcare data
breach statistics 2025

Kilde 51

Proofpoint &
Ponemon – Healthcare
Cybersecurity Report

Kilde 52

Check Point –
Cyber Security
Report 2025

Kilde 53

Thales – 2024
Data Threat Report:
Critical Infrastructure
Edition

Kilde 54

Cyfirma – Energy &
Utilities industry report

Kilde 55

World Economic
Forum – Global
Cybersecurity Outlook
2025

Kilde 56

DeepStrike – Cyber
attacks on small
businesses

Kilde 57

Devolutions – State of
IT Security Report 2025

Kilde 58

TotalAssure –
Small business
cybersecurity statistics
2025

Kilde 59

Cisco – Cybersecurity
Readiness Index 2025

Kilde 60

IANS Research –
Security budgets
press release (2024)

Kilde 61

Munich Re –
Cyber insurance risks
and trends 2025

Kilde 62

Gartner – 2025
information security
spending forecast

Kilde 63

Forrester – 2024
Cybersecurity
Benchmarks (Global)

Kilde 64

Ivanti – State of
Cybersecurity Report

Kilde 65

U.S. Department of
Homeland Security –
FY 2025 Budget in Brief

Kilde 66

U.S. Department of
Defense – CYBERCOM
Budget Justification

Kilde 67

Google Cloud –
Cybersecurity forecast

Kilde 68

Gartner – Generative AI
attack survey
(Sep 22 2025)

Kilde 69

Splashtop – Top
cybersecurity trends
and predictions
for 2026

Kilde 70

ENISA – Threat
Landscape 2024