Kyberturvallisuustilastot:
menetelmät ja lähteet
Tämän sivun tarkoitus
Tällä sivulla kerrotaan, miten kyberturvallisuustilastomme ovat kerätty sekä miten niitä käsitellään ja tulkitaan. Sivulla ilmoitetaan avoimesti kaikki viitatut tietolähteet. Kyberturvallisuustilastojen pääsivulla esitellään tiivistetyt havainnot ja NordVPN:n tutkimustulokset.
Tietolähteet ja lähdeviitteet
Lähteiden kerääminen suoritetaan Google Custom Search APIn (GCS) kautta käyttäen useita mukautettuja hakukoneita (CSE), jotka on määritetty seuraavasti:
tiedotusvälineet: 44 valtavirran ja teknologia-alan tiedotusvälinettä (esim. BBC, CNN, The New York Times, WSJ, FT, Reuters, Bloomberg, TechCrunch, Wired, Ars Technica, Time ja Forbes).
luotettavat/viitesivustot: 25 alakohtaista lähdettä ja asiantuntijalähdettä (esim. CISA, KrebsOnSecurity, The Hacker News, Dark Reading, BleepingComputer, SecurityWeek ja Infosecurity Magazine).
paikallisuutiset: yli sata alueellista ja kansallista julkaisua APAC- ja EMEA-alueilla ja Amerikassa (esim. Channel NewsAsia, CSA.gov.sg, Zaobao; HK01, unwire.hk; Japan Times, NISC, JPCERT ja ITMedia).
rajoittamaton/yleinen.
Haut perustuvat avainsanoihin, jotka on poimittu ylläpidettävästä avainsanaluettelosta, jossa termit on ryhmitelty luokittain.
Kaikki tietueet sisältävät nimenomaisen lähdeviittauksen:
Alkuperäisen artikkelin linkki
Tiedotusväline (URL-osoitteesta poimittu verkkotunnus)
Julkaisu- ja keräyspäivä
Yhdistämme tietoja monista lähteistä, jotta tilastot ja tapahtumat voidaan koota; kukin tilasto on johdettu artikkelitasoisesta todistusaineistosta, joka on tallennettu linkkeinä.
Sisällön haku ja keräämisen tiheys
Hakee koko tekstin sisällön löydetyistä linkeistä seuraavista lähteistä:
Ensisijainen: NewsPlease
Varavaihtoehto: suora HTML-lataus kovennettujen pyyntöjen istunnolla ja trafilatura-poiminnalla.
Aikakatkaisuja, uudelleenyrityksiä, TLS-varavaihtoehtoja ja referer-otsikoita käytetään väliaikaisten virheiden vähentämiseksi.
Julkaisupäivä ja otsikko otetaan poimijasta, jos ne ovat saatavilla; päivämäärän jäsentäminen normalisoidaan pelkäksi päivämääräksi.
Päivittäiset ajot hakevat edellisen päivän sisältöä.
Piirteiden poiminta
Poimittuihin kenttiin kuuluvat:
Tiedotusväline (URL-osoitteesta)
Ensimmäinen kappale (ensimmäiset 3–5 virkettä)
Avainsanojen ominaisuudet: kokonaismäärä tekstissä, esiintyminen otsikossa, avainsanan sisältävät lauseet ja ylläpidettyyn luetteloon kuuluvat sanat
Sanamäärä
LLM:n suorittama relevanssin arviointi
LLM arvioi jokaisen artikkelin deterministisellä asetuksella (lämpötila 0) ja rajatulla kehotteella, joka edellyttää eksplisiittisiä ja jäsenneltyjä tulosteita:
1. Liittyykö artikkeli kyberturvallisuustapahtumaan?
2. Jos artikkeli on relevantti, määritetään sille korkean luokan tapahtumatyyppi:
Poikkeama: vahvistettu kyberhyökkäys tai tietomurto on jo tapahtunut (esim. kiristyshaittaohjelman käyttö, hajautettu palvelunesto tai järjestelmän vaarantuminen).
Tietoturva-aukko: ohjelmistosta, laitteistosta tai järjestelmistä on kerätty tai paljastunut tietoturva-aukko, jota voitaisiin käyttää hyväksi (kyseessä on mahdollinen riski, ei vahvistettu tietoturva-aukon hyväksikäyttö).
Uhkatiedustelu: uhkatoimijoista, työkaluista, TTP:istä ja kampanjoista laadittu raportti, jossa ensisijaisesti vastataan kysymyksiin ”kuka/ketkä/miten”, eikä keskitytä tiettyyn poikkeaman kohteeksi joutuneeseen uhriin.
Sääntely ja laki: lait, asetukset, täytäntöönpanotoimet, tuomioistuinten päätökset tai merkittävät käytäntöjen muutokset, jotka vaikuttavat kyberturvallisuusvelvoitteisiin.
Artikkelin tyyppi ja luokittelu
Relevantit artikkelit luokitellaan jäsennellysti taksonomian kehotteiden mukaisesti (ensisijaiset: hyökkäyksen tila, tapahtuman tyyppi, sääntely/laki; toissijaiset: vaikutuksen mittarit/luokka, tekniset tiedot, toimialat, maantiede, koko ja arvioidut vahingot).
Tapahtumien ryhmittely (artikkelien koonti tapahtumaksi)
Tavoite: ryhmitellä samaa poikkeamaa käsittelevät artikkelit yhdeksi ”tapahtumaksi”.
Menetelmä:
Nouda tapahtumia tietokannasta kontekstin tarjoamiseksi (otsikot, tunnetut kohteeksi joutuneet organisaatiot, uhkatekijät ja linkit).
LLM vertaa kunkin potentiaalisen artikkelin (artikkelin tyyppi = yksittäinen poikkeama) tietoja edeltäviin tapahtumajoukkoihin ja joko:
1. määrittää valmiin tapahtumatunnuksen, kun osumasta on suuri varmuus, tai
2. muussa tapauksessa luo uuden tapahtuman.
Kehotteissa korostetaan tarkkuutta: linkitä edeltävään tapahtumaan vain, kun siitä on suuri varmuus. Kohteeksi joutuneita organisaatiota ja uhkatoimijoiden signaaleja pidetään vahvoina indikaattoreina.
Tapahtumilla on kootut kentät: ensimmäisen/viimeisen lukukerran päivämäärät, artikkelien määrä, kohteeksi joutuneet organisaatiot, uhkatoimijat, otsikot ja linkit.
Tarkkuus ja laadunvarmistus
Determinismi ja rajoitukset:
LLM:n lämpötilaksi on asetettu 0 determinismin maksimoimiseksi ja hallusinaatioiden vähentämiseksi.
Rajoitetut kehotteet edellyttävät eksplisiittisiä kenttiä ja JSON-tulosteita; jäsentäminen varmistaa skeeman noudattamisen.
Artikkelit, joissa ei ole sisältöä (otsikko/teksti puuttuu), hylätään varhaisessa vaiheessa.
LLM:n ohjaamat ja skeemavalidoidut mittarit:
Kaikki mittarien kentät tuotetaan deterministisillä LLM-ajoilla (lämpötila 0) tiukkojen, dokumentoitujen ohjeiden ja JSON-skeemojen mukaisesti; vain skeemaa noudattavat tulosteet lasketaan mukaan, ja ihmisen määrajoin suorittama laadunvarmistus kalibroi tulokset ja estää häiriöt.
Tapahtumien/artikkeleiden luokittelu tarkkaa suodatusta varten:
Tapahtumatyypin ja artikkelin painopisteen luokittelu toimii tiukkana suodattimena relevanssille. Sen avulla saadaan karsittua aiheesta poikkeavaa, tarpeetonta tai kertausta muistuttavaa sisältöä. Keskittymällä yksittäisten poikkeamien raportointiin voidaan mitattavasti vähentää virheitä ja parantaa tietoaineiston tarkkuutta.
Monilähteinen validointi:
Tapahtumien ryhmittely viittaa aiemmin tallennettuun tapahtumakontekstiin; yhteensopimattomuudet vähentävät virheellisen yhdistämisen mahdollisuutta.
Koonnit sisältävät luettelon tapahtumakohtaisista lähdelinkeistä manuaalista varmennusta varten.
Ihminen osana prosessia:
Vaikutuksiltaan laajat tai epäselvät tapaukset voidaan merkitä toimituksellista arviointia ja faktantarkistusta tarvitseviksi.
Säännölliset laadunvarmistukseen kuuluvat arvioinnit: otantaan kuuluvat artikkelit ja tapahtumat auditoidaan kuukausittain, ja arvioinnissa tarkistetaan kaikki häiriöitä aiheuttavat kehotteet/mallit tai mahdolliset mukautukset avainsanoihin.
Jäljitettävyys:
Jokainen tilasto voidaan jäljittää tietokannassa oleviin artikkeleihin ja linkkeihin auditoinnin edellystysten täyttämiseksi.
Rajoitukset
Kattavuuden rajoitukset:
GCS-pohjainen tiedonkeruu riippuu avainsanoista ja CSE-määrityksestä; kaikkia poikkeamia ei tallenneta, etenkin jos ne eivät kuulu määriteltyihin kieliin tai ovat maksumuurilla rajoitettua sisältöä.
Jotkin sivustot estävät automaattisen tiedon hakemisen; tällaiset artikkelit voivat puuttua osittain tai kokonaan.
Erityisesti LLM:ää koskevat riskit:
Deterministisistä asetuksista ja jäsennellyistä kehotteista huolimatta luokitteluvirheitä voi tapahtua, erityisesti suppeiden tai monitulkintaisten tekstien kohdalla.
Tapahtumien ryhmittely voi jakaa saman poikkeaman useiksi tapahtumiksi tai rajatapauksissa yhdistää samankaltaisia mutta erillisiä tapahtumia.
Miten tilastot lasketaan?
Artikkelitason kentät johdetaan suorasta poiminnasta ja LLM-tulosteista (tallennetaan tietueittain).
Tapahtumatason mittarit kokoavat artikkelien osat event_id:n mukaan:
artikkelien lukumäärä, ensimmäinen/viimeinen lukupäivä
poistetut päällekkäisyydet kohteeksi joutuneista organisaatioista ja uhkatoimijoista
edustavat otsikot ja kanoniset linkkiluettelot
Raporttien tilastot haetaan näistä tallennetuista taulukoista; jokainen luku voidaan jäljittää tapahtumariveihin ja taustalla oleviin artikkelitietueisiin.
Tietojen laajuus
Kyberturvallisuutta käsittelevässä sisällössämme mainitut tilastot ja havainnot on saatu seuraavista lähteistä:
Kyberturvallisuuspoikkeamien julkiset raportit
Mediassa julkaistut jutut vahvistetuista kyberhyökkäyksistä
Toimialan raportit ja tutkimukset
Julkishallinnon ja sääntelyviranomaisten julkistamat tiedot
Tiedot kuvastavat julkisesti havaittavaa ja raportoitua toimintaa, eivät kaikkia maailmanlaajuisesti tapahtuvia kyberhyökkäyksiä. Monet kyberhyökkäykset eivät koskaan käy ilmi, niitä ei raportoida tai niitä ei käsitellä mediassa.
Tietolähteet ja tiedonkeruu
Lähdetyypit
Kyberturvallisuuteen liittyvät artikkelit ja raportit on kerätty useista eri lähteistä, joihin kuuluvat:
Valtavirtaa edustava ja teknologiaa käsittelevä media.
Esimerkiksi suuret kansainväliset uutisorganisaatiot ja teknologiajulkaisut.Arvovaltaiset ja asiantuntevat kyberturvallisuutta käsittelevät lähteet.
Mukaan lukien valtion viranomaiset, kyberturvallisuuden tutkimusorganisaatiot ja vakiintuneet alan julkaisut.Alueelliset ja paikalliset uutistoimistot.
Uutiset, joissa aiheena ovat kyberturvallisuusuhat Pohjois-Amerikassa, Euroopassa, Aasian ja Tyynenmeren alueella sekä muilla alueilla.Toimialaa koskevat raportit ja tutkimusraportit.
Mukaan lukien vuosittaiset raportit tietomurroista, uhkaympäristöä käsittelevät raportit, kyselyt ja taloudelliset analyysit.
Jokainen lähde mainitaan artikkelin tai raportin tasolla siten, että myös julkaisupäivä, julkaisukanava ja alkuperäinen URL-osoite ovat nähtävillä.
Tiedonkeruuprosessi
Sisällön tiedonkeruu toteutetaan automaattisilla hauilla, jotka perustuvat ylläpidettyyn kyberturvallisuuden avainsanaluetteloon. Avainsanat on ryhmitelty aiheittain (esimerkiksi tietomurrot, kiristyshaittaohjelmat, tietojenkalastelu, tietoturva-aukot, sääntely).
Hakuja suoritetaan päivittäin uusien julkaisujen hyödyntämiseksi. Jokaisella ajolla haetaan vain tuoretta materiaalia, mikä varmistaa, että tietoaineisto on ajankohtaisen raportoinnin mukaista.
Sisällön kerääminen ja käsittely
Artikkelin nouto
Kun lähde on löydetty, artikkelin koko teksti noudetaan automaattisilla poimintatyökaluilla. Jos ensisijainen poiminta epäonnistuu, käytetään varamenetelmiä laajan kattavuuden varmistamiseksi.
Päällekkäisyyksien poisto
Kaksinkertaisen laskennan välttämiseksi:
Identtiset URL-osoitteet käsitellään vain kerran
Uudelleenjulkaistu tai syndikoitu sisältö tarkistetaan mahdollisten päällekkäisyyksien varalta artikkelitasolla
Tapahtumatasoinen koonti (kuvattu alla) vähentää eri julkaisukanavien välisiä päällekkäisyyksiä entisestään
Relevanssin mukainen suodatus ja luokittelu
Relevanssin arviointi kyberturvallisuuden kannalta
Jokainen artikkeli arvioidaan sen määrittämiseksi, onko se relevantti kyberturvallisuustilastojen kannalta. Artikkeleissa on merkityksellisesti kuvattava tai analysoitava kyberturvallisuuteen liittyvää tapahtumaa, uhkaa, tietoturva-aukkoa tai sääntelytoimea.
Tapahtumatyypin luokittelu
Relevantit artikkelit on luokiteltu pääluokkiin, joihin kuuluvat:
Poikkeama – vahvistettu kyberhyökkäys tai tietomurto, joka on jo tapahtunut
Tietoturva-aukko – paljastunut tietoturva-aukko, jota voitaisiin käyttää hyväksi
Uhkatiedustelu – raportointi uhkatoimijoista, työkaluista, kampanjoista tai tekniikoista
Sääntely/lainsäädäntö – kyberturvallisuuteen liittyvät lait, täytäntöönpanotoimet, käytäntöjen muutokset tai oikeudenkäyntimenettelyt
Tämä luokittelu varmistaa, että ”poikkeamiin”, ”tietomurtoihin” tai ”hyökkäyksiin” viittaavia tilastoja ei sekoiteta paljastuneisiin tietomurtoihin tai yleiseen aiheen käsittelyyn.
Tapahtumien ryhmittely (artikkelien koonti tapahtumaksi)
Useissa artikkeleissa kerrotaan usein samasta taustalla vaikuttavasta kyberhyökkäyksestä. Ylilaskennan estämiseksi:
Samaa poikkeamaa käsittelevät artikkelit on ryhmitelty yhdeksi tapahtumaksi
Tapahtumille annetaan pysyvät sisäiset tunnisteet
Artikkelit linkitetään olemassa oleviin tapahtumiin vain, jos ne suurella varmuudella käsittelevät samaa tapahtumaa
Ryhmittelyssä käytettäviin indikaattoreihin kuuluvat kohteeksi joutuneet organisaatiot sekä uhkatoimijat, aikajänteet ja poikkeamien kuvaukset.
Tapahtumatasoiset tietueet sisältävät:
Ensimmäisen ja viimeisen esiintymispäivän
Aiheeseen liittyvien artikkelien määrän
Kohteeksi joutuneet organisaatiot
Mainitut uhkatoimijat
Varmennettavat lähdelinkit
Automatisoidun analyysin ja laadunvalvonnan käyttö
Automatisoitu luokittelu
Luokittelussa, poiminnassa ja koonnissa käytetään jäsenneltyä, determinististä kielimallianalyysiä. Kaikki automatisoidut tulosteet noudattavat ennalta määriteltyjä skeemoja yhdenmukaisuuden varmistamiseksi.
Mallit toimivat deterministisillä asetuksilla vaihtelun vähentämiseksi ja hallusinaatioiden riskin madaltamiseksi.
Laadunvarmistus
Tarkkuuden ylläpitämiseksi:
Skeeman validointi varmistaa, että vain oikein jäsennellyt tulokset lasketaan mukaan
Kuukausittain suoritetaan säännöllisesti otanta- ja tarkastusmenettelyt, mukaan lukien tarkkuuden tarkastus, jotta luokittelun mahdolliset häiriöt voidaan havaita. Tässä tarkastuksessa tunnistetaan luokittelun muutokset, joiden perusteella malliin tehdään tarvittavat säädöt.
Monitulkintaiset tai vaikutuksiltaan merkittävät tapaukset merkitään ihmisen tarkastettaviksi
Kootuista tilastoista on yhä jäljitettävissä yksittäiset artikkelit ja tapahtumat
Miten tilastot lasketaan?
Artikkelitason ja tapahtumatason mittarit
Osa tilastoista perustuu seuraaviin:
Artikkelitason lukumäärät (esim. medianäkyvyys)
Tapahtumatason lukumäärät (esim. erillisten tietomurtojen tai poikkeamien määrä)
Mahdollisuuksien mukaan tapahtumatasoisia mittareita suositellaan päällekkäisyyksien vähentämiseksi.
Lukumäärien ja esiintymistiheyksien tulkinta
Tilastot, kuten ”päivittäiset poikkeamat” tai ”vuotuiset tietomurrot”, kuvastavat raportoituja tai mediassa näkyviä tapahtumia, eivät kaikkia tapahtumia maailmanlaajuisesti.
Toimittajien telemetriatiedot, viranomaisten valitusjärjestelmien ja talousennusteiden raporteissa mainitaan usein huomattavasti suurempia määriä, mikä johtuu eroista laajuudessa ja menetelmissä. Nämä erot mainitaan tarvittaessa.
Rajoitukset ja huomioitavat seikat
Vaikka tietojen tarkkuuteen ja johdonmukaisuuteen on kiinnitetty huomiota, tietoihin liittyy luontaisia rajoituksia:
Kaikkia poikkeamia ei julkisteta tai raportoida
Medianäkyvyys vaihtelee alueittain, toimialoittain ja poikkeaman laajuuden mukaan
Osa lähteistä rajoittaa niiden käyttöä
Luokitteluvirheitä voi esiintyä rajatapauksissa
Taloudellisten tappioiden luvut voivat muuttua tutkimusten edetessä
Tilastoja on siis pidettävä suuntaa antavina indikaattoreina, ei tyhjentävinä tuloksina.
Lähdehakemisto
Jokainen alla oleva numeroitu lähde vastaa yläindeksillä merkittyä viitettä, jota käytetään Kyberturvallisuustilastot-sivulla. Yläindeksit linkittävät suoraan tältä sivulta löytyvään relevanttiin lähdeviitteeseen.
Lähde 1 Statista – |
|---|
Lähde 2 Identity Theft |
Lähde 3 Identity Theft |
Lähde 4 Verizon – |
Lähde 5 IBM – |
Lähde 6 South Korean |
Lähde 7 Aflac – June |
Lähde 8 HIPAA Journal – |
Lähde 9 California Attorney |
Lähde 10 Iowa Attorney |
Lähde 11 Rhode Island |
Lähde 12 Rhode Island |
Lähde 13 Aflac Newsroom – |
Lähde 14 HIPAA Journal – |
Lähde 15 Office of the |
Lähde 16 Qantas – Information |
Lähde 17 Qantas Newsroom – |
Lähde 18 Michigan Attorney |
Lähde 19 Maine Attorney |
Lähde 20 California Attorney |
Lähde 21 University of |
Lähde 22 Microsoft Digital |
Lähde 23 WIRED – NotPetya |
Lähde 24 Reuters – UnitedHealth |
Lähde 25 The Guardian – Jaguar |
Lähde 26 NBC News – |
Lähde 27 Delaware Department |
Lähde 28 Cybersecurity |
Lähde 29 JumpCloud – Phishing |
Lähde 30 Hornetsecurity – Email |
Lähde 31 Spearshield – |
Lähde 32 APWG – Phishing |
Lähde 33 arXiv – Academic |
Lähde 34 DeepStrike – Password |
Lähde 35 NordPass – Top 200 |
Lähde 36 Financial Times – |
Lähde 37 SecurityScorecard – |
Lähde 38 National Technology & |
Lähde 39 Palo Alto Networks – |
Lähde 40 IBM – Threat |
Lähde 41 Tenable – |
Lähde 42 Cybersecurity |
Lähde 43 Statista Market |
Lähde 44 Statista – Cost of |
Lähde 45 FTC – Consumer |
Lähde 46 FBI IC3 – 2024 Internet |
Lähde 47 Kroll – Data Breach |
Lähde 48 IBM – Cost of a Data |
Lähde 49 SailPoint – 2024 |
Lähde 50 DeepStrike – |
Lähde 51 Proofpoint & |
Lähde 52 Check Point – |
Lähde 53 Thales – 2024 |
Lähde 54 Cyfirma – Energy & |
Lähde 55 World Economic |
Lähde 56 DeepStrike – Cyber |
Lähde 57 Devolutions – State of |
Lähde 58 TotalAssure – |
Lähde 59 Cisco – Cybersecurity |
Lähde 60 IANS Research – |
Lähde 61 Munich Re – |
Lähde 62 Gartner – 2025 |
Lähde 63 Forrester – 2024 |
Lähde 64 Ivanti – State of |
Lähde 65 U.S. Department of |
Lähde 66 U.S. Department of |
Lähde 67 Google Cloud – |
Lähde 68 Gartner – Generative AI |
Lähde 69 Splashtop – Top |
Lähde 70 ENISA – Threat |