Statistiche sulla cybersecurity:
metodologia e fonti
Scopo di questa pagina
Questa pagina illustra come vengono raccolte, elaborate e interpretate le statistiche di sicurezza informatica presentate nella nostra pagina "Statistiche sulla cybersecurity" e offre la massima trasparenza sulle fonti di dati citate. La pagina principale delle Statistiche di cybersecurity presenta i risultati in forma sintetica e altri dettagli della ricerca di NordVPN.
Fonti dei dati e attribuzione
La ricerca delle fonti viene eseguita tramite l'API di Google Custom Search (GCS) utilizzando diversi motori di ricerca personalizzati (CSE) configurati per:
Testate giornalistiche: 44 fonti di informazione tradizionali e specializzate in tecnologia (es. BBC, CNN, The New York Times, WSJ, FT, Reuters, Bloomberg, TechCrunch, Wired, Ars Technica, Time, Forbes).
Siti autorevoli / di riferimento: 25 fonti del settore e specializzate (es. CISA, KrebsOnSecurity, The Hacker News, Dark Reading, BleepingComputer, SecurityWeek, Infosecurity Magazine).
Testate giornalistiche locali: più di 100 testate regionali e nazionali di APAC (Asia Pacifico), EMEA (Europa, Medio Oriente e Africa) e Americhe (es. Channel NewsAsia, CSA.gov.sg, Zaobao, HK01, unwire.hk, Japan Times, NISC, JPCERT, ITMedia).
Fonti senza restrizioni/generali.
Le query sono basate su parole chiave provenienti da un elenco aggiornato che raggruppa i termini per categoria.
Tutti i dati includono un'attribuzione esplicita:
Link all'articolo originale
Testata (dominio estratto dall'URL)
Date di pubblicazione e di raccolta
Sintetizziamo le informazioni provenienti da diverse fonti per fini statistici e aggregazione di eventi. Ogni statistica si basa su prove basate sugli articoli e memorizzate con link.
Frequenza di recupero e raccolta dei contenuti
Recupera il contenuto testuale integrale dai link individuati con:
Fonte primaria: NewsPlease
Metodo alternativo: download diretto dell'HTML con sessione Requests rafforzata ed estrazione del testo tramite lo strumento Trafilatura
Timeout, retry, fallback TLS e intestazioni Referer vengono utilizzati per ridurre gli errori temporanei.
La data di pubblicazione e il titolo vengono ricavati dallo strumento di estrazione, quando disponibili. Il parsing della data viene convertito in un formato che include unicamente la data.
Le richieste giornaliere prendono in esame i contenuti relativi all'ultimo giorno.
Estrazione degli attributi
I campi estratti includono:
Mezzo di comunicazione (dall'URL)
Primo paragrafo (prime 3–5 frasi)
Caratteristiche delle parole chiave: numero totale di occorrenze all'interno del testo e nel titolo, frasi contenenti la parola chiave principale e presenza di qualsiasi parola chiave nell'elenco gestito
Numero di parole
Valutazione della rilevanza LLM
Ogni articolo viene valutato da un LLM con un'impostazione deterministica (temperatura 0) e un prompt vincolato che richiede output espliciti e strutturati:
1. Se l'articolo è rilevante nell'ambito degli incidenti informatici
2. Se è rilevante, viene assegnato un tipo di evento di alto livello:
Incidente: un attacco informatico o una violazione sono già avvenuti e sono stati confermati (es. diffusione di ransomware, esfiltrazione di dati, DDoS, compromissione di un sistema).
Vulnerabilità: scoperta o divulgazione di una falla di sicurezza in software/hardware/sistemi che potrebbe essere sfruttata (rischio potenziale piuttosto che violazione confermata).
Threat intelligence: rapporti relativi ad autori di minacce, strumenti, TTP e campagne. Si concentra sul "chi/come", non su un incidente specifico ai danni di una determinata vittima.
Normativo/legale: leggi, regolamenti, azioni di contrasto, decisioni giudiziarie o importanti modifiche alle politiche che influiscono sugli obblighi in materia di cybersecurity.
Tipo di articolo e categorizzazione
Gli articoli pertinenti vengono classificati tramite prompt strutturati per la tassonomia (primari: stato dell'attacco, tipo di evento, aspetti normativi/legali; secondari: metriche/classe di impatto, specifiche tecniche, settori, area geografica, dimensioni, danno approssimativo).
Clustering di eventi (aggregazione da articolo a evento)
Obiettivo: raggruppare in un unico "evento" gli articoli che descrivono lo stesso incidente di base.
Metodo:
Recupera dal database gli eventi esistenti per fornire un contesto (titoli, organizzazioni colpite note, autori delle minacce, link).
Per ogni articolo considerato (dove Tipo di articolo = Singolo incidente), il modello LLM confronta i dettagli dell'articolo con gruppi di eventi esistenti e procede in uno dei seguenti modi:
1. Assegna un ID evento già esistente quando riscontra una corrispondenza con alto grado di attendibilità, oppure
2. Crea un nuovo evento.
I prompt necessitano di un elevato grado di precisione: un evento viene collegato a un altro esistente solo quando risulta altamente attendibile. L'organizzazione o le organizzazioni coinvolte, così come i segnali relativi agli autori delle minacce, sono considerati indicatori significativi.
Gli eventi mantengono campi aggregati: date di prima/ultima consultazione, numero di articoli, organizzazioni coinvolte, autori delle minacce, titoli, link.
Accuratezza e garanzia di qualità
Determinismo e vincoli:
Temperatura del modello LLM impostata su 0 per massimizzare il determinismo e ridurre le allucinazioni.
I prompt vincolati richiedono campi espliciti e output JSON; il parsing applica lo schema.
Gli articoli privi di contenuto (senza titolo/testo) vengono scartati preventivamente.
Metriche gestite dal modello LLM e convalidate tramite schema:
Tutti i campi delle metriche sono generati da esecuzioni deterministiche dell'LLM (temperatura 0) secondo linee guida rigorose e documentate e schemi JSON; vengono conteggiati solo gli output conformi allo schema e si esegue periodicamente un controllo qualità umano per calibrare il sistema e prevenire la deriva.
Classificazione di eventi/articoli per un filtraggio di precisione:
La classificazione del tipo di evento e dell'articolo rappresenta un filtro di rilevanza rigoroso, che esclude i contenuti fuori tema, a basso valore informativo o di tipo riassuntivo. Questa enfasi sulla segnalazione di singoli incidenti riduce il rumore e migliora in modo misurabile la precisione e l'accuratezza del set di dati.
Convalida da più fonti:
Il clustering degli eventi fa riferimento al contesto degli eventi precedentemente memorizzati; le discrepanze riducono la possibilità di accorpamenti errati.
Le aggregazioni includono l'elenco dei link di origine per ciascun evento per la verifica manuale.
Supervisione umana:
I casi ad alto impatto o ambigui possono essere segnalati affinché vengano sottoposti a revisione editoriale e verifica dei fatti.
Controlli periodici della qualità: un campione di articoli ed eventi viene sottoposto a verifica con cadenza mensile al fine di valutarne la precisione; eventuali scostamenti attivano adeguamenti del prompt/modello o delle parole chiave.
Tracciabilità:
Per garantirne la verificabilità, ogni dato statistico può essere ricondotto agli articoli e ai link contenuti nel database.
Limitazioni
Limiti di copertura:
L'individuazione basata su GCS dipende dalle parole chiave e dalla configurazione del CSE: non tutti gli incidenti vengono rilevati, soprattutto se non eseguiti nelle lingue configurate o nell'ambito di contenuti con accesso a pagamento.
Alcuni siti bloccano il recupero automatico: i relativi articoli potrebbero quindi mancare in parte o del tutto.
Rischi specifici dell'LLM:
Nonostante le impostazioni deterministiche e i prompt strutturati, potrebbero verificarsi errori di classificazione, soprattutto nel caso di testi scarni o ambigui.
La funzionalità di raggruppamento potrebbe suddividere lo stesso incidente in più eventi oppure, nei casi limite, accorpare incidenti simili che tuttavia sono distinti.
Come vengono calcolate le statistiche
I campi relativi a ciascun articolo derivano dall'estrazione diretta e dagli output LLM (memorizzati singolarmente per ciascun elemento).
Le metriche relative agli eventi aggregano gli articoli costitutivi per event_id:
Numero di articoli, date di prima/ultima consultazione
Organizzazioni colpite e autori di minacce previa rimozione dei duplicati
Titoli rappresentativi ed elenchi di link canonici
Le statistiche dei rapporti vengono estratte da queste tabelle memorizzate. Ogni dato può essere ricondotto alle righe degli eventi e alle voci dell'articolo di provenienza.
Ambito dei dati
Le statistiche e gli approfondimenti che vengono menzionati nei nostri contenuti sulla cybersecurity derivano da una combinazione di:
Segnalazioni di incidenti di sicurezza informatica di pubblico dominio
Copertura mediatica di incidenti informatici confermati
Rapporti e sondaggi di settore
Adempimenti informativi imposti da autorità governative e di regolamentazione
I dati riflettono attività osservabili e segnalate pubblicamente, non la totalità degli incidenti informatici che si verificano a livello globale. Molti incidenti informatici non vengono mai resi noti, segnalati o riportati dai media.
Fonti dei dati e individuazione
Tipi di fonti
Gli articoli e i rapporti relativi alla cybersecurity vengono raccolti da diverse categorie di fonti, tra cui:
Mezzi di informazione tradizionali e specializzati in tecnologia.
Tra gli esempi figurano le principali testate giornalistiche internazionali e le pubblicazioni del settore tech.Fonti autorevoli e redatte da esperti in materia di cybersecurity.
Includono agenzie governative, organizzazioni che si occupano di ricerche sulla sicurezza informatica e pubblicazioni affermate del settore.Testate giornalistiche regionali e locali.
Queste fonti riportano incidenti di sicurezza informatica che si verificano in Nord America, Europa, Asia-Pacifico e altre aree geografiche.Rapporti di settore e di ricerca.
Includono relazioni annuali sulle violazioni, rapporti sul panorama delle minacce, sondaggi e analisi economiche.
Ogni fonte viene attribuita a livello di articolo o rapporto, mantenendone la data di pubblicazione, il canale di provenienza e l'URL originale.
Processo di individuazione
L'individuazione dei contenuti viene eseguita tramite query di ricerca automatizzate, basate su un elenco aggiornato di parole chiave relative alla cybersecurity. Le parole chiave sono raggruppate per argomento (es. violazioni di dati, ransomware, phishing, vulnerabilità, normative).
Le ricerche vengono eseguite su base giornaliera per acquisire i contenuti appena pubblicati. Ogni ricerca riguarda esclusivamente materiali recenti, così da garantire che il set di dati rifletta le segnalazioni attuali.
Raccolta ed elaborazione dei contenuti
Recupero degli articoli
Una volta individuata una fonte, il testo completo dell'articolo viene recuperato tramite strumenti di estrazione automatizzati. Se l'estrazione primaria non va a buon fine, vengono usati metodi di riserva per garantire una copertura affidabile.
Eliminazione dei duplicati
Per evitare il doppio conteggio:
Gli URL identici vengono elaborati una sola volta
Per i contenuti ripubblicati o distribuiti in syndication vengono rimossi gli articoli duplicati
L'aggregazione degli eventi (descritta di seguito) riduce ulteriormente la duplicazione tra i vari canali di provenienza
Filtraggio per rilevanza e classificazione
Grado di rilevanza in materia di cybersecurity
Ogni articolo viene valutato per determinare se risulta rilevante per le statistiche sulla sicurezza informatica. Gli articoli devono descrivere o analizzare in modo significativo un evento, una minaccia, una vulnerabilità o un atto normativo riguardanti la cybersecurity.
Classificazione del tipo di evento
Gli articoli pertinenti sono classificati in categorie di alto livello, tra cui:
Incidente: un attacco informatico o una violazione confermati che si sono già verificati
Vulnerabilità: divulgazione di una falla di sicurezza che potrebbe essere sfruttata
Threat intelligence: segnalazione di autori, strumenti, campagne o tecniche di minaccia
Normativo/legale: leggi, azioni di contrasto, modifiche alle politiche o procedimenti giudiziari legati alla cybersecurity
Questa classificazione garantisce che le statistiche relative a "incidenti", "violazioni" o "attacchi" non vengano confuse con divulgazioni di vulnerabilità o commenti generici.
Clustering di eventi (aggregazione da articolo a evento)
Spesso diversi articoli riportano lo stesso incidente informatico. Per evitare di conteggiare più volte lo stesso evento:
Gli articoli che descrivono lo stesso incidente sono raggruppati in un unico evento
Agli eventi vengono assegnati identificatori interni stabili
Gli articoli vengono collegati a eventi esistenti solo quando vi è un elevato livello di certezza che descrivano lo stesso incidente
Gli indicatori utilizzati per il clustering includono organizzazioni colpite, autori di minacce, tempistiche e descrizioni degli incidenti.
I record a livello di evento mantengono:
Date della prima e dell'ultima apparizione
Numero di articoli correlati
Organizzazioni colpite
Autori di minacce citati
Link di origine per la verifica
Uso di analisi automatizzate e controlli di qualità
Classificazione automatizzata
Per la classificazione, l'estrazione e l'aggregazione viene utilizzata un'analisi strutturata e deterministica del modello linguistico. Tutti i risultati automatizzati seguono schemi predefiniti per garantire omogeneità.
I modelli operano con impostazioni deterministiche per ridurre la variabilità e il rischio di allucinazioni.
Garanzia di qualità
Per garantire l'accuratezza:
La convalida dello schema assicura che vengano conteggiati solo i risultati strutturati correttamente
Vengono eseguite regolari procedure mensili di campionamento e revisione, tra cui una verifica della precisione, per rilevare eventuali derive della classificazione. Questa verifica identifica possibili variazioni nella classificazione, fornendo così informazioni e rettifiche del modello.
I casi ambigui o ad alto impatto vengono segnalati affinché vengano sottoposti a revisione umana
Le statistiche aggregate mantengono la tracciabilità, che permette di risalire ai singoli articoli ed eventi
Come vengono calcolate le statistiche
Confronto tra metriche relative ad articoli ed eventi
Alcune statistiche si basano su:
Conteggi degli articoli (es. copertura mediatica)
Conteggi degli eventi (es. numero di violazioni o incidenti distinti)
Ove possibile, viene privilegiato l'utilizzo delle metriche relative agli eventi per ridurre le duplicazioni.
Interpretazione di conteggi e frequenze
Statistiche classificate in base al numero di "incidenti al giorno" o "violazioni all'anno" rappresentano attività segnalate o visibili sui media, non la totalità delle attività globali.
I dati telemetrici dei fornitori, i sistemi di reclamo governativi e le proiezioni economiche spesso riportano volumi significativamente più elevati per via delle differenze relative all'ambito e alla metodologia. Ove necessario, queste differenze sono segnalate.
Limitazioni e considerazioni
Nonostante l'impegno profuso per garantire accuratezza e omogeneità, i dati presentano limitazioni intrinseche:
Non tutti gli incidenti vengono divulgati o segnalati pubblicamente
La copertura mediatica varia a seconda dell'area geografica, del settore e della portata dell'incidente
Alcune fonti limitano l'accesso
In casi limite, possono verificarsi errori di classificazione
I dati sulle perdite economiche possono cambiare con l'avanzamento delle indagini
Le statistiche devono quindi essere interpretate come indicatori di tendenza e non come misurazioni esaustive.
Indice delle fonti
Ogni fonte numerata riportata di seguito corrisponde a un riferimento in apice utilizzato nella pagina "Statistiche di cybersecurity". I riferimenti in apice rimandano direttamente alla relativa fonte su questa pagina.
Fonte 1 Statista – |
|---|
Fonte 2 Identity Theft |
Fonte 3 Identity Theft |
Fonte 4 Verizon – |
Fonte 5 IBM – |
Fonte 6 South Korean |
Fonte 7 Aflac – June |
Fonte 8 HIPAA Journal – |
Fonte 9 California Attorney |
Fonte 10 Iowa Attorney |
Fonte 11 Rhode Island |
Fonte 12 Rhode Island |
Fonte 13 Aflac Newsroom – |
Fonte 14 HIPAA Journal – |
Fonte 15 Office of the |
Fonte 16 Qantas – Information |
Fonte 17 Qantas Newsroom – |
Fonte 18 Michigan Attorney |
Fonte 19 Maine Attorney |
Fonte 20 California Attorney |
Fonte 21 University of |
Fonte 22 Microsoft Digital |
Fonte 23 WIRED – NotPetya |
Fonte 24 Reuters – UnitedHealth |
Fonte 25 The Guardian – Jaguar |
Fonte 26 NBC News – |
Fonte 27 Delaware Department |
Fonte 28 Cybersecurity |
Fonte 29 JumpCloud – Phishing |
Fonte 30 Hornetsecurity – Email |
Fonte 31 Spearshield – |
Fonte 32 APWG – Phishing |
Fonte 33 arXiv – Academic |
Fonte 34 DeepStrike – Password |
Fonte 35 NordPass – Top 200 |
Fonte 36 Financial Times – |
Fonte 37 SecurityScorecard – |
Fonte 38 National Technology & |
Fonte 39 Palo Alto Networks – |
Fonte 40 IBM – Threat |
Fonte 41 Tenable – |
Fonte 42 Cybersecurity |
Fonte 43 Statista Market |
Fonte 44 Statista – Cost of |
Fonte 45 FTC – Consumer |
Fonte 46 FBI IC3 – 2024 Internet |
Fonte 47 Kroll – Data Breach |
Fonte 48 IBM – Cost of a Data |
Fonte 49 SailPoint – 2024 |
Fonte 50 DeepStrike – |
Fonte 51 Proofpoint & |
Fonte 52 Check Point – |
Fonte 53 Thales – 2024 |
Fonte 54 Cyfirma – Energy & |
Fonte 55 World Economic |
Fonte 56 DeepStrike – Cyber |
Fonte 57 Devolutions – State of |
Fonte 58 TotalAssure – |
Fonte 59 Cisco – Cybersecurity |
Fonte 60 IANS Research – |
Fonte 61 Munich Re – |
Fonte 62 Gartner – 2025 |
Fonte 63 Forrester – 2024 |
Fonte 64 Ivanti – State of |
Fonte 65 U.S. Department of |
Fonte 66 U.S. Department of |
Fonte 67 Google Cloud – |
Fonte 68 Gartner – Generative AI |
Fonte 69 Splashtop – Top |
Fonte 70 ENISA – Threat |