Statistiche sulla cybersecurity:
metodologia e fonti

Scopo di questa pagina

Questa pagina illustra come vengono raccolte, elaborate e interpretate le statistiche di sicurezza informatica presentate nella nostra pagina "Statistiche sulla cybersecurity" e offre la massima trasparenza sulle fonti di dati citate. La pagina principale delle Statistiche di cybersecurity presenta i risultati in forma sintetica e altri dettagli della ricerca di NordVPN.

Fonti dei dati e attribuzione

La ricerca delle fonti viene eseguita tramite l'API di Google Custom Search (GCS) utilizzando diversi motori di ricerca personalizzati (CSE) configurati per:

Testate giornalistiche: 44 fonti di informazione tradizionali e specializzate in tecnologia (es. BBC, CNN, The New York Times, WSJ, FT, Reuters, Bloomberg, TechCrunch, Wired, Ars Technica, Time, Forbes).
Siti autorevoli / di riferimento: 25 fonti del settore e specializzate (es. CISA, KrebsOnSecurity, The Hacker News, Dark Reading, BleepingComputer, SecurityWeek, Infosecurity Magazine).
Testate giornalistiche locali: più di 100 testate regionali e nazionali di APAC (Asia Pacifico), EMEA (Europa, Medio Oriente e Africa) e Americhe (es. Channel NewsAsia, CSA.gov.sg, Zaobao, HK01, unwire.hk, Japan Times, NISC, JPCERT, ITMedia).
Fonti senza restrizioni/generali.

Le query sono basate su parole chiave provenienti da un elenco aggiornato che raggruppa i termini per categoria.

Tutti i dati includono un'attribuzione esplicita:

Link all'articolo originale
Testata (dominio estratto dall'URL)
Date di pubblicazione e di raccolta

Sintetizziamo le informazioni provenienti da diverse fonti per fini statistici e aggregazione di eventi. Ogni statistica si basa su prove basate sugli articoli e memorizzate con link.

Frequenza di recupero e raccolta dei contenuti

Recupera il contenuto testuale integrale dai link individuati con:

Fonte primaria: NewsPlease
Metodo alternativo: download diretto dell'HTML con sessione Requests rafforzata ed estrazione del testo tramite lo strumento Trafilatura

Timeout, retry, fallback TLS e intestazioni Referer vengono utilizzati per ridurre gli errori temporanei.

La data di pubblicazione e il titolo vengono ricavati dallo strumento di estrazione, quando disponibili. Il parsing della data viene convertito in un formato che include unicamente la data.

Le richieste giornaliere prendono in esame i contenuti relativi all'ultimo giorno.

Estrazione degli attributi

I campi estratti includono:

Mezzo di comunicazione (dall'URL)
Primo paragrafo (prime 3–5 frasi)
Caratteristiche delle parole chiave: numero totale di occorrenze all'interno del testo e nel titolo, frasi contenenti la parola chiave principale e presenza di qualsiasi parola chiave nell'elenco gestito
Numero di parole

Valutazione della rilevanza LLM

Ogni articolo viene valutato da un LLM con un'impostazione deterministica (temperatura 0) e un prompt vincolato che richiede output espliciti e strutturati:

1. Se l'articolo è rilevante nell'ambito degli incidenti informatici

2. Se è rilevante, viene assegnato un tipo di evento di alto livello:

Incidente: un attacco informatico o una violazione sono già avvenuti e sono stati confermati (es. diffusione di ransomware, esfiltrazione di dati, DDoS, compromissione di un sistema).
Vulnerabilità: scoperta o divulgazione di una falla di sicurezza in software/hardware/sistemi che potrebbe essere sfruttata (rischio potenziale piuttosto che violazione confermata).
Threat intelligence: rapporti relativi ad autori di minacce, strumenti, TTP e campagne. Si concentra sul "chi/come", non su un incidente specifico ai danni di una determinata vittima.
Normativo/legale: leggi, regolamenti, azioni di contrasto, decisioni giudiziarie o importanti modifiche alle politiche che influiscono sugli obblighi in materia di cybersecurity.

Tipo di articolo e categorizzazione

Gli articoli pertinenti vengono classificati tramite prompt strutturati per la tassonomia (primari: stato dell'attacco, tipo di evento, aspetti normativi/legali; secondari: metriche/classe di impatto, specifiche tecniche, settori, area geografica, dimensioni, danno approssimativo).

Clustering di eventi (aggregazione da articolo a evento)

Obiettivo: raggruppare in un unico "evento" gli articoli che descrivono lo stesso incidente di base.

Metodo:

Recupera dal database gli eventi esistenti per fornire un contesto (titoli, organizzazioni colpite note, autori delle minacce, link).
Per ogni articolo considerato (dove Tipo di articolo = Singolo incidente), il modello LLM confronta i dettagli dell'articolo con gruppi di eventi esistenti e procede in uno dei seguenti modi:

1. Assegna un ID evento già esistente quando riscontra una corrispondenza con alto grado di attendibilità, oppure

2. Crea un nuovo evento.

I prompt necessitano di un elevato grado di precisione: un evento viene collegato a un altro esistente solo quando risulta altamente attendibile. L'organizzazione o le organizzazioni coinvolte, così come i segnali relativi agli autori delle minacce, sono considerati indicatori significativi.

Gli eventi mantengono campi aggregati: date di prima/ultima consultazione, numero di articoli, organizzazioni coinvolte, autori delle minacce, titoli, link.

Accuratezza e garanzia di qualità

Determinismo e vincoli:

Temperatura del modello LLM impostata su 0 per massimizzare il determinismo e ridurre le allucinazioni.
I prompt vincolati richiedono campi espliciti e output JSON; il parsing applica lo schema.
Gli articoli privi di contenuto (senza titolo/testo) vengono scartati preventivamente.

Metriche gestite dal modello LLM e convalidate tramite schema:

Tutti i campi delle metriche sono generati da esecuzioni deterministiche dell'LLM (temperatura 0) secondo linee guida rigorose e documentate e schemi JSON; vengono conteggiati solo gli output conformi allo schema e si esegue periodicamente un controllo qualità umano per calibrare il sistema e prevenire la deriva.

Classificazione di eventi/articoli per un filtraggio di precisione:

La classificazione del tipo di evento e dell'articolo rappresenta un filtro di rilevanza rigoroso, che esclude i contenuti fuori tema, a basso valore informativo o di tipo riassuntivo. Questa enfasi sulla segnalazione di singoli incidenti riduce il rumore e migliora in modo misurabile la precisione e l'accuratezza del set di dati.

Convalida da più fonti:

Il clustering degli eventi fa riferimento al contesto degli eventi precedentemente memorizzati; le discrepanze riducono la possibilità di accorpamenti errati.
Le aggregazioni includono l'elenco dei link di origine per ciascun evento per la verifica manuale.

Supervisione umana:

I casi ad alto impatto o ambigui possono essere segnalati affinché vengano sottoposti a revisione editoriale e verifica dei fatti.
Controlli periodici della qualità: un campione di articoli ed eventi viene sottoposto a verifica con cadenza mensile al fine di valutarne la precisione; eventuali scostamenti attivano adeguamenti del prompt/modello o delle parole chiave.

Tracciabilità:

Per garantirne la verificabilità, ogni dato statistico può essere ricondotto agli articoli e ai link contenuti nel database.

Limitazioni

Limiti di copertura:

L'individuazione basata su GCS dipende dalle parole chiave e dalla configurazione del CSE: non tutti gli incidenti vengono rilevati, soprattutto se non eseguiti nelle lingue configurate o nell'ambito di contenuti con accesso a pagamento.
Alcuni siti bloccano il recupero automatico: i relativi articoli potrebbero quindi mancare in parte o del tutto.

Rischi specifici dell'LLM:

Nonostante le impostazioni deterministiche e i prompt strutturati, potrebbero verificarsi errori di classificazione, soprattutto nel caso di testi scarni o ambigui.
La funzionalità di raggruppamento potrebbe suddividere lo stesso incidente in più eventi oppure, nei casi limite, accorpare incidenti simili che tuttavia sono distinti.

Come vengono calcolate le statistiche

I campi relativi a ciascun articolo derivano dall'estrazione diretta e dagli output LLM (memorizzati singolarmente per ciascun elemento).

Le metriche relative agli eventi aggregano gli articoli costitutivi per event_id:

Numero di articoli, date di prima/ultima consultazione
Organizzazioni colpite e autori di minacce previa rimozione dei duplicati
Titoli rappresentativi ed elenchi di link canonici

Le statistiche dei rapporti vengono estratte da queste tabelle memorizzate. Ogni dato può essere ricondotto alle righe degli eventi e alle voci dell'articolo di provenienza.

Ambito dei dati

Le statistiche e gli approfondimenti che vengono menzionati nei nostri contenuti sulla cybersecurity derivano da una combinazione di:

Segnalazioni di incidenti di sicurezza informatica di pubblico dominio
Copertura mediatica di incidenti informatici confermati
Rapporti e sondaggi di settore
Adempimenti informativi imposti da autorità governative e di regolamentazione

I dati riflettono attività osservabili e segnalate pubblicamente, non la totalità degli incidenti informatici che si verificano a livello globale. Molti incidenti informatici non vengono mai resi noti, segnalati o riportati dai media.

Fonti dei dati e individuazione

Tipi di fonti

Gli articoli e i rapporti relativi alla cybersecurity vengono raccolti da diverse categorie di fonti, tra cui:

Mezzi di informazione tradizionali e specializzati in tecnologia.
Tra gli esempi figurano le principali testate giornalistiche internazionali e le pubblicazioni del settore tech.
Fonti autorevoli e redatte da esperti in materia di cybersecurity.
Includono agenzie governative, organizzazioni che si occupano di ricerche sulla sicurezza informatica e pubblicazioni affermate del settore.
Testate giornalistiche regionali e locali.
Queste fonti riportano incidenti di sicurezza informatica che si verificano in Nord America, Europa, Asia-Pacifico e altre aree geografiche.
Rapporti di settore e di ricerca.
Includono relazioni annuali sulle violazioni, rapporti sul panorama delle minacce, sondaggi e analisi economiche.

Ogni fonte viene attribuita a livello di articolo o rapporto, mantenendone la data di pubblicazione, il canale di provenienza e l'URL originale.

Processo di individuazione

L'individuazione dei contenuti viene eseguita tramite query di ricerca automatizzate, basate su un elenco aggiornato di parole chiave relative alla cybersecurity. Le parole chiave sono raggruppate per argomento (es. violazioni di dati, ransomware, phishing, vulnerabilità, normative).

Le ricerche vengono eseguite su base giornaliera per acquisire i contenuti appena pubblicati. Ogni ricerca riguarda esclusivamente materiali recenti, così da garantire che il set di dati rifletta le segnalazioni attuali.

Raccolta ed elaborazione dei contenuti

Recupero degli articoli

Una volta individuata una fonte, il testo completo dell'articolo viene recuperato tramite strumenti di estrazione automatizzati. Se l'estrazione primaria non va a buon fine, vengono usati metodi di riserva per garantire una copertura affidabile.

Eliminazione dei duplicati

Per evitare il doppio conteggio:

Gli URL identici vengono elaborati una sola volta
Per i contenuti ripubblicati o distribuiti in syndication vengono rimossi gli articoli duplicati
L'aggregazione degli eventi (descritta di seguito) riduce ulteriormente la duplicazione tra i vari canali di provenienza

Filtraggio per rilevanza e classificazione

Grado di rilevanza in materia di cybersecurity

Ogni articolo viene valutato per determinare se risulta rilevante per le statistiche sulla sicurezza informatica. Gli articoli devono descrivere o analizzare in modo significativo un evento, una minaccia, una vulnerabilità o un atto normativo riguardanti la cybersecurity.

Classificazione del tipo di evento

Gli articoli pertinenti sono classificati in categorie di alto livello, tra cui:

Incidente: un attacco informatico o una violazione confermati che si sono già verificati
Vulnerabilità: divulgazione di una falla di sicurezza che potrebbe essere sfruttata
Threat intelligence: segnalazione di autori, strumenti, campagne o tecniche di minaccia
Normativo/legale: leggi, azioni di contrasto, modifiche alle politiche o procedimenti giudiziari legati alla cybersecurity

Questa classificazione garantisce che le statistiche relative a "incidenti", "violazioni" o "attacchi" non vengano confuse con divulgazioni di vulnerabilità o commenti generici.

Clustering di eventi (aggregazione da articolo a evento)

Spesso diversi articoli riportano lo stesso incidente informatico. Per evitare di conteggiare più volte lo stesso evento:

Gli articoli che descrivono lo stesso incidente sono raggruppati in un unico evento
Agli eventi vengono assegnati identificatori interni stabili
Gli articoli vengono collegati a eventi esistenti solo quando vi è un elevato livello di certezza che descrivano lo stesso incidente

Gli indicatori utilizzati per il clustering includono organizzazioni colpite, autori di minacce, tempistiche e descrizioni degli incidenti.

I record a livello di evento mantengono:

Date della prima e dell'ultima apparizione
Numero di articoli correlati
Organizzazioni colpite
Autori di minacce citati
Link di origine per la verifica

Uso di analisi automatizzate e controlli di qualità

Classificazione automatizzata

Per la classificazione, l'estrazione e l'aggregazione viene utilizzata un'analisi strutturata e deterministica del modello linguistico. Tutti i risultati automatizzati seguono schemi predefiniti per garantire omogeneità.

I modelli operano con impostazioni deterministiche per ridurre la variabilità e il rischio di allucinazioni.

Garanzia di qualità

Per garantire l'accuratezza:

La convalida dello schema assicura che vengano conteggiati solo i risultati strutturati correttamente
Vengono eseguite regolari procedure mensili di campionamento e revisione, tra cui una verifica della precisione, per rilevare eventuali derive della classificazione. Questa verifica identifica possibili variazioni nella classificazione, fornendo così informazioni e rettifiche del modello.
I casi ambigui o ad alto impatto vengono segnalati affinché vengano sottoposti a revisione umana
Le statistiche aggregate mantengono la tracciabilità, che permette di risalire ai singoli articoli ed eventi

Come vengono calcolate le statistiche

Confronto tra metriche relative ad articoli ed eventi

Alcune statistiche si basano su:

Conteggi degli articoli (es. copertura mediatica)
Conteggi degli eventi (es. numero di violazioni o incidenti distinti)

Ove possibile, viene privilegiato l'utilizzo delle metriche relative agli eventi per ridurre le duplicazioni.

Interpretazione di conteggi e frequenze

Statistiche classificate in base al numero di "incidenti al giorno" o "violazioni all'anno" rappresentano attività segnalate o visibili sui media, non la totalità delle attività globali.

I dati telemetrici dei fornitori, i sistemi di reclamo governativi e le proiezioni economiche spesso riportano volumi significativamente più elevati per via delle differenze relative all'ambito e alla metodologia. Ove necessario, queste differenze sono segnalate.

Limitazioni e considerazioni

Nonostante l'impegno profuso per garantire accuratezza e omogeneità, i dati presentano limitazioni intrinseche:

Non tutti gli incidenti vengono divulgati o segnalati pubblicamente
La copertura mediatica varia a seconda dell'area geografica, del settore e della portata dell'incidente
Alcune fonti limitano l'accesso
In casi limite, possono verificarsi errori di classificazione
I dati sulle perdite economiche possono cambiare con l'avanzamento delle indagini

Le statistiche devono quindi essere interpretate come indicatori di tendenza e non come misurazioni esaustive.

Indice delle fonti

Ogni fonte numerata riportata di seguito corrisponde a un riferimento in apice utilizzato nella pagina "Statistiche di cybersecurity". I riferimenti in apice rimandano direttamente alla relativa fonte su questa pagina.

Fonte ¹ Statista – Cybercrime worldwide Link⁠‌
Fonte ² Identity Theft Resource Center (ITRC) – Weekly Breach Breakdown Q3 2025 Link⁠‌
Fonte ³ Identity Theft Resource Center (ITRC) – H1 2025 Data Breach Analysis Link⁠‌
Fonte ⁴ Verizon – Data Breach Investigations Report (DBIR) 2025 Link⁠‌
Fonte ⁵ IBM – Cost of a Data Breach Report 2025 Link⁠‌
Fonte ⁶ South Korean Ministry of Science and ICT – SK Telecom data exfiltration incident Link⁠‌
Fonte ⁷ Aflac – June 2025 security incident regulatory filing Link⁠‌
Fonte ⁸ HIPAA Journal – Largest healthcare data breaches of 2025 Link⁠‌
Fonte ⁹ California Attorney General – Aflac breach report (SB24-616010) Link⁠‌
Fonte ¹⁰ Iowa Attorney General – Aflac data breach notification Link⁠‌
Fonte ¹¹ Rhode Island Attorney General – Data‑breach notifications Link⁠‌
Fonte ¹² Rhode Island AG – Data‑breach notification Link⁠‌
Fonte ¹³ Aflac Newsroom – June 2025 security incident update Link⁠‌
Fonte ¹⁴ HIPAA Journal – Aflac data breach article Link⁠‌
Fonte ¹⁵ Office of the Australian Information Commissioner – Statement on Qantas cyber incident Link⁠‌
Fonte ¹⁶ Qantas – Information for customers on cyber incident Link⁠‌
Fonte ¹⁷ Qantas Newsroom – Update on Qantas cyber incident (9 July 2025) Link⁠‌
Fonte ¹⁸ Michigan Attorney General – Consumer alert on data breaches (TransUnion) Link⁠‌
Fonte ¹⁹ Maine Attorney General – Allianz Life cyber incident notice Link⁠‌
Fonte ²⁰ California Attorney General – Allianz data breach report (SB24-612078) Link⁠‌
Fonte ²¹ University of Maryland – Cyber Security Statistics Link⁠‌
Fonte ²² Microsoft Digital Defense Report 2023 Link⁠‌
Fonte ²³ WIRED – NotPetya cyberattack article Link⁠‌
Fonte ²⁴ Reuters – UnitedHealth tech unit hack article Link⁠‌
Fonte ²⁵ The Guardian – Jaguar Land Rover hack article Link⁠‌
Fonte ²⁶ NBC News – MGM Resorts cyberattack cost article Link⁠‌
Fonte ²⁷ Delaware Department of Technology & Information – eSecurityNews (Oct 2023) Link⁠‌
Fonte ²⁸ Cybersecurity Ventures – Global ransomware damage cost projection Link⁠‌
Fonte ²⁹ JumpCloud – Phishing attack statistics Link⁠‌
Fonte ³⁰ Hornetsecurity – Email threats in 2024 Link⁠‌
Fonte ³¹ Spearshield – Click‑to‑credential phishing study Link⁠‌
Fonte ³² APWG – Phishing Activity Trends Reports Link⁠‌
Fonte ³³ arXiv – Academic password/credential research (2025) Link⁠‌
Fonte ³⁴ DeepStrike – Password statistics 2025 Link⁠‌
Fonte ³⁵ NordPass – Top 200 Most Common Passwords Link⁠‌
Fonte ³⁶ Financial Times – Supply‑chain cybersecurity article Link⁠‌
Fonte ³⁷ SecurityScorecard – 2025 Supply Chain Cybersecurity Trends Link⁠‌
Fonte ³⁸ National Technology & Security Coalition – 2025 Software Supply Chain Security Report Link⁠‌
Fonte ³⁹ Palo Alto Networks – State of Cloud Native Security Link⁠‌
Fonte ⁴⁰ IBM – Threat Intelligence Report Link⁠‌
Fonte ⁴¹ Tenable – Cloud Security Risk Report 2025 Link⁠‌
Fonte ⁴² Cybersecurity Ventures – Cybersecurity Cost Report Link⁠‌
Fonte ⁴³ Statista Market Insights – Estimated cost of cybercrime worldwide 2018‑2029 (ResearchGate) Link⁠‌
Fonte ⁴⁴ Statista – Cost of cybercrime worldwide forecast Link⁠‌
Fonte ⁴⁵ FTC – Consumer Sentinel Network Data Book 2024 Link⁠‌
Fonte ⁴⁶ FBI IC3 – 2024 Internet Crime Report Link⁠‌
Fonte ⁴⁷ Kroll – Data Breach Outlook 2025 Link⁠‌
Fonte ⁴⁸ IBM – Cost of a Data Breach 2024: Financial Industry Link⁠‌
Fonte ⁴⁹ SailPoint – 2024 State of Identity Security in Financial Services Link⁠‌
Fonte ⁵⁰ DeepStrike – Healthcare data breach statistics 2025 Link⁠‌
Fonte ⁵¹ Proofpoint & Ponemon – Healthcare Cybersecurity Report Link⁠‌
Fonte ⁵² Check Point – Cyber Security Report 2025 Link⁠‌
Fonte ⁵³ Thales – 2024 Data Threat Report: Critical Infrastructure Edition Link⁠‌
Fonte ⁵⁴ Cyfirma – Energy & Utilities industry report Link⁠‌
Fonte ⁵⁵ World Economic Forum – Global Cybersecurity Outlook 2025 Link⁠‌
Fonte ⁵⁶ DeepStrike – Cyber attacks on small businesses Link⁠‌
Fonte ⁵⁷ Devolutions – State of IT Security Report 2025 Link⁠‌
Fonte ⁵⁸ TotalAssure – Small business cybersecurity statistics 2025 Link⁠‌
Fonte ⁵⁹ Cisco – Cybersecurity Readiness Index 2025 Link⁠‌
Fonte ⁶⁰ IANS Research – Security budgets press release (2024) Link⁠‌
Fonte ⁶¹ Munich Re – Cyber insurance risks and trends 2025 Link⁠‌
Fonte ⁶² Gartner – 2025 information security spending forecast Link⁠‌
Fonte ⁶³ Forrester – 2024 Cybersecurity Benchmarks (Global) Link⁠‌
Fonte ⁶⁴ Ivanti – State of Cybersecurity Report Link⁠‌
Fonte ⁶⁵ U.S. Department of Homeland Security – FY 2025 Budget in Brief Link⁠‌
Fonte ⁶⁶ U.S. Department of Defense – CYBERCOM Budget Justification Link⁠‌
Fonte ⁶⁷ Google Cloud – Cybersecurity forecast Link⁠‌
Fonte ⁶⁸ Gartner – Generative AI attack survey (Sep 22 2025) Link⁠‌
Fonte ⁶⁹ Splashtop – Top cybersecurity trends and predictions for 2026 Link⁠‌
Fonte ⁷⁰ ENISA – Threat Landscape 2024 Link⁠‌

Statistiche sulla cybersecurity: metodologia e fonti

Scopo di questa pagina

Ambito dei dati

Fonti dei dati e individuazione

Tipi di fonti

Processo di individuazione

Raccolta ed elaborazione dei contenuti

Recupero degli articoli

Eliminazione dei duplicati

Filtraggio per rilevanza e classificazione

Grado di rilevanza in materia di cybersecurity

Classificazione del tipo di evento

Clustering di eventi (aggregazione da articolo a evento)

Uso di analisi automatizzate e controlli di qualità

Classificazione automatizzata

Garanzia di qualità

Come vengono calcolate le statistiche

Confronto tra metriche relative ad articoli ed eventi

Interpretazione di conteggi e frequenze

Limitazioni e considerazioni

Indice delle fonti

Statistiche sulla cybersecurity:
metodologia e fonti