Statistiche sulla cybersecurity:
metodologia e fonti

Scopo di questa pagina

Questa pagina illustra come vengono raccolte, elaborate e interpretate le statistiche di sicurezza informatica presentate nella nostra pagina "Statistiche sulla cybersecurity" e offre la massima trasparenza sulle fonti di dati citate. La pagina principale delle Statistiche di cybersecurity presenta i risultati in forma sintetica e altri dettagli della ricerca di NordVPN.

Fonti dei dati e attribuzione

La ricerca delle fonti viene eseguita tramite l'API di Google Custom Search (GCS) utilizzando diversi motori di ricerca personalizzati (CSE) configurati per:

  • Testate giornalistiche: 44 fonti di informazione tradizionali e specializzate in tecnologia (es. BBC, CNN, The New York Times, WSJ, FT, Reuters, Bloomberg, TechCrunch, Wired, Ars Technica, Time, Forbes).

  • Siti autorevoli / di riferimento: 25 fonti del settore e specializzate (es. CISA, KrebsOnSecurity, The Hacker News, Dark Reading, BleepingComputer, SecurityWeek, Infosecurity Magazine).

  • Testate giornalistiche locali: più di 100 testate regionali e nazionali di APAC (Asia Pacifico), EMEA (Europa, Medio Oriente e Africa) e Americhe (es. Channel NewsAsia, CSA.gov.sg, Zaobao, HK01, unwire.hk, Japan Times, NISC, JPCERT, ITMedia).

  • Fonti senza restrizioni/generali.

Le query sono basate su parole chiave provenienti da un elenco aggiornato che raggruppa i termini per categoria.

Tutti i dati includono un'attribuzione esplicita:

  • Link all'articolo originale

  • Testata (dominio estratto dall'URL)

  • Date di pubblicazione e di raccolta

Sintetizziamo le informazioni provenienti da diverse fonti per fini statistici e aggregazione di eventi. Ogni statistica si basa su prove basate sugli articoli e memorizzate con link.

Frequenza di recupero e raccolta dei contenuti

Recupera il contenuto testuale integrale dai link individuati con:

  • Fonte primaria: NewsPlease

  • Metodo alternativo: download diretto dell'HTML con sessione Requests rafforzata ed estrazione del testo tramite lo strumento Trafilatura

Timeout, retry, fallback TLS e intestazioni Referer vengono utilizzati per ridurre gli errori temporanei.

La data di pubblicazione e il titolo vengono ricavati dallo strumento di estrazione, quando disponibili. Il parsing della data viene convertito in un formato che include unicamente la data.

Le richieste giornaliere prendono in esame i contenuti relativi all'ultimo giorno.

Estrazione degli attributi

I campi estratti includono:

  • Mezzo di comunicazione (dall'URL)

  • Primo paragrafo (prime 3–5 frasi)

  • Caratteristiche delle parole chiave: numero totale di occorrenze all'interno del testo e nel titolo, frasi contenenti la parola chiave principale e presenza di qualsiasi parola chiave nell'elenco gestito

  • Numero di parole

Valutazione della rilevanza LLM

Ogni articolo viene valutato da un LLM con un'impostazione deterministica (temperatura 0) e un prompt vincolato che richiede output espliciti e strutturati:

1. Se l'articolo è rilevante nell'ambito degli incidenti informatici

2. Se è rilevante, viene assegnato un tipo di evento di alto livello:

  • Incidente: un attacco informatico o una violazione sono già avvenuti e sono stati confermati (es. diffusione di ransomware, esfiltrazione di dati, DDoS, compromissione di un sistema).

  • Vulnerabilità: scoperta o divulgazione di una falla di sicurezza in software/hardware/sistemi che potrebbe essere sfruttata (rischio potenziale piuttosto che violazione confermata).

  • Threat intelligence: rapporti relativi ad autori di minacce, strumenti, TTP e campagne. Si concentra sul "chi/come", non su un incidente specifico ai danni di una determinata vittima.

  • Normativo/legale: leggi, regolamenti, azioni di contrasto, decisioni giudiziarie o importanti modifiche alle politiche che influiscono sugli obblighi in materia di cybersecurity.

Tipo di articolo e categorizzazione

Gli articoli pertinenti vengono classificati tramite prompt strutturati per la tassonomia (primari: stato dell'attacco, tipo di evento, aspetti normativi/legali; secondari: metriche/classe di impatto, specifiche tecniche, settori, area geografica, dimensioni, danno approssimativo).

Clustering di eventi (aggregazione da articolo a evento)

Obiettivo: raggruppare in un unico "evento" gli articoli che descrivono lo stesso incidente di base.

Metodo:

  • Recupera dal database gli eventi esistenti per fornire un contesto (titoli, organizzazioni colpite note, autori delle minacce, link).

  • Per ogni articolo considerato (dove Tipo di articolo = Singolo incidente), il modello LLM confronta i dettagli dell'articolo con gruppi di eventi esistenti e procede in uno dei seguenti modi:

1. Assegna un ID evento già esistente quando riscontra una corrispondenza con alto grado di attendibilità, oppure

2. Crea un nuovo evento.

  • I prompt necessitano di un elevato grado di precisione: un evento viene collegato a un altro esistente solo quando risulta altamente attendibile. L'organizzazione o le organizzazioni coinvolte, così come i segnali relativi agli autori delle minacce, sono considerati indicatori significativi.

Gli eventi mantengono campi aggregati: date di prima/ultima consultazione, numero di articoli, organizzazioni coinvolte, autori delle minacce, titoli, link.

Accuratezza e garanzia di qualità

Determinismo e vincoli:

  • Temperatura del modello LLM impostata su 0 per massimizzare il determinismo e ridurre le allucinazioni.

  • I prompt vincolati richiedono campi espliciti e output JSON; il parsing applica lo schema.

  • Gli articoli privi di contenuto (senza titolo/testo) vengono scartati preventivamente.

Metriche gestite dal modello LLM e convalidate tramite schema:

  • Tutti i campi delle metriche sono generati da esecuzioni deterministiche dell'LLM (temperatura 0) secondo linee guida rigorose e documentate e schemi JSON; vengono conteggiati solo gli output conformi allo schema e si esegue periodicamente un controllo qualità umano per calibrare il sistema e prevenire la deriva.

Classificazione di eventi/articoli per un filtraggio di precisione:

  • La classificazione del tipo di evento e dell'articolo rappresenta un filtro di rilevanza rigoroso, che esclude i contenuti fuori tema, a basso valore informativo o di tipo riassuntivo. Questa enfasi sulla segnalazione di singoli incidenti riduce il rumore e migliora in modo misurabile la precisione e l'accuratezza del set di dati.

Convalida da più fonti:

  • Il clustering degli eventi fa riferimento al contesto degli eventi precedentemente memorizzati; le discrepanze riducono la possibilità di accorpamenti errati.

  • Le aggregazioni includono l'elenco dei link di origine per ciascun evento per la verifica manuale.

Supervisione umana:

  • I casi ad alto impatto o ambigui possono essere segnalati affinché vengano sottoposti a revisione editoriale e verifica dei fatti.

  • Controlli periodici della qualità: un campione di articoli ed eventi viene sottoposto a verifica con cadenza mensile al fine di valutarne la precisione; eventuali scostamenti attivano adeguamenti del prompt/modello o delle parole chiave.

Tracciabilità:

  • Per garantirne la verificabilità, ogni dato statistico può essere ricondotto agli articoli e ai link contenuti nel database.

Limitazioni

Limiti di copertura:

  • L'individuazione basata su GCS dipende dalle parole chiave e dalla configurazione del CSE: non tutti gli incidenti vengono rilevati, soprattutto se non eseguiti nelle lingue configurate o nell'ambito di contenuti con accesso a pagamento.

  • Alcuni siti bloccano il recupero automatico: i relativi articoli potrebbero quindi mancare in parte o del tutto.

Rischi specifici dell'LLM:

  • Nonostante le impostazioni deterministiche e i prompt strutturati, potrebbero verificarsi errori di classificazione, soprattutto nel caso di testi scarni o ambigui.

  • La funzionalità di raggruppamento potrebbe suddividere lo stesso incidente in più eventi oppure, nei casi limite, accorpare incidenti simili che tuttavia sono distinti.

Come vengono calcolate le statistiche

I campi relativi a ciascun articolo derivano dall'estrazione diretta e dagli output LLM (memorizzati singolarmente per ciascun elemento).

Le metriche relative agli eventi aggregano gli articoli costitutivi per event_id:

  • Numero di articoli, date di prima/ultima consultazione

  • Organizzazioni colpite e autori di minacce previa rimozione dei duplicati

  • Titoli rappresentativi ed elenchi di link canonici

Le statistiche dei rapporti vengono estratte da queste tabelle memorizzate. Ogni dato può essere ricondotto alle righe degli eventi e alle voci dell'articolo di provenienza.

Ambito dei dati

Le statistiche e gli approfondimenti che vengono menzionati nei nostri contenuti sulla cybersecurity derivano da una combinazione di:

  • Segnalazioni di incidenti di sicurezza informatica di pubblico dominio

  • Copertura mediatica di incidenti informatici confermati

  • Rapporti e sondaggi di settore

  • Adempimenti informativi imposti da autorità governative e di regolamentazione

I dati riflettono attività osservabili e segnalate pubblicamente, non la totalità degli incidenti informatici che si verificano a livello globale. Molti incidenti informatici non vengono mai resi noti, segnalati o riportati dai media.

Fonti dei dati e individuazione

Tipi di fonti

Gli articoli e i rapporti relativi alla cybersecurity vengono raccolti da diverse categorie di fonti, tra cui:

  • Mezzi di informazione tradizionali e specializzati in tecnologia.
    Tra gli esempi figurano le principali testate giornalistiche internazionali e le pubblicazioni del settore tech.

  • Fonti autorevoli e redatte da esperti in materia di cybersecurity.
    Includono agenzie governative, organizzazioni che si occupano di ricerche sulla sicurezza informatica e pubblicazioni affermate del settore.

  • Testate giornalistiche regionali e locali.
    Queste fonti riportano incidenti di sicurezza informatica che si verificano in Nord America, Europa, Asia-Pacifico e altre aree geografiche.

  • Rapporti di settore e di ricerca.
    Includono relazioni annuali sulle violazioni, rapporti sul panorama delle minacce, sondaggi e analisi economiche.

Ogni fonte viene attribuita a livello di articolo o rapporto, mantenendone la data di pubblicazione, il canale di provenienza e l'URL originale.

Processo di individuazione

L'individuazione dei contenuti viene eseguita tramite query di ricerca automatizzate, basate su un elenco aggiornato di parole chiave relative alla cybersecurity. Le parole chiave sono raggruppate per argomento (es. violazioni di dati, ransomware, phishing, vulnerabilità, normative).

Le ricerche vengono eseguite su base giornaliera per acquisire i contenuti appena pubblicati. Ogni ricerca riguarda esclusivamente materiali recenti, così da garantire che il set di dati rifletta le segnalazioni attuali.

Raccolta ed elaborazione dei contenuti

Recupero degli articoli

Una volta individuata una fonte, il testo completo dell'articolo viene recuperato tramite strumenti di estrazione automatizzati. Se l'estrazione primaria non va a buon fine, vengono usati metodi di riserva per garantire una copertura affidabile.

Eliminazione dei duplicati

Per evitare il doppio conteggio:

  • Gli URL identici vengono elaborati una sola volta

  • Per i contenuti ripubblicati o distribuiti in syndication vengono rimossi gli articoli duplicati

  • L'aggregazione degli eventi (descritta di seguito) riduce ulteriormente la duplicazione tra i vari canali di provenienza

Filtraggio per rilevanza e classificazione

Grado di rilevanza in materia di cybersecurity

Ogni articolo viene valutato per determinare se risulta rilevante per le statistiche sulla sicurezza informatica. Gli articoli devono descrivere o analizzare in modo significativo un evento, una minaccia, una vulnerabilità o un atto normativo riguardanti la cybersecurity.

Classificazione del tipo di evento

Gli articoli pertinenti sono classificati in categorie di alto livello, tra cui:

  • Incidente: un attacco informatico o una violazione confermati che si sono già verificati

  • Vulnerabilità: divulgazione di una falla di sicurezza che potrebbe essere sfruttata

  • Threat intelligence: segnalazione di autori, strumenti, campagne o tecniche di minaccia

  • Normativo/legale: leggi, azioni di contrasto, modifiche alle politiche o procedimenti giudiziari legati alla cybersecurity

Questa classificazione garantisce che le statistiche relative a "incidenti", "violazioni" o "attacchi" non vengano confuse con divulgazioni di vulnerabilità o commenti generici.

Clustering di eventi (aggregazione da articolo a evento)

Spesso diversi articoli riportano lo stesso incidente informatico. Per evitare di conteggiare più volte lo stesso evento:

  • Gli articoli che descrivono lo stesso incidente sono raggruppati in un unico evento

  • Agli eventi vengono assegnati identificatori interni stabili

  • Gli articoli vengono collegati a eventi esistenti solo quando vi è un elevato livello di certezza che descrivano lo stesso incidente

Gli indicatori utilizzati per il clustering includono organizzazioni colpite, autori di minacce, tempistiche e descrizioni degli incidenti.

I record a livello di evento mantengono:

  • Date della prima e dell'ultima apparizione

  • Numero di articoli correlati

  • Organizzazioni colpite

  • Autori di minacce citati

  • Link di origine per la verifica

Uso di analisi automatizzate e controlli di qualità

Classificazione automatizzata

Per la classificazione, l'estrazione e l'aggregazione viene utilizzata un'analisi strutturata e deterministica del modello linguistico. Tutti i risultati automatizzati seguono schemi predefiniti per garantire omogeneità.

I modelli operano con impostazioni deterministiche per ridurre la variabilità e il rischio di allucinazioni.

Garanzia di qualità

Per garantire l'accuratezza:

  • La convalida dello schema assicura che vengano conteggiati solo i risultati strutturati correttamente

  • Vengono eseguite regolari procedure mensili di campionamento e revisione, tra cui una verifica della precisione, per rilevare eventuali derive della classificazione. Questa verifica identifica possibili variazioni nella classificazione, fornendo così informazioni e rettifiche del modello.

  • I casi ambigui o ad alto impatto vengono segnalati affinché vengano sottoposti a revisione umana

  • Le statistiche aggregate mantengono la tracciabilità, che permette di risalire ai singoli articoli ed eventi

Come vengono calcolate le statistiche

Confronto tra metriche relative ad articoli ed eventi

Alcune statistiche si basano su:

  • Conteggi degli articoli (es. copertura mediatica)

  • Conteggi degli eventi (es. numero di violazioni o incidenti distinti)

Ove possibile, viene privilegiato l'utilizzo delle metriche relative agli eventi per ridurre le duplicazioni.

Interpretazione di conteggi e frequenze

Statistiche classificate in base al numero di "incidenti al giorno" o "violazioni all'anno" rappresentano attività segnalate o visibili sui media, non la totalità delle attività globali.

I dati telemetrici dei fornitori, i sistemi di reclamo governativi e le proiezioni economiche spesso riportano volumi significativamente più elevati per via delle differenze relative all'ambito e alla metodologia. Ove necessario, queste differenze sono segnalate.

Limitazioni e considerazioni

Nonostante l'impegno profuso per garantire accuratezza e omogeneità, i dati presentano limitazioni intrinseche:

  • Non tutti gli incidenti vengono divulgati o segnalati pubblicamente

  • La copertura mediatica varia a seconda dell'area geografica, del settore e della portata dell'incidente

  • Alcune fonti limitano l'accesso

  • In casi limite, possono verificarsi errori di classificazione

  • I dati sulle perdite economiche possono cambiare con l'avanzamento delle indagini

Le statistiche devono quindi essere interpretate come indicatori di tendenza e non come misurazioni esaustive.

Indice delle fonti

Ogni fonte numerata riportata di seguito corrisponde a un riferimento in apice utilizzato nella pagina "Statistiche di cybersecurity". I riferimenti in apice rimandano direttamente alla relativa fonte su questa pagina.

Fonte 1

Statista –
Cybercrime worldwide

Fonte 2

Identity Theft
Resource Center
(ITRC) – Weekly
Breach
Breakdown
Q3 2025

Fonte 3

Identity Theft
Resource Center
(ITRC) – H1 2025
Data Breach Analysis

Fonte 4

Verizon –
Data Breach
Investigations
Report (DBIR) 2025

Fonte 5

IBM –
Cost of a Data
Breach Report 2025

Fonte 6

South Korean
Ministry of
Science and
ICT – SK Telecom data
exfiltration
incident

Fonte 7

Aflac – June
2025 security
incident
regulatory filing

Fonte 8

HIPAA Journal –
Largest healthcare
data breaches of 2025

Fonte 9

California Attorney
General – Aflac
breach report
(SB24-616010)

Fonte 10

Iowa Attorney
General – Aflac
data breach notification

Fonte 11

Rhode Island
Attorney General –
Data‑breach
notifications

Fonte 12

Rhode Island
AG –
Data‑breach
notification

Fonte 13

Aflac Newsroom –
June 2025
security incident
update

Fonte 14

HIPAA Journal –
Aflac data
breach article

Fonte 15

Office of the
Australian Information
Commissioner –
Statement on Qantas
cyber incident

Fonte 16

Qantas – Information
for customers on
cyber incident

Fonte 17

Qantas Newsroom –
Update on Qantas
cyber incident
(9 July 2025)

Fonte 18

Michigan Attorney
General – Consumer
alert on data breaches
(TransUnion)

Fonte 19

Maine Attorney
General – Allianz Life
cyber incident notice

Fonte 20

California Attorney
General – Allianz data
breach report
(SB24-612078)

Fonte 21

University of
Maryland – Cyber
Security Statistics

Fonte 22

Microsoft Digital
Defense Report 2023

Fonte 23

WIRED – NotPetya
cyberattack article

Fonte 24

Reuters – UnitedHealth
tech unit hack article

Fonte 25

The Guardian – Jaguar
Land Rover hack article

Fonte 26

NBC News –
MGM Resorts
cyberattack cost article

Fonte 27

Delaware Department
of Technology &
Information –
eSecurityNews
(Oct 2023)

Fonte 28

Cybersecurity
Ventures – Global
ransomware damage
cost projection

Fonte 29

JumpCloud – Phishing
attack statistics

Fonte 30

Hornetsecurity – Email
threats in 2024

Fonte 31

Spearshield –
Click‑to‑credential
phishing study

Fonte 32

APWG – Phishing
Activity Trends Reports

Fonte 33

arXiv – Academic
password/credential
research (2025)

Fonte 34

DeepStrike – Password
statistics 2025

Fonte 35

NordPass – Top 200
Most Common
Passwords

Fonte 36

Financial Times –
Supply‑chain
cybersecurity article

Fonte 37

SecurityScorecard –
2025 Supply Chain
Cybersecurity Trends

Fonte 38

National Technology &
Security Coalition –
2025 Software Supply
Chain Security Report

Fonte 39

Palo Alto Networks –
State of Cloud
Native Security

Fonte 40

IBM – Threat
Intelligence Report

Fonte 41

Tenable –
Cloud Security
Risk Report 2025

Fonte 42

Cybersecurity
Ventures –
Cybersecurity Cost
Report

Fonte 43

Statista Market
Insights – Estimated
cost of cybercrime
worldwide 2018‑2029
(ResearchGate)

Fonte 44

Statista – Cost of
cybercrime worldwide
forecast

Fonte 45

FTC – Consumer
Sentinel Network Data
Book 2024

Fonte 46

FBI IC3 – 2024 Internet
Crime Report

Fonte 47

Kroll – Data Breach
Outlook 2025

Fonte 48

IBM – Cost of a Data
Breach 2024: Financial
Industry

Fonte 49

SailPoint – 2024
State of Identity
Security in Financial
Services

Fonte 50

DeepStrike –
Healthcare data
breach statistics 2025

Fonte 51

Proofpoint &
Ponemon – Healthcare
Cybersecurity Report

Fonte 52

Check Point –
Cyber Security
Report 2025

Fonte 53

Thales – 2024
Data Threat Report:
Critical Infrastructure
Edition

Fonte 54

Cyfirma – Energy &
Utilities industry report

Fonte 55

World Economic
Forum – Global
Cybersecurity Outlook
2025

Fonte 56

DeepStrike – Cyber
attacks on small
businesses

Fonte 57

Devolutions – State of
IT Security Report 2025

Fonte 58

TotalAssure –
Small business
cybersecurity statistics
2025

Fonte 59

Cisco – Cybersecurity
Readiness Index 2025

Fonte 60

IANS Research –
Security budgets
press release (2024)

Fonte 61

Munich Re –
Cyber insurance risks
and trends 2025

Fonte 62

Gartner – 2025
information security
spending forecast

Fonte 63

Forrester – 2024
Cybersecurity
Benchmarks (Global)

Fonte 64

Ivanti – State of
Cybersecurity Report

Fonte 65

U.S. Department of
Homeland Security –
FY 2025 Budget in Brief

Fonte 66

U.S. Department of
Defense – CYBERCOM
Budget Justification

Fonte 67

Google Cloud –
Cybersecurity forecast

Fonte 68

Gartner – Generative AI
attack survey
(Sep 22 2025)

Fonte 69

Splashtop – Top
cybersecurity trends
and predictions
for 2026

Fonte 70

ENISA – Threat
Landscape 2024