Estatísticas de cibersegurança:
Metodologia e fontes

Objetivo desta página

Esta página explica como as estatísticas de cibersegurança apresentadas na nossa página de Estatísticas de Cibersegurança são recolhidas, processadas e interpretadas, e fornece total transparência relativamente às fontes de dados referenciadas. A página principal de Estatísticas de Cibersegurança apresenta conclusões resumidas e informações de investigação da NordVPN.

Fontes de dados e atribuição

A descoberta de fontes é realizada através da API do Google Custom Search (GCS), utilizando vários motores de pesquisa personalizados (CSE) configurados para:

  • meios de comunicação: 44 fontes de comunicação tradicionais e de tecnologia (por exemplo, BBC, CNN, The New York Times, WSJ, FT, Reuters, Bloomberg, TechCrunch, Wired, Ars Technica, Time, Forbes).

  • sites de referência/autoridade: 25 fontes do setor e especialistas (por exemplo, CISA, KrebsOnSecurity, The Hacker News, Dark Reading, BleepingComputer, SecurityWeek, Infosecurity Magazine).

  • notícias locais: mais de 100 meios de comunicação regionais e nacionais na APAC, EMEA e nas Américas (por exemplo, Channel NewsAsia, CSA.gov.sg, Zaobao; HK01, unwire.hk; Japan Times, NISC, JPCERT, ITMedia).

  • sem restrições/geral.

As consultas são orientadas por palavras-chave de uma lista de palavras-chave mantida que agrupa os termos por categoria.

Todos os registos incluem uma atribuição explícita:

  • Ligação para o artigo original

  • Meio de comunicação (domínio extraído do URL)

  • Data de publicação e data de recolha

Sintetizamos informações de muitas fontes para estatísticas e agregação de eventos. Cada estatística é derivada de evidências ao nível do artigo armazenadas com ligações.

Frequência de recuperação e recolha de conteúdo

Obtém conteúdo de texto completo a partir de links descobertos com:

  • Principal: NewsPlease

  • Alternativa: transferência direta de HTML com sessão de pedidos reforçada e extração de trafilatura.

São utilizados tempos limite, repetições, fallbacks TLS e cabeçalhos Referer para reduzir falhas transitórias.

A data de publicação e o título são retirados do extrator, quando disponíveis. A análise da data é normalizada para apenas data.

As execuções diárias consultam o conteúdo do último dia.

Extração de funcionalidades

Os campos extraídos incluem:

  • Meio de comunicação (a partir do URL)

  • Primeiro parágrafo (primeiras três a cinco frases)

  • Funcionalidades das palavras-chave: contagem total no texto, presença no título, frases que contêm a palavra-chave principal e presença de quaisquer palavras-chave da lista mantida

  • Número de palavras

Avaliação de relevância por LLM

Cada artigo é avaliado por um LLM com uma configuração determinística (temperatura 0) e um prompt restrito que requer resultados explícitos e estruturados:

1. Se o artigo é relevante para um ciberincidente

2. Se for relevante, é atribuído um tipo de evento de alto nível:

  • Incidente: já ocorreu um ciberataque ou uma violação confirmada (por exemplo, implantação de ransomware, exfiltração de dados, DDoS, comprometimento do sistema).

  • Vulnerabilidade: Descoberta ou divulgação de uma falha de segurança em software/hardware/sistemas que poderia ser explorada (risco potencial em vez de exploração confirmada).

  • Informações sobre ameaças: relatórios sobre agentes maliciosos, ferramentas, TTP e campanhas. Com foco em "quem/como", e não num incidente específico envolvendo uma vítima.

  • Regulamentar‑Jurídico: Leis, regulamentos, ações de execução, decisões judiciais ou grandes alterações de políticas que afetam as obrigações de cibersegurança.

Tipo de artigo e categorização

Os artigos relevantes são categorizados através de pedidos de taxonomia estruturados (primário: estado do ataque, tipo de evento, regulamentar/jurídico; secundário: métricas/classe de impacto, especificidades técnicas, setores, geografia, dimensão, danos aproximados).

Agrupamento de eventos (agregação de artigo a evento)

Objetivo: agrupar artigos que descrevam o mesmo incidente subjacente num único "evento".

Método:

  • Recuperar eventos existentes da base de dados para fornecer contexto (títulos, organizações afetadas conhecidas, agentes de ameaças, ligações).

  • Para cada artigo candidato (em que Tipo de Artigo = Incidente Único), o LLM compara os detalhes do artigo com lotes de eventos existentes e:

1. Atribui um ID de evento existente quando há uma correspondência de alta confiança, ou

2. Caso contrário, cria um novo evento.

  • Os prompts enfatizam a alta precisão: um evento existente só é ligado quando o nível de confiança é elevado. As organizações afetadas e os sinais de agentes de ameaças são tratados como indicadores fortes.

Os eventos mantêm campos agregados: datas da primeira/última visualização, número de artigos, organizações afetadas, agentes de ameaças, títulos, ligações.

Precisão e garantia de qualidade

Determinismo e restrições:

  • A temperatura do LLM foi definida para 0 para maximizar o determinismo e reduzir as alucinações.

  • Os pedidos restritos exigem campos explícitos e saídas JSON; a análise impõe o esquema.

  • Os artigos sem conteúdo (sem título/texto) são rejeitados antecipadamente.

Métricas regidas por LLM e validadas por esquema:

  • Todos os campos de métricas são produzidos por execuções determinísticas de LLM (temperatura 0) sob diretrizes rigorosas e documentadas e esquemas JSON. Apenas os resultados em conformidade com o esquema são contabilizados, com controlo de qualidade humano periódico para calibrar e prevenir desvios.

Classificação de eventos/artigos para filtragem precisa:

  • A classificação por tipo de evento e foco do artigo serve como um filtro de relevância rigoroso, eliminando conteúdos fora do tema, de baixo sinal ou de estilo de resumo. Este foco na comunicação de incidentes individuais reduz o ruído e melhora de forma mensurável a precisão e a exatidão do conjunto de dados.

Validação de múltiplas fontes:

  • O agrupamento de eventos faz referência ao contexto de eventos armazenado anteriormente. As incompatibilidades reduzem a probabilidade de fusões incorretas.

  • As agregações incluem a lista de ligações de origem por evento para verificação manual.

Intervenção humana:

  • Casos de grande impacto ou ambíguos podem ser sinalizados para revisão editorial e verificação de factos.

  • Revisões regulares de controlo de qualidade: artigos e eventos amostrados são auditados mensalmente, com uma revisão de precisão. Qualquer desvio desencadeia ajustes de pedido/modelo ou palavra-chave.

Rastreabilidade:

  • Todas as estatísticas podem ser atribuídas a artigos e ligações contidas na base de dados para efeitos de auditoria.

Limitações

Limites de cobertura:

  • A descoberta baseada em GCS depende de palavras-chave e da configuração do CSE. Nem todos os incidentes são capturados, especialmente fora dos idiomas configurados ou de conteúdos com acesso pago.

  • Alguns sites bloqueiam a recuperação automatizada. Esses artigos podem estar parcial ou totalmente ausentes.

Riscos específicos do LLM:

  • Apesar das definições determinísticas e dos prompts estruturados, pode ocorrer uma classificação incorreta, especialmente com textos escassos ou ambíguos.

  • O agrupamento de eventos pode dividir o mesmo incidente em vários eventos ou unir incidentes semelhantes, mas distintos, em casos extremos.

Como as estatísticas são calculadas

Os campos ao nível do artigo são derivados da extração direta e dos resultados do LLM (armazenados por registo).

As métricas ao nível do evento agregam os artigos constituintes por event_id:

  • contagens de artigos, datas da primeira/última visualização

  • organizações afetadas e agentes maliciosos deduplicados

  • títulos representativos e listas de ligações canónicas

As estatísticas dos relatórios são extraídas destas tabelas armazenadas. Cada valor pode ser rastreado até às linhas de eventos e aos registos de artigos subjacentes.

Âmbito dos dados

As estatísticas e informações referenciadas em todo o nosso conteúdo de cibersegurança são derivadas de uma combinação de:

  • Relatórios de incidentes de cibersegurança disponíveis publicamente

  • Cobertura mediática de ciberincidentes confirmados

  • Relatórios e inquéritos do setor

  • Divulgações governamentais e regulamentares

Os dados refletem atividade publicamente observável e relatada, e não o universo completo de todos os ciberincidentes que ocorrem globalmente. Muitos ciberincidentes não chegam a ser divulgados, comunicados ou abordados pelos meios de comunicação social.

Fontes de dados e descoberta

Tipos de fontes

Os artigos e relatórios relacionados com a cibersegurança são recolhidos a partir de várias categorias de fontes, incluindo:

  • Meios de comunicação tradicionais e de tecnologia.
    Os exemplos incluem as principais organizações internacionais de notícias e publicações de tecnologia.

  • Fontes de cibersegurança autorizadas e especializadas.
    Incluindo agências governamentais, organizações de investigação em cibersegurança e publicações consagradas do setor.

  • Meios de comunicação regionais e locais.
    A cobrir incidentes de cibersegurança na América do Norte, Europa, Ásia-Pacífico e outras regiões.

  • Relatórios da indústria e de investigação.
    Incluindo relatórios anuais de violações, relatórios do panorama de ameaças, inquéritos e análises económicas.

Cada fonte é atribuída ao nível do artigo ou relatório, com a data de publicação, o meio de comunicação e o URL original preservados.

Processo de descoberta

A descoberta de conteúdos é realizada através de consultas de pesquisa automatizadas baseadas numa lista de palavras-chave de cibersegurança mantida. As palavras-chave são agrupadas por tópico (por exemplo: violações de dados, ransomware, phishing, vulnerabilidades, regulamentação).

As pesquisas são realizadas diariamente para capturar conteúdo recém-publicado. Cada execução consulta apenas material recente, garantindo que o conjunto de dados reflita as notícias atuais.

Recolha e processamento de conteúdos

Recuperação de artigos

Assim que uma fonte é descoberta, o texto completo do artigo é obtido através de ferramentas de extração automatizadas. Quando a extração primária falha, são utilizados métodos alternativos para garantir uma cobertura robusta.

Deduplicação

Para evitar a dupla contagem:

  • Os URL idênticos são processados apenas uma vez

  • O conteúdo republicado ou distribuído é deduplicado ao nível do artigo

  • A agregação ao nível do evento (descrita abaixo) reduz ainda mais a duplicação entre os meios de comunicação

Filtragem e classificação de relevância

Avaliação da relevância para a cibersegurança

Cada artigo é avaliado para determinar se é relevante para as estatísticas de cibersegurança. Os artigos devem descrever ou analisar de forma significativa um evento, ameaça, vulnerabilidade ou ação regulatória de cibersegurança.

Classificação do tipo de evento

Os artigos relevantes são classificados em categorias de alto nível, incluindo:

  • Incidente – Um ciberataque ou violação confirmados que já ocorreram

  • Vulnerabilidade – Divulgação de uma falha de segurança que poderia ser explorada

  • Informações sobre ameaças – Relatórios sobre agentes de ameaças, ferramentas, campanhas ou técnicas

  • Regulamentar/jurídico – Leis, ações de execução, alterações de políticas ou processos judiciais relacionados com a cibersegurança

Esta classificação garante que as estatísticas referentes a "incidentes", "violações" ou "ataques" não sejam confundidas com divulgações de vulnerabilidades ou comentários gerais.

Agrupamento de eventos (agregação de artigo a evento)

Muitas vezes, vários artigos relatam o mesmo ciberincidente subjacente. Para evitar a contagem excessiva:

  • Os artigos que descrevem o mesmo incidente são agrupados num único evento

  • São atribuídos identificadores internos estáveis aos eventos

  • Os artigos são ligados a eventos existentes apenas quando existe uma elevada confiança de que descrevem a mesma ocorrência

Os indicadores utilizados para a agrupamento incluem organizações afetadas, agentes de ameaças, cronologias e descrições de incidentes.

Os registos ao nível do evento mantêm:

  • Datas da primeira e da última aparição

  • Número de artigos relacionados

  • Organizações afetadas

  • Agentes de ameaça referenciados

  • Ligações de origem para verificação

Utilização de análise automatizada e controlos de qualidade

Classificação automatizada

A análise estruturada e determinística do modelo de linguagem é utilizada para classificação, extração e agregação. Todos os resultados automatizados seguem esquemas predefinidos para garantir a consistência.

Os modelos operam com configurações determinísticas para reduzir a variabilidade e o risco de alucinação.

Controlo de qualidade

Para manter a precisão:

  • A validação do esquema garante que apenas os resultados devidamente estruturados são contabilizados

  • São realizados procedimentos mensais regulares de amostragem e revisão, incluindo uma revisão de precisão, para detetar desvios na classificação. Esta revisão identifica mudanças na classificação, que depois informam e exigem ajustes ao modelo.

  • Os casos ambíguos ou de alto impacto são sinalizados para revisão humana

  • As estatísticas agregadas mantêm a rastreabilidade a artigos e eventos individuais

Como são calculadas as estatísticas

Métricas ao nível do artigo vs ao nível do evento

Algumas estatísticas baseiam-se em:

  • Contagens ao nível do artigo (por exemplo, volume de cobertura mediática)

  • Contagens ao nível do evento (por exemplo, número de violações ou incidentes distintos)

Sempre que aplicável, são preferidas métricas ao nível do evento para reduzir a duplicação.

Interpretação de contagens e frequências

Estatísticas como "incidentes por dia" ou "violações por ano" representam atividade relatada ou visível nos meios de comunicação, e não a atividade global total.

A telemetria de fornecedores, os sistemas de reclamações governamentais e as projeções económicas relatam frequentemente volumes significativamente mais elevados devido a diferenças no âmbito e na metodologia. Estas diferenças são assinaladas quando relevante.

Limitações e considerações

Embora se tenha o cuidado de garantir a precisão e a consistência, os dados têm limitações inerentes:

  • Nem todos os incidentes são divulgados ou comunicados publicamente

  • A cobertura mediática varia consoante a região, o setor e a dimensão do incidente

  • Algumas fontes restringem o acesso

  • Podem ocorrer erros de classificação em casos extremos

  • Os valores relativos às perdas económicas podem sofrer alterações à medida que as investigações avançam

As estatísticas devem, portanto, ser interpretadas como indicadores direcionais e não como medições exaustivas.

Índice de fontes

Cada fonte numerada abaixo corresponde a uma referência em sobrescrito utilizada na página de Estatísticas de Cibersegurança. Os sobrescritos ligam diretamente à entrada da fonte relevante nesta página.

Fonte 1

Statista –
Cybercrime worldwide

Fonte 2

Identity Theft
Resource Center
(ITRC) – Weekly
Breach
Breakdown
Q3 2025

Fonte 3

Identity Theft
Resource Center
(ITRC) – H1 2025
Data Breach Analysis

Fonte 4

Verizon –
Data Breach
Investigations
Report (DBIR) 2025

Fonte 5

IBM –
Cost of a Data
Breach Report 2025

Fonte 6

South Korean
Ministry of
Science and
ICT – SK Telecom data
exfiltration
incident

Fonte 7

Aflac – June
2025 security
incident
regulatory filing

Fonte 8

HIPAA Journal –
Largest healthcare
data breaches of 2025

Fonte 9

California Attorney
General – Aflac
breach report
(SB24-616010)

Fonte 10

Iowa Attorney
General – Aflac
data breach notification

Fonte 11

Rhode Island
Attorney General –
Data‑breach
notifications

Fonte 12

Rhode Island
AG –
Data‑breach
notification

Fonte 13

Aflac Newsroom –
June 2025
security incident
update

Fonte 14

HIPAA Journal –
Aflac data
breach article

Fonte 15

Office of the
Australian Information
Commissioner –
Statement on Qantas
cyber incident

Fonte 16

Qantas – Information
for customers on
cyber incident

Fonte 17

Qantas Newsroom –
Update on Qantas
cyber incident
(9 July 2025)

Fonte 18

Michigan Attorney
General – Consumer
alert on data breaches
(TransUnion)

Fonte 19

Maine Attorney
General – Allianz Life
cyber incident notice

Fonte 20

California Attorney
General – Allianz data
breach report
(SB24-612078)

Fonte 21

University of
Maryland – Cyber
Security Statistics

Fonte 22

Microsoft Digital
Defense Report 2023

Fonte 23

WIRED – NotPetya
cyberattack article

Fonte 24

Reuters – UnitedHealth
tech unit hack article

Fonte 25

The Guardian – Jaguar
Land Rover hack article

Fonte 26

NBC News –
MGM Resorts
cyberattack cost article

Fonte 27

Delaware Department
of Technology &
Information –
eSecurityNews
(Oct 2023)

Fonte 28

Cybersecurity
Ventures – Global
ransomware damage
cost projection

Fonte 29

JumpCloud – Phishing
attack statistics

Fonte 30

Hornetsecurity – Email
threats in 2024

Fonte 31

Spearshield –
Click‑to‑credential
phishing study

Fonte 32

APWG – Phishing
Activity Trends Reports

Fonte 33

arXiv – Academic
password/credential
research (2025)

Fonte 34

DeepStrike – Password
statistics 2025

Fonte 35

NordPass – Top 200
Most Common
Passwords

Fonte 36

Financial Times –
Supply‑chain
cybersecurity article

Fonte 37

SecurityScorecard –
2025 Supply Chain
Cybersecurity Trends

Fonte 38

National Technology &
Security Coalition –
2025 Software Supply
Chain Security Report

Fonte 39

Palo Alto Networks –
State of Cloud
Native Security

Fonte 40

IBM – Threat
Intelligence Report

Fonte 41

Tenable –
Cloud Security
Risk Report 2025

Fonte 42

Cybersecurity
Ventures –
Cybersecurity Cost
Report

Fonte 43

Statista Market
Insights – Estimated
cost of cybercrime
worldwide 2018‑2029
(ResearchGate)

Fonte 44

Statista – Cost of
cybercrime worldwide
forecast

Fonte 45

FTC – Consumer
Sentinel Network Data
Book 2024

Fonte 46

FBI IC3 – 2024 Internet
Crime Report

Fonte 47

Kroll – Data Breach
Outlook 2025

Fonte 48

IBM – Cost of a Data
Breach 2024: Financial
Industry

Fonte 49

SailPoint – 2024
State of Identity
Security in Financial
Services

Fonte 50

DeepStrike –
Healthcare data
breach statistics 2025

Fonte 51

Proofpoint &
Ponemon – Healthcare
Cybersecurity Report

Fonte 52

Check Point –
Cyber Security
Report 2025

Fonte 53

Thales – 2024
Data Threat Report:
Critical Infrastructure
Edition

Fonte 54

Cyfirma – Energy &
Utilities industry report

Fonte 55

World Economic
Forum – Global
Cybersecurity Outlook
2025

Fonte 56

DeepStrike – Cyber
attacks on small
businesses

Fonte 57

Devolutions – State of
IT Security Report 2025

Fonte 58

TotalAssure –
Small business
cybersecurity statistics
2025

Fonte 59

Cisco – Cybersecurity
Readiness Index 2025

Fonte 60

IANS Research –
Security budgets
press release (2024)

Fonte 61

Munich Re –
Cyber insurance risks
and trends 2025

Fonte 62

Gartner – 2025
information security
spending forecast

Fonte 63

Forrester – 2024
Cybersecurity
Benchmarks (Global)

Fonte 64

Ivanti – State of
Cybersecurity Report

Fonte 65

U.S. Department of
Homeland Security –
FY 2025 Budget in Brief

Fonte 66

U.S. Department of
Defense – CYBERCOM
Budget Justification

Fonte 67

Google Cloud –
Cybersecurity forecast

Fonte 68

Gartner – Generative AI
attack survey
(Sep 22 2025)

Fonte 69

Splashtop – Top
cybersecurity trends
and predictions
for 2026

Fonte 70

ENISA – Threat
Landscape 2024