Estatísticas de cibersegurança:
metodologia e fontes

Objetivo desta página

Esta página explica como as estatísticas de cibersegurança apresentadas na nossa página de Estatísticas de Cibersegurança são coletadas, processadas e interpretadas, além de oferecer total transparência sobre as fontes de dados citadas. A página principal de Estatísticas de Cibersegurança apresenta conclusões resumidas e insights da pesquisa da NordVPN.

Fontes de dados e atribuição

A descoberta de fontes é feita por meio da API do Google Custom Search (GCS), usando vários mecanismos de pesquisa personalizados (CSEs) configurados para:

  • veículos de comunicação: 44 fontes da grande mídia e da mídia especializada em tecnologia (por exemplo, BBC, CNN, The New York Times, WSJ, FT, Reuters, Bloomberg, TechCrunch, Wired, Ars Technica, Time, Forbes).

  • sites de referência: 25 fontes do setor e especialistas (por exemplo, CISA, KrebsOnSecurity, The Hacker News, Dark Reading, BleepingComputer, SecurityWeek, Infosecurity Magazine).

  • notícias locais: mais de 100 veículos regionais e nacionais nas regiões APAC, EMEA e Américas (por exemplo, Channel NewsAsia, CSA.gov.sg, Zaobao; HK01, unwire.hk; Japan Times, NISC, JPCERT, ITMedia).

  • sem restrições/geral.

As consultas são baseadas em palavras-chave de uma lista mantida que agrupa os termos por categoria.

Todos os registros incluem atribuição explícita:

  • Link do artigo original

  • Veículo de mídia (domínio extraído da URL)

  • Data de publicação e data de coleta

Nós sintetizamos informações de várias fontes para estatísticas e agregação de eventos; cada estatística é derivada de evidências em nível de artigo armazenadas com links.

Recuperação de conteúdo e frequência de coleta

Busca o conteúdo completo dos links encontrados com:

  • Principal: NewsPlease

  • Alternativa: download direto de HTML com sessão de solicitações reforçada e extração de trafilatura.

Tempos limite, tentativas de repetição, fallbacks de TLS e cabeçalhos de referer são usados para reduzir falhas temporárias.

A data e o título da publicação são obtidos do extrator, quando disponíveis; a análise da data é normalizada para apenas a data.

As consultas diárias analisam o conteúdo de 1 dia anterior.

Extração de funcionalidades

Os campos extraídos incluem:

  • Veículo de mídia (a partir da URL)

  • Primeiro parágrafo (primeiras 3–5 frases)

  • Características das palavras-chave: contagem total no texto, presença no título, frases que contêm a palavra-chave principal e presença de qualquer palavra-chave da lista mantida

  • Contagem de palavras

Avaliação de relevância da LLM

Cada artigo é avaliado por um LLM com uma configuração determinística (temperatura 0) e um prompt restrito que exige respostas explícitas e estruturadas:

1. Se o artigo é relevante para eventos cibernéticos

2. Se for o caso, é atribuído um tipo de evento de alto nível:

  • Incidente: Já ocorreu um ciberataque ou violação confirmada (por exemplo, implantação de ransomware, exfiltração de dados, DDoS e comprometimento do sistema).

  • Vulnerabilidade: descoberta ou divulgação de uma falha de segurança em software/hardware/sistemas que poderia ser explorada (risco potencial, e não exploração confirmada).

  • Inteligência contra ameaças: relatórios sobre agentes de ameaças, ferramentas, TTPs e campanhas — com foco em "quem/como", e não em um incidente de uma vítima específica.

  • Regulatório/Legal: leis, regulamentos, medidas de fiscalização, decisões judiciais ou grandes mudanças nas políticas que afetam as obrigações de cibersegurança.

Tipo de artigo e categorização

Os artigos relevantes são categorizados por meio de critérios de taxonomia estruturados (primários: status do ataque, tipo de evento, regulatório/legal; secundários: métricas/classe de impacto, detalhes técnicos, setores, região, tamanho, danos aproximados).

Agrupamento de eventos (agregação article-to-event)

Objetivo: agrupar artigos que descrevem o mesmo incidente subjacente em um único “evento”.

Método:

  • Recupera eventos existentes do banco de dados para fornecer contexto (títulos, organizações conhecidas afetadas, agentes de ameaças, links).

  • Para cada artigo candidato (onde Tipo de Artigo = Incidente Único), a LLM compara os detalhes do artigo com lotes de eventos existentes e:

1. Atribui um ID de evento existente quando há uma correspondência de alta confiança, ou

2. Caso contrário, cria um novo evento.

  • As instruções enfatizam alta precisão: só crie um link para um evento existente quando tiver certeza absoluta. As organizações afetadas e os sinais dos agentes de ameaças são considerados indicadores fortes.

Os eventos mantêm campos agregados: datas da primeira/última visualização, contagem de artigos, organizações afetadas, agentes de ameaças, títulos, links.

Precisão e garantia de qualidade

Determinismo e restrições:

  • Temperatura do LLM definida como 0 para maximizar o determinismo e reduzir alucinações.

  • Os prompts restritos exigem campos explícitos e saídas JSON; a análise impõe o esquema.

  • Artigos sem conteúdo (sem título/texto) são rejeitados logo de cara.

Métricas governadas por LLM e validadas por esquema:

  • Todos os campos métricos são gerados por execuções determinísticas do LLM (temperatura 0) sob diretrizes rigorosas e documentadas e esquemas JSON; apenas os resultados em conformidade com o esquema são contabilizados, com controle de qualidade humano periódico para calibrar e evitar desvios.

Classificação de evento/artigo para filtragem precisa:

  • A classificação por tipo de evento e foco do artigo funciona como um filtro de relevância rigoroso, eliminando conteúdos fora do tema, com pouca relevância ou do tipo resumo. Esse foco no relato de incidentes individuais reduz o ruído e melhora significativamente a precisão e a exatidão do conjunto de dados.

Validação de múltiplas fontes:

  • O agrupamento de eventos consulta o contexto de eventos armazenado anteriormente; as incompatibilidades reduzem a chance de fusões incorretas.

  • As agregações incluem a lista de links de origem por evento para verificação manual.

Human-in-the-loop:

  • Casos de grande impacto ou casos ambíguos podem ser sinalizados para revisão editorial e verificação de fatos.

  • Revisões regulares de controle de qualidade: artigos e eventos selecionados são auditados mensalmente, com revisão minuciosa; qualquer desvio aciona ajustes no prompt/modelo ou nas palavras-chave.

Rastreabilidade:

  • Todas as estatísticas podem ser rastreadas até os artigos e links contidos no banco de dados para fins de auditoria.

Limitações

Limites de cobertura:

  • A detecção baseada no GCS depende de palavras-chave e da configuração do CSE; nem todos os incidentes são capturados, especialmente fora dos idiomas configurados ou em conteúdos protegidos por paywall.

  • Alguns sites bloqueiam a recuperação automática; esses artigos podem estar parcial ou totalmente ausentes.

Riscos específicos da LLM:

  • Apesar das configurações determinísticas e das instruções estruturadas, podem ocorrer erros de classificação, principalmente com textos escassos ou ambíguos.

  • O agrupamento de eventos pode dividir o mesmo incidente em vários eventos ou mesclar incidentes semelhantes (mas distintos) em casos extremos.

Como as estatísticas são calculadas

Os campos no nível do artigo são derivados de extração direta e resultados do LLM (armazenados por registro).

As métricas no nível do evento agregam os artigos constituintes por event_id:

  • número de artigos, datas da primeira/última visualização

  • organizações afetadas e agentes de ameaças, sem contagens duplicadas

  • títulos representativos e listas de links canônicos

As estatísticas de relatório são extraídas dessas tabelas armazenadas; cada número pode ser rastreado até as linhas de eventos e os registros de artigos subjacentes.

Âmbito dos dados

As estatísticas e os insights mencionados no nosso conteúdo sobre cibersegurança são derivados de uma combinação de:

  • Relatórios de incidentes de cibersegurança disponíveis ao público

  • Cobertura da mídia sobre incidentes cibernéticos confirmados

  • Relatórios e pesquisas do setor

  • Divulgações governamentais e regulatórias

Os dados refletem atividades observáveis e relatadas publicamente, não o universo completo de todos os incidentes cibernéticos que ocorrem globalmente. Muitos incidentes cibernéticos nunca são divulgados, relatados ou abordados pela mídia.

Fontes de dados e descoberta

Tipos de fonte

Artigos e relatórios relacionados à cibersegurança são coletados de várias categorias de fontes, incluindo:

  • Mídia convencional e de tecnologia.
    Exemplos incluem grandes agências de notícias internacionais e publicações de tecnologia.

  • Fontes confiáveis e especializadas em cibersegurança.
    Incluindo órgãos governamentais, organizações de pesquisa em cibersegurança e publicações reconhecidas do setor.

  • Veículos de notícias regionais e locais.
    Cobrindo incidentes de cibersegurança na América do Norte, Europa, Ásia-Pacífico e outras regiões.

  • Relatórios do setor e de pesquisa.
    Incluindo relatórios anuais sobre violações, relatórios sobre o panorama de ameaças, pesquisas e análises econômicas.

Cada fonte é citada no artigo ou na reportagem, com a data de publicação, o veículo de comunicação e a URL original preservados.

Processo de descoberta

A descoberta de conteúdo é feita por meio de consultas de pesquisa automatizadas com base em uma lista atualizada de palavras-chave de cibersegurança. As palavras-chave são agrupadas por tópico (por exemplo: violações de dados, ransomware, phishing, vulnerabilidades, regulamentação).

As buscas são feitas diariamente para capturar conteúdos recém-publicados. Cada execução consulta apenas dados recentes, garantindo que o conjunto de dados reflita os relatórios atuais.

Coleta e processamento de conteúdo

Recuperação de artigo

Assim que uma fonte é descoberta, o texto completo do artigo é recuperado usando ferramentas de extração automatizadas. Quando a extração primária falha, os métodos alternativos são usados para garantir uma cobertura robusta.

Desduplicação

Para evitar contagens duplas:

  • URLs idênticas são processadas apenas uma vez

  • Conteúdo republicado ou distribuído é desduplicado no nível do artigo

  • A agregação no nível do evento (descrita abaixo) reduz ainda mais a duplicação entre os veículos

Filtragem por relevância e classificação

Avaliação de relevância de cibersegurança

Cada artigo é avaliado para determinar se é relevante para as estatísticas de cibersegurança. Os artigos devem descrever ou analisar de forma significativa um evento de cibersegurança, uma ameaça, uma vulnerabilidade ou uma ação regulatória.

Classificação do tipo de evento

Os artigos relevantes são classificados em categorias gerais, incluindo:

  • Incidente – Um ciberataque ou violação confirmada que já aconteceu

  • Vulnerabilidade – Divulgação de uma falha de segurança que poderia ser explorada

  • Inteligência de ameaças – Relatórios sobre agentes, ferramentas, campanhas ou técnicas de ameaças

  • Regulamentação/legislação – Leis, medidas de fiscalização, mudanças nas políticas ou processos judiciais relacionados à cibersegurança

Essa classificação garante que as estatísticas referentes a “incidentes”, “violações” ou “ataques” não sejam confundidas com divulgações de vulnerabilidades ou comentários gerais.

Agrupamento de eventos (agregação article-to-event)

Muitas vezes, vários artigos falam sobre o mesmo incidente cibernético. Para evitar contagem excessiva:

  • Artigos que descrevem o mesmo incidente são agrupados em um único evento

  • Os eventos recebem identificadores internos fixos

  • Os artigos só são vinculados a eventos existentes quando há uma alta confiança de que eles descrevem a mesma ocorrência

Os indicadores usados para agrupamento incluem organizações afetadas, agentes de ameaças, cronogramas e descrições de incidentes.

Os registros no nível do evento mantêm:

  • Datas da primeira e da última aparição

  • Número de artigos relacionados

  • Organizações afetadas

  • Atores de ameaças referenciados

  • Links de origem para verificação

Uso de análises automatizadas e controles de qualidade

Classificação automatizada

A análise estruturada e determinística de modelos de linguagem é usada para classificação, extração e agregação. Todas as saídas automatizadas seguem esquemas predefinidos para garantir a consistência.

Os modelos operam com configurações determinísticas para reduzir a variabilidade e o risco de alucinação.

Garantia de qualidade

Para manter a precisão:

  • A validação do esquema garante que só os resultados devidamente estruturados sejam contabilizados

  • Procedimentos mensais regulares de amostragem e revisão, incluindo uma revisão de precisão, são realizados para detectar desvios na classificação. Esta revisão identifica mudanças na classificação, o que, por sua vez, orienta e exige ajustes no modelo.

  • Casos ambíguos ou de alto impacto são sinalizados para revisão humana

  • As estatísticas agregadas mantêm a rastreabilidade até artigos e eventos individuais

Como as estatísticas são calculadas

Métricas no nível do artigo vs. métricas no nível do evento

Algumas estatísticas são baseadas em:

  • Contagens por artigo (por exemplo, volume de cobertura da mídia)

  • Contagens no nível do evento (por exemplo, número de violações ou incidentes distintos)

Quando possível, é melhor usar métricas no nível do evento para evitar repetições.

Interpretação de contagens e frequências

Estatísticas como “incidentes por dia” ou “violações por ano” representam atividades relatadas ou divulgadas pela mídia, e não a atividade global total.

Os dados de telemetria de fornecedores, os sistemas de reclamação do governo e as projeções econômicas costumam apresentar volumes significativamente maiores devido a diferenças de escopo e metodologia. Essas diferenças são indicadas quando relevantes.

Limitações e considerações

Embora tomemos todo o cuidado para garantir a precisão e a consistência, os dados possuem limitações inerentes:

  • Nem todos os incidentes são divulgados ou relatados publicamente

  • A cobertura da mídia varia de acordo com a região, o setor e a magnitude do incidente

  • Algumas fontes restringem o acesso

  • Erros de classificação podem ocorrer em casos extremos

  • Os valores das perdas econômicas podem mudar conforme as investigações avançam

Então, as estatísticas devem ser interpretadas como indicadores de tendência, e não como medidas exaustivas.

Índice de Fontes

Cada fonte numerada abaixo corresponde a uma referência sobrescrita usada na página de Estatísticas de Cibersegurança. Os expoentes levam diretamente à entrada de origem relevante nesta página.

Fonte 1

Statista –
Cybercrime worldwide

Fonte 2

Identity Theft
Resource Center
(ITRC) – Weekly
Breach
Breakdown
Q3 2025

Fonte 3

Identity Theft
Resource Center
(ITRC) – H1 2025
Data Breach Analysis

Fonte 4

Verizon –
Data Breach
Investigations
Report (DBIR) 2025

Fonte 5

IBM –
Cost of a Data
Breach Report 2025

Fonte 6

South Korean
Ministry of
Science and
ICT – SK Telecom data
exfiltration
incident

Fonte 7

Aflac – June
2025 security
incident
regulatory filing

Fonte 8

HIPAA Journal –
Largest healthcare
data breaches of 2025

Fonte 9

California Attorney
General – Aflac
breach report
(SB24-616010)

Fonte 10

Iowa Attorney
General – Aflac
data breach notification

Fonte 11

Rhode Island
Attorney General –
Data‑breach
notifications

Fonte 12

Rhode Island
AG –
Data‑breach
notification

Fonte 13

Aflac Newsroom –
June 2025
security incident
update

Fonte 14

HIPAA Journal –
Aflac data
breach article

Fonte 15

Office of the
Australian Information
Commissioner –
Statement on Qantas
cyber incident

Fonte 16

Qantas – Information
for customers on
cyber incident

Fonte 17

Qantas Newsroom –
Update on Qantas
cyber incident
(9 July 2025)

Fonte 18

Michigan Attorney
General – Consumer
alert on data breaches
(TransUnion)

Fonte 19

Maine Attorney
General – Allianz Life
cyber incident notice

Fonte 20

California Attorney
General – Allianz data
breach report
(SB24-612078)

Fonte 21

University of
Maryland – Cyber
Security Statistics

Fonte 22

Microsoft Digital
Defense Report 2023

Fonte 23

WIRED – NotPetya
cyberattack article

Fonte 24

Reuters – UnitedHealth
tech unit hack article

Fonte 25

The Guardian – Jaguar
Land Rover hack article

Fonte 26

NBC News –
MGM Resorts
cyberattack cost article

Fonte 27

Delaware Department
of Technology &
Information –
eSecurityNews
(Oct 2023)

Fonte 28

Cybersecurity
Ventures – Global
ransomware damage
cost projection

Fonte 29

JumpCloud – Phishing
attack statistics

Fonte 30

Hornetsecurity – Email
threats in 2024

Fonte 31

Spearshield –
Click‑to‑credential
phishing study

Fonte 32

APWG – Phishing
Activity Trends Reports

Fonte 33

arXiv – Academic
password/credential
research (2025)

Fonte 34

DeepStrike – Password
statistics 2025

Fonte 35

NordPass – Top 200
Most Common
Passwords

Fonte 36

Financial Times –
Supply‑chain
cybersecurity article

Fonte 37

SecurityScorecard –
2025 Supply Chain
Cybersecurity Trends

Fonte 38

National Technology &
Security Coalition –
2025 Software Supply
Chain Security Report

Fonte 39

Palo Alto Networks –
State of Cloud
Native Security

Fonte 40

IBM – Threat
Intelligence Report

Fonte 41

Tenable –
Cloud Security
Risk Report 2025

Fonte 42

Cybersecurity
Ventures –
Cybersecurity Cost
Report

Fonte 43

Statista Market
Insights – Estimated
cost of cybercrime
worldwide 2018‑2029
(ResearchGate)

Fonte 44

Statista – Cost of
cybercrime worldwide
forecast

Fonte 45

FTC – Consumer
Sentinel Network Data
Book 2024

Fonte 46

FBI IC3 – 2024 Internet
Crime Report

Fonte 47

Kroll – Data Breach
Outlook 2025

Fonte 48

IBM – Cost of a Data
Breach 2024: Financial
Industry

Fonte 49

SailPoint – 2024
State of Identity
Security in Financial
Services

Fonte 50

DeepStrike –
Healthcare data
breach statistics 2025

Fonte 51

Proofpoint &
Ponemon – Healthcare
Cybersecurity Report

Fonte 52

Check Point –
Cyber Security
Report 2025

Fonte 53

Thales – 2024
Data Threat Report:
Critical Infrastructure
Edition

Fonte 54

Cyfirma – Energy &
Utilities industry report

Fonte 55

World Economic
Forum – Global
Cybersecurity Outlook
2025

Fonte 56

DeepStrike – Cyber
attacks on small
businesses

Fonte 57

Devolutions – State of
IT Security Report 2025

Fonte 58

TotalAssure –
Small business
cybersecurity statistics
2025

Fonte 59

Cisco – Cybersecurity
Readiness Index 2025

Fonte 60

IANS Research –
Security budgets
press release (2024)

Fonte 61

Munich Re –
Cyber insurance risks
and trends 2025

Fonte 62

Gartner – 2025
information security
spending forecast

Fonte 63

Forrester – 2024
Cybersecurity
Benchmarks (Global)

Fonte 64

Ivanti – State of
Cybersecurity Report

Fonte 65

U.S. Department of
Homeland Security –
FY 2025 Budget in Brief

Fonte 66

U.S. Department of
Defense – CYBERCOM
Budget Justification

Fonte 67

Google Cloud –
Cybersecurity forecast

Fonte 68

Gartner – Generative AI
attack survey
(Sep 22 2025)

Fonte 69

Splashtop – Top
cybersecurity trends
and predictions
for 2026

Fonte 70

ENISA – Threat
Landscape 2024