Estatísticas de cibersegurança:
metodologia e fontes

Objetivo desta página

Esta página explica como as estatísticas de cibersegurança apresentadas na nossa página de Estatísticas de Cibersegurança são coletadas, processadas e interpretadas, além de oferecer total transparência sobre as fontes de dados citadas. A página principal de Estatísticas de Cibersegurança apresenta conclusões resumidas e insights da pesquisa da NordVPN.

Fontes de dados e atribuição

A descoberta de fontes é feita por meio da API do Google Custom Search (GCS), usando vários mecanismos de pesquisa personalizados (CSEs) configurados para:

veículos de comunicação: 44 fontes da grande mídia e da mídia especializada em tecnologia (por exemplo, BBC, CNN, The New York Times, WSJ, FT, Reuters, Bloomberg, TechCrunch, Wired, Ars Technica, Time, Forbes).
sites de referência: 25 fontes do setor e especialistas (por exemplo, CISA, KrebsOnSecurity, The Hacker News, Dark Reading, BleepingComputer, SecurityWeek, Infosecurity Magazine).
notícias locais: mais de 100 veículos regionais e nacionais nas regiões APAC, EMEA e Américas (por exemplo, Channel NewsAsia, CSA.gov.sg, Zaobao; HK01, unwire.hk; Japan Times, NISC, JPCERT, ITMedia).
sem restrições/geral.

As consultas são baseadas em palavras-chave de uma lista mantida que agrupa os termos por categoria.

Todos os registros incluem atribuição explícita:

Link do artigo original
Veículo de mídia (domínio extraído da URL)
Data de publicação e data de coleta

Nós sintetizamos informações de várias fontes para estatísticas e agregação de eventos; cada estatística é derivada de evidências em nível de artigo armazenadas com links.

Recuperação de conteúdo e frequência de coleta

Busca o conteúdo completo dos links encontrados com:

Principal: NewsPlease
Alternativa: download direto de HTML com sessão de solicitações reforçada e extração de trafilatura.

Tempos limite, tentativas de repetição, fallbacks de TLS e cabeçalhos de referer são usados para reduzir falhas temporárias.

A data e o título da publicação são obtidos do extrator, quando disponíveis; a análise da data é normalizada para apenas a data.

As consultas diárias analisam o conteúdo de 1 dia anterior.

Extração de funcionalidades

Os campos extraídos incluem:

Veículo de mídia (a partir da URL)
Primeiro parágrafo (primeiras 3–5 frases)
Características das palavras-chave: contagem total no texto, presença no título, frases que contêm a palavra-chave principal e presença de qualquer palavra-chave da lista mantida
Contagem de palavras

Avaliação de relevância da LLM

Cada artigo é avaliado por um LLM com uma configuração determinística (temperatura 0) e um prompt restrito que exige respostas explícitas e estruturadas:

1. Se o artigo é relevante para eventos cibernéticos

2. Se for o caso, é atribuído um tipo de evento de alto nível:

Incidente: Já ocorreu um ciberataque ou violação confirmada (por exemplo, implantação de ransomware, exfiltração de dados, DDoS e comprometimento do sistema).
Vulnerabilidade: descoberta ou divulgação de uma falha de segurança em software/hardware/sistemas que poderia ser explorada (risco potencial, e não exploração confirmada).
Inteligência contra ameaças: relatórios sobre agentes de ameaças, ferramentas, TTPs e campanhas — com foco em "quem/como", e não em um incidente de uma vítima específica.
Regulatório/Legal: leis, regulamentos, medidas de fiscalização, decisões judiciais ou grandes mudanças nas políticas que afetam as obrigações de cibersegurança.

Tipo de artigo e categorização

Os artigos relevantes são categorizados por meio de critérios de taxonomia estruturados (primários: status do ataque, tipo de evento, regulatório/legal; secundários: métricas/classe de impacto, detalhes técnicos, setores, região, tamanho, danos aproximados).

Agrupamento de eventos (agregação article-to-event)

Objetivo: agrupar artigos que descrevem o mesmo incidente subjacente em um único “evento”.

Método:

Recupera eventos existentes do banco de dados para fornecer contexto (títulos, organizações conhecidas afetadas, agentes de ameaças, links).
Para cada artigo candidato (onde Tipo de Artigo = Incidente Único), a LLM compara os detalhes do artigo com lotes de eventos existentes e:

1. Atribui um ID de evento existente quando há uma correspondência de alta confiança, ou

2. Caso contrário, cria um novo evento.

As instruções enfatizam alta precisão: só crie um link para um evento existente quando tiver certeza absoluta. As organizações afetadas e os sinais dos agentes de ameaças são considerados indicadores fortes.

Os eventos mantêm campos agregados: datas da primeira/última visualização, contagem de artigos, organizações afetadas, agentes de ameaças, títulos, links.

Precisão e garantia de qualidade

Determinismo e restrições:

Temperatura do LLM definida como 0 para maximizar o determinismo e reduzir alucinações.
Os prompts restritos exigem campos explícitos e saídas JSON; a análise impõe o esquema.
Artigos sem conteúdo (sem título/texto) são rejeitados logo de cara.

Métricas governadas por LLM e validadas por esquema:

Todos os campos métricos são gerados por execuções determinísticas do LLM (temperatura 0) sob diretrizes rigorosas e documentadas e esquemas JSON; apenas os resultados em conformidade com o esquema são contabilizados, com controle de qualidade humano periódico para calibrar e evitar desvios.

Classificação de evento/artigo para filtragem precisa:

A classificação por tipo de evento e foco do artigo funciona como um filtro de relevância rigoroso, eliminando conteúdos fora do tema, com pouca relevância ou do tipo resumo. Esse foco no relato de incidentes individuais reduz o ruído e melhora significativamente a precisão e a exatidão do conjunto de dados.

Validação de múltiplas fontes:

O agrupamento de eventos consulta o contexto de eventos armazenado anteriormente; as incompatibilidades reduzem a chance de fusões incorretas.
As agregações incluem a lista de links de origem por evento para verificação manual.

Human-in-the-loop:

Casos de grande impacto ou casos ambíguos podem ser sinalizados para revisão editorial e verificação de fatos.
Revisões regulares de controle de qualidade: artigos e eventos selecionados são auditados mensalmente, com revisão minuciosa; qualquer desvio aciona ajustes no prompt/modelo ou nas palavras-chave.

Rastreabilidade:

Todas as estatísticas podem ser rastreadas até os artigos e links contidos no banco de dados para fins de auditoria.

Limitações

Limites de cobertura:

A detecção baseada no GCS depende de palavras-chave e da configuração do CSE; nem todos os incidentes são capturados, especialmente fora dos idiomas configurados ou em conteúdos protegidos por paywall.
Alguns sites bloqueiam a recuperação automática; esses artigos podem estar parcial ou totalmente ausentes.

Riscos específicos da LLM:

Apesar das configurações determinísticas e das instruções estruturadas, podem ocorrer erros de classificação, principalmente com textos escassos ou ambíguos.
O agrupamento de eventos pode dividir o mesmo incidente em vários eventos ou mesclar incidentes semelhantes (mas distintos) em casos extremos.

Como as estatísticas são calculadas

Os campos no nível do artigo são derivados de extração direta e resultados do LLM (armazenados por registro).

As métricas no nível do evento agregam os artigos constituintes por event_id:

número de artigos, datas da primeira/última visualização
organizações afetadas e agentes de ameaças, sem contagens duplicadas
títulos representativos e listas de links canônicos

As estatísticas de relatório são extraídas dessas tabelas armazenadas; cada número pode ser rastreado até as linhas de eventos e os registros de artigos subjacentes.

Âmbito dos dados

As estatísticas e os insights mencionados no nosso conteúdo sobre cibersegurança são derivados de uma combinação de:

Relatórios de incidentes de cibersegurança disponíveis ao público
Cobertura da mídia sobre incidentes cibernéticos confirmados
Relatórios e pesquisas do setor
Divulgações governamentais e regulatórias

Os dados refletem atividades observáveis e relatadas publicamente, não o universo completo de todos os incidentes cibernéticos que ocorrem globalmente. Muitos incidentes cibernéticos nunca são divulgados, relatados ou abordados pela mídia.

Fontes de dados e descoberta

Tipos de fonte

Artigos e relatórios relacionados à cibersegurança são coletados de várias categorias de fontes, incluindo:

Mídia convencional e de tecnologia.
Exemplos incluem grandes agências de notícias internacionais e publicações de tecnologia.
Fontes confiáveis e especializadas em cibersegurança.
Incluindo órgãos governamentais, organizações de pesquisa em cibersegurança e publicações reconhecidas do setor.
Veículos de notícias regionais e locais.
Cobrindo incidentes de cibersegurança na América do Norte, Europa, Ásia-Pacífico e outras regiões.
Relatórios do setor e de pesquisa.
Incluindo relatórios anuais sobre violações, relatórios sobre o panorama de ameaças, pesquisas e análises econômicas.

Cada fonte é citada no artigo ou na reportagem, com a data de publicação, o veículo de comunicação e a URL original preservados.

Processo de descoberta

A descoberta de conteúdo é feita por meio de consultas de pesquisa automatizadas com base em uma lista atualizada de palavras-chave de cibersegurança. As palavras-chave são agrupadas por tópico (por exemplo: violações de dados, ransomware, phishing, vulnerabilidades, regulamentação).

As buscas são feitas diariamente para capturar conteúdos recém-publicados. Cada execução consulta apenas dados recentes, garantindo que o conjunto de dados reflita os relatórios atuais.

Coleta e processamento de conteúdo

Recuperação de artigo

Assim que uma fonte é descoberta, o texto completo do artigo é recuperado usando ferramentas de extração automatizadas. Quando a extração primária falha, os métodos alternativos são usados para garantir uma cobertura robusta.

Desduplicação

Para evitar contagens duplas:

URLs idênticas são processadas apenas uma vez
Conteúdo republicado ou distribuído é desduplicado no nível do artigo
A agregação no nível do evento (descrita abaixo) reduz ainda mais a duplicação entre os veículos

Filtragem por relevância e classificação

Avaliação de relevância de cibersegurança

Cada artigo é avaliado para determinar se é relevante para as estatísticas de cibersegurança. Os artigos devem descrever ou analisar de forma significativa um evento de cibersegurança, uma ameaça, uma vulnerabilidade ou uma ação regulatória.

Classificação do tipo de evento

Os artigos relevantes são classificados em categorias gerais, incluindo:

Incidente – Um ciberataque ou violação confirmada que já aconteceu
Vulnerabilidade – Divulgação de uma falha de segurança que poderia ser explorada
Inteligência de ameaças – Relatórios sobre agentes, ferramentas, campanhas ou técnicas de ameaças
Regulamentação/legislação – Leis, medidas de fiscalização, mudanças nas políticas ou processos judiciais relacionados à cibersegurança

Essa classificação garante que as estatísticas referentes a “incidentes”, “violações” ou “ataques” não sejam confundidas com divulgações de vulnerabilidades ou comentários gerais.

Agrupamento de eventos (agregação article-to-event)

Muitas vezes, vários artigos falam sobre o mesmo incidente cibernético. Para evitar contagem excessiva:

Artigos que descrevem o mesmo incidente são agrupados em um único evento
Os eventos recebem identificadores internos fixos
Os artigos só são vinculados a eventos existentes quando há uma alta confiança de que eles descrevem a mesma ocorrência

Os indicadores usados para agrupamento incluem organizações afetadas, agentes de ameaças, cronogramas e descrições de incidentes.

Os registros no nível do evento mantêm:

Datas da primeira e da última aparição
Número de artigos relacionados
Organizações afetadas
Atores de ameaças referenciados
Links de origem para verificação

Uso de análises automatizadas e controles de qualidade

Classificação automatizada

A análise estruturada e determinística de modelos de linguagem é usada para classificação, extração e agregação. Todas as saídas automatizadas seguem esquemas predefinidos para garantir a consistência.

Os modelos operam com configurações determinísticas para reduzir a variabilidade e o risco de alucinação.

Garantia de qualidade

Para manter a precisão:

A validação do esquema garante que só os resultados devidamente estruturados sejam contabilizados
Procedimentos mensais regulares de amostragem e revisão, incluindo uma revisão de precisão, são realizados para detectar desvios na classificação. Esta revisão identifica mudanças na classificação, o que, por sua vez, orienta e exige ajustes no modelo.
Casos ambíguos ou de alto impacto são sinalizados para revisão humana
As estatísticas agregadas mantêm a rastreabilidade até artigos e eventos individuais

Como as estatísticas são calculadas

Métricas no nível do artigo vs. métricas no nível do evento

Algumas estatísticas são baseadas em:

Contagens por artigo (por exemplo, volume de cobertura da mídia)
Contagens no nível do evento (por exemplo, número de violações ou incidentes distintos)

Quando possível, é melhor usar métricas no nível do evento para evitar repetições.

Interpretação de contagens e frequências

Estatísticas como “incidentes por dia” ou “violações por ano” representam atividades relatadas ou divulgadas pela mídia, e não a atividade global total.

Os dados de telemetria de fornecedores, os sistemas de reclamação do governo e as projeções econômicas costumam apresentar volumes significativamente maiores devido a diferenças de escopo e metodologia. Essas diferenças são indicadas quando relevantes.

Limitações e considerações

Embora tomemos todo o cuidado para garantir a precisão e a consistência, os dados possuem limitações inerentes:

Nem todos os incidentes são divulgados ou relatados publicamente
A cobertura da mídia varia de acordo com a região, o setor e a magnitude do incidente
Algumas fontes restringem o acesso
Erros de classificação podem ocorrer em casos extremos
Os valores das perdas econômicas podem mudar conforme as investigações avançam

Então, as estatísticas devem ser interpretadas como indicadores de tendência, e não como medidas exaustivas.

Índice de Fontes

Cada fonte numerada abaixo corresponde a uma referência sobrescrita usada na página de Estatísticas de Cibersegurança. Os expoentes levam diretamente à entrada de origem relevante nesta página.

Fonte ¹ Statista – Cybercrime worldwide Link⁠‌
Fonte ² Identity Theft Resource Center (ITRC) – Weekly Breach Breakdown Q3 2025 Link⁠‌
Fonte ³ Identity Theft Resource Center (ITRC) – H1 2025 Data Breach Analysis Link⁠‌
Fonte ⁴ Verizon – Data Breach Investigations Report (DBIR) 2025 Link⁠‌
Fonte ⁵ IBM – Cost of a Data Breach Report 2025 Link⁠‌
Fonte ⁶ South Korean Ministry of Science and ICT – SK Telecom data exfiltration incident Link⁠‌
Fonte ⁷ Aflac – June 2025 security incident regulatory filing Link⁠‌
Fonte ⁸ HIPAA Journal – Largest healthcare data breaches of 2025 Link⁠‌
Fonte ⁹ California Attorney General – Aflac breach report (SB24-616010) Link⁠‌
Fonte ¹⁰ Iowa Attorney General – Aflac data breach notification Link⁠‌
Fonte ¹¹ Rhode Island Attorney General – Data‑breach notifications Link⁠‌
Fonte ¹² Rhode Island AG – Data‑breach notification Link⁠‌
Fonte ¹³ Aflac Newsroom – June 2025 security incident update Link⁠‌
Fonte ¹⁴ HIPAA Journal – Aflac data breach article Link⁠‌
Fonte ¹⁵ Office of the Australian Information Commissioner – Statement on Qantas cyber incident Link⁠‌
Fonte ¹⁶ Qantas – Information for customers on cyber incident Link⁠‌
Fonte ¹⁷ Qantas Newsroom – Update on Qantas cyber incident (9 July 2025) Link⁠‌
Fonte ¹⁸ Michigan Attorney General – Consumer alert on data breaches (TransUnion) Link⁠‌
Fonte ¹⁹ Maine Attorney General – Allianz Life cyber incident notice Link⁠‌
Fonte ²⁰ California Attorney General – Allianz data breach report (SB24-612078) Link⁠‌
Fonte ²¹ University of Maryland – Cyber Security Statistics Link⁠‌
Fonte ²² Microsoft Digital Defense Report 2023 Link⁠‌
Fonte ²³ WIRED – NotPetya cyberattack article Link⁠‌
Fonte ²⁴ Reuters – UnitedHealth tech unit hack article Link⁠‌
Fonte ²⁵ The Guardian – Jaguar Land Rover hack article Link⁠‌
Fonte ²⁶ NBC News – MGM Resorts cyberattack cost article Link⁠‌
Fonte ²⁷ Delaware Department of Technology & Information – eSecurityNews (Oct 2023) Link⁠‌
Fonte ²⁸ Cybersecurity Ventures – Global ransomware damage cost projection Link⁠‌
Fonte ²⁹ JumpCloud – Phishing attack statistics Link⁠‌
Fonte ³⁰ Hornetsecurity – Email threats in 2024 Link⁠‌
Fonte ³¹ Spearshield – Click‑to‑credential phishing study Link⁠‌
Fonte ³² APWG – Phishing Activity Trends Reports Link⁠‌
Fonte ³³ arXiv – Academic password/credential research (2025) Link⁠‌
Fonte ³⁴ DeepStrike – Password statistics 2025 Link⁠‌
Fonte ³⁵ NordPass – Top 200 Most Common Passwords Link⁠‌
Fonte ³⁶ Financial Times – Supply‑chain cybersecurity article Link⁠‌
Fonte ³⁷ SecurityScorecard – 2025 Supply Chain Cybersecurity Trends Link⁠‌
Fonte ³⁸ National Technology & Security Coalition – 2025 Software Supply Chain Security Report Link⁠‌
Fonte ³⁹ Palo Alto Networks – State of Cloud Native Security Link⁠‌
Fonte ⁴⁰ IBM – Threat Intelligence Report Link⁠‌
Fonte ⁴¹ Tenable – Cloud Security Risk Report 2025 Link⁠‌
Fonte ⁴² Cybersecurity Ventures – Cybersecurity Cost Report Link⁠‌
Fonte ⁴³ Statista Market Insights – Estimated cost of cybercrime worldwide 2018‑2029 (ResearchGate) Link⁠‌
Fonte ⁴⁴ Statista – Cost of cybercrime worldwide forecast Link⁠‌
Fonte ⁴⁵ FTC – Consumer Sentinel Network Data Book 2024 Link⁠‌
Fonte ⁴⁶ FBI IC3 – 2024 Internet Crime Report Link⁠‌
Fonte ⁴⁷ Kroll – Data Breach Outlook 2025 Link⁠‌
Fonte ⁴⁸ IBM – Cost of a Data Breach 2024: Financial Industry Link⁠‌
Fonte ⁴⁹ SailPoint – 2024 State of Identity Security in Financial Services Link⁠‌
Fonte ⁵⁰ DeepStrike – Healthcare data breach statistics 2025 Link⁠‌
Fonte ⁵¹ Proofpoint & Ponemon – Healthcare Cybersecurity Report Link⁠‌
Fonte ⁵² Check Point – Cyber Security Report 2025 Link⁠‌
Fonte ⁵³ Thales – 2024 Data Threat Report: Critical Infrastructure Edition Link⁠‌
Fonte ⁵⁴ Cyfirma – Energy & Utilities industry report Link⁠‌
Fonte ⁵⁵ World Economic Forum – Global Cybersecurity Outlook 2025 Link⁠‌
Fonte ⁵⁶ DeepStrike – Cyber attacks on small businesses Link⁠‌
Fonte ⁵⁷ Devolutions – State of IT Security Report 2025 Link⁠‌
Fonte ⁵⁸ TotalAssure – Small business cybersecurity statistics 2025 Link⁠‌
Fonte ⁵⁹ Cisco – Cybersecurity Readiness Index 2025 Link⁠‌
Fonte ⁶⁰ IANS Research – Security budgets press release (2024) Link⁠‌
Fonte ⁶¹ Munich Re – Cyber insurance risks and trends 2025 Link⁠‌
Fonte ⁶² Gartner – 2025 information security spending forecast Link⁠‌
Fonte ⁶³ Forrester – 2024 Cybersecurity Benchmarks (Global) Link⁠‌
Fonte ⁶⁴ Ivanti – State of Cybersecurity Report Link⁠‌
Fonte ⁶⁵ U.S. Department of Homeland Security – FY 2025 Budget in Brief Link⁠‌
Fonte ⁶⁶ U.S. Department of Defense – CYBERCOM Budget Justification Link⁠‌
Fonte ⁶⁷ Google Cloud – Cybersecurity forecast Link⁠‌
Fonte ⁶⁸ Gartner – Generative AI attack survey (Sep 22 2025) Link⁠‌
Fonte ⁶⁹ Splashtop – Top cybersecurity trends and predictions for 2026 Link⁠‌
Fonte ⁷⁰ ENISA – Threat Landscape 2024 Link⁠‌

Estatísticas de cibersegurança: metodologia e fontes

Objetivo desta página

Âmbito dos dados

Fontes de dados e descoberta

Tipos de fonte

Processo de descoberta

Coleta e processamento de conteúdo

Recuperação de artigo

Desduplicação

Filtragem por relevância e classificação

Avaliação de relevância de cibersegurança

Classificação do tipo de evento

Agrupamento de eventos (agregação article-to-event)

Uso de análises automatizadas e controles de qualidade

Classificação automatizada

Garantia de qualidade

Como as estatísticas são calculadas

Métricas no nível do artigo vs. métricas no nível do evento

Interpretação de contagens e frequências

Limitações e considerações

Índice de Fontes

Estatísticas de cibersegurança:
metodologia e fontes