Estatísticas de cibersegurança:
metodologia e fontes
Objetivo desta página
Esta página explica como as estatísticas de cibersegurança apresentadas na nossa página de Estatísticas de Cibersegurança são coletadas, processadas e interpretadas, além de oferecer total transparência sobre as fontes de dados citadas. A página principal de Estatísticas de Cibersegurança apresenta conclusões resumidas e insights da pesquisa da NordVPN.
Fontes de dados e atribuição
A descoberta de fontes é feita por meio da API do Google Custom Search (GCS), usando vários mecanismos de pesquisa personalizados (CSEs) configurados para:
veículos de comunicação: 44 fontes da grande mídia e da mídia especializada em tecnologia (por exemplo, BBC, CNN, The New York Times, WSJ, FT, Reuters, Bloomberg, TechCrunch, Wired, Ars Technica, Time, Forbes).
sites de referência: 25 fontes do setor e especialistas (por exemplo, CISA, KrebsOnSecurity, The Hacker News, Dark Reading, BleepingComputer, SecurityWeek, Infosecurity Magazine).
notícias locais: mais de 100 veículos regionais e nacionais nas regiões APAC, EMEA e Américas (por exemplo, Channel NewsAsia, CSA.gov.sg, Zaobao; HK01, unwire.hk; Japan Times, NISC, JPCERT, ITMedia).
sem restrições/geral.
As consultas são baseadas em palavras-chave de uma lista mantida que agrupa os termos por categoria.
Todos os registros incluem atribuição explícita:
Link do artigo original
Veículo de mídia (domínio extraído da URL)
Data de publicação e data de coleta
Nós sintetizamos informações de várias fontes para estatísticas e agregação de eventos; cada estatística é derivada de evidências em nível de artigo armazenadas com links.
Recuperação de conteúdo e frequência de coleta
Busca o conteúdo completo dos links encontrados com:
Principal: NewsPlease
Alternativa: download direto de HTML com sessão de solicitações reforçada e extração de trafilatura.
Tempos limite, tentativas de repetição, fallbacks de TLS e cabeçalhos de referer são usados para reduzir falhas temporárias.
A data e o título da publicação são obtidos do extrator, quando disponíveis; a análise da data é normalizada para apenas a data.
As consultas diárias analisam o conteúdo de 1 dia anterior.
Extração de funcionalidades
Os campos extraídos incluem:
Veículo de mídia (a partir da URL)
Primeiro parágrafo (primeiras 3–5 frases)
Características das palavras-chave: contagem total no texto, presença no título, frases que contêm a palavra-chave principal e presença de qualquer palavra-chave da lista mantida
Contagem de palavras
Avaliação de relevância da LLM
Cada artigo é avaliado por um LLM com uma configuração determinística (temperatura 0) e um prompt restrito que exige respostas explícitas e estruturadas:
1. Se o artigo é relevante para eventos cibernéticos
2. Se for o caso, é atribuído um tipo de evento de alto nível:
Incidente: Já ocorreu um ciberataque ou violação confirmada (por exemplo, implantação de ransomware, exfiltração de dados, DDoS e comprometimento do sistema).
Vulnerabilidade: descoberta ou divulgação de uma falha de segurança em software/hardware/sistemas que poderia ser explorada (risco potencial, e não exploração confirmada).
Inteligência contra ameaças: relatórios sobre agentes de ameaças, ferramentas, TTPs e campanhas — com foco em "quem/como", e não em um incidente de uma vítima específica.
Regulatório/Legal: leis, regulamentos, medidas de fiscalização, decisões judiciais ou grandes mudanças nas políticas que afetam as obrigações de cibersegurança.
Tipo de artigo e categorização
Os artigos relevantes são categorizados por meio de critérios de taxonomia estruturados (primários: status do ataque, tipo de evento, regulatório/legal; secundários: métricas/classe de impacto, detalhes técnicos, setores, região, tamanho, danos aproximados).
Agrupamento de eventos (agregação article-to-event)
Objetivo: agrupar artigos que descrevem o mesmo incidente subjacente em um único “evento”.
Método:
Recupera eventos existentes do banco de dados para fornecer contexto (títulos, organizações conhecidas afetadas, agentes de ameaças, links).
Para cada artigo candidato (onde Tipo de Artigo = Incidente Único), a LLM compara os detalhes do artigo com lotes de eventos existentes e:
1. Atribui um ID de evento existente quando há uma correspondência de alta confiança, ou
2. Caso contrário, cria um novo evento.
As instruções enfatizam alta precisão: só crie um link para um evento existente quando tiver certeza absoluta. As organizações afetadas e os sinais dos agentes de ameaças são considerados indicadores fortes.
Os eventos mantêm campos agregados: datas da primeira/última visualização, contagem de artigos, organizações afetadas, agentes de ameaças, títulos, links.
Precisão e garantia de qualidade
Determinismo e restrições:
Temperatura do LLM definida como 0 para maximizar o determinismo e reduzir alucinações.
Os prompts restritos exigem campos explícitos e saídas JSON; a análise impõe o esquema.
Artigos sem conteúdo (sem título/texto) são rejeitados logo de cara.
Métricas governadas por LLM e validadas por esquema:
Todos os campos métricos são gerados por execuções determinísticas do LLM (temperatura 0) sob diretrizes rigorosas e documentadas e esquemas JSON; apenas os resultados em conformidade com o esquema são contabilizados, com controle de qualidade humano periódico para calibrar e evitar desvios.
Classificação de evento/artigo para filtragem precisa:
A classificação por tipo de evento e foco do artigo funciona como um filtro de relevância rigoroso, eliminando conteúdos fora do tema, com pouca relevância ou do tipo resumo. Esse foco no relato de incidentes individuais reduz o ruído e melhora significativamente a precisão e a exatidão do conjunto de dados.
Validação de múltiplas fontes:
O agrupamento de eventos consulta o contexto de eventos armazenado anteriormente; as incompatibilidades reduzem a chance de fusões incorretas.
As agregações incluem a lista de links de origem por evento para verificação manual.
Human-in-the-loop:
Casos de grande impacto ou casos ambíguos podem ser sinalizados para revisão editorial e verificação de fatos.
Revisões regulares de controle de qualidade: artigos e eventos selecionados são auditados mensalmente, com revisão minuciosa; qualquer desvio aciona ajustes no prompt/modelo ou nas palavras-chave.
Rastreabilidade:
Todas as estatísticas podem ser rastreadas até os artigos e links contidos no banco de dados para fins de auditoria.
Limitações
Limites de cobertura:
A detecção baseada no GCS depende de palavras-chave e da configuração do CSE; nem todos os incidentes são capturados, especialmente fora dos idiomas configurados ou em conteúdos protegidos por paywall.
Alguns sites bloqueiam a recuperação automática; esses artigos podem estar parcial ou totalmente ausentes.
Riscos específicos da LLM:
Apesar das configurações determinísticas e das instruções estruturadas, podem ocorrer erros de classificação, principalmente com textos escassos ou ambíguos.
O agrupamento de eventos pode dividir o mesmo incidente em vários eventos ou mesclar incidentes semelhantes (mas distintos) em casos extremos.
Como as estatísticas são calculadas
Os campos no nível do artigo são derivados de extração direta e resultados do LLM (armazenados por registro).
As métricas no nível do evento agregam os artigos constituintes por event_id:
número de artigos, datas da primeira/última visualização
organizações afetadas e agentes de ameaças, sem contagens duplicadas
títulos representativos e listas de links canônicos
As estatísticas de relatório são extraídas dessas tabelas armazenadas; cada número pode ser rastreado até as linhas de eventos e os registros de artigos subjacentes.
Âmbito dos dados
As estatísticas e os insights mencionados no nosso conteúdo sobre cibersegurança são derivados de uma combinação de:
Relatórios de incidentes de cibersegurança disponíveis ao público
Cobertura da mídia sobre incidentes cibernéticos confirmados
Relatórios e pesquisas do setor
Divulgações governamentais e regulatórias
Os dados refletem atividades observáveis e relatadas publicamente, não o universo completo de todos os incidentes cibernéticos que ocorrem globalmente. Muitos incidentes cibernéticos nunca são divulgados, relatados ou abordados pela mídia.
Fontes de dados e descoberta
Tipos de fonte
Artigos e relatórios relacionados à cibersegurança são coletados de várias categorias de fontes, incluindo:
Mídia convencional e de tecnologia.
Exemplos incluem grandes agências de notícias internacionais e publicações de tecnologia.Fontes confiáveis e especializadas em cibersegurança.
Incluindo órgãos governamentais, organizações de pesquisa em cibersegurança e publicações reconhecidas do setor.Veículos de notícias regionais e locais.
Cobrindo incidentes de cibersegurança na América do Norte, Europa, Ásia-Pacífico e outras regiões.Relatórios do setor e de pesquisa.
Incluindo relatórios anuais sobre violações, relatórios sobre o panorama de ameaças, pesquisas e análises econômicas.
Cada fonte é citada no artigo ou na reportagem, com a data de publicação, o veículo de comunicação e a URL original preservados.
Processo de descoberta
A descoberta de conteúdo é feita por meio de consultas de pesquisa automatizadas com base em uma lista atualizada de palavras-chave de cibersegurança. As palavras-chave são agrupadas por tópico (por exemplo: violações de dados, ransomware, phishing, vulnerabilidades, regulamentação).
As buscas são feitas diariamente para capturar conteúdos recém-publicados. Cada execução consulta apenas dados recentes, garantindo que o conjunto de dados reflita os relatórios atuais.
Coleta e processamento de conteúdo
Recuperação de artigo
Assim que uma fonte é descoberta, o texto completo do artigo é recuperado usando ferramentas de extração automatizadas. Quando a extração primária falha, os métodos alternativos são usados para garantir uma cobertura robusta.
Desduplicação
Para evitar contagens duplas:
URLs idênticas são processadas apenas uma vez
Conteúdo republicado ou distribuído é desduplicado no nível do artigo
A agregação no nível do evento (descrita abaixo) reduz ainda mais a duplicação entre os veículos
Filtragem por relevância e classificação
Avaliação de relevância de cibersegurança
Cada artigo é avaliado para determinar se é relevante para as estatísticas de cibersegurança. Os artigos devem descrever ou analisar de forma significativa um evento de cibersegurança, uma ameaça, uma vulnerabilidade ou uma ação regulatória.
Classificação do tipo de evento
Os artigos relevantes são classificados em categorias gerais, incluindo:
Incidente – Um ciberataque ou violação confirmada que já aconteceu
Vulnerabilidade – Divulgação de uma falha de segurança que poderia ser explorada
Inteligência de ameaças – Relatórios sobre agentes, ferramentas, campanhas ou técnicas de ameaças
Regulamentação/legislação – Leis, medidas de fiscalização, mudanças nas políticas ou processos judiciais relacionados à cibersegurança
Essa classificação garante que as estatísticas referentes a “incidentes”, “violações” ou “ataques” não sejam confundidas com divulgações de vulnerabilidades ou comentários gerais.
Agrupamento de eventos (agregação article-to-event)
Muitas vezes, vários artigos falam sobre o mesmo incidente cibernético. Para evitar contagem excessiva:
Artigos que descrevem o mesmo incidente são agrupados em um único evento
Os eventos recebem identificadores internos fixos
Os artigos só são vinculados a eventos existentes quando há uma alta confiança de que eles descrevem a mesma ocorrência
Os indicadores usados para agrupamento incluem organizações afetadas, agentes de ameaças, cronogramas e descrições de incidentes.
Os registros no nível do evento mantêm:
Datas da primeira e da última aparição
Número de artigos relacionados
Organizações afetadas
Atores de ameaças referenciados
Links de origem para verificação
Uso de análises automatizadas e controles de qualidade
Classificação automatizada
A análise estruturada e determinística de modelos de linguagem é usada para classificação, extração e agregação. Todas as saídas automatizadas seguem esquemas predefinidos para garantir a consistência.
Os modelos operam com configurações determinísticas para reduzir a variabilidade e o risco de alucinação.
Garantia de qualidade
Para manter a precisão:
A validação do esquema garante que só os resultados devidamente estruturados sejam contabilizados
Procedimentos mensais regulares de amostragem e revisão, incluindo uma revisão de precisão, são realizados para detectar desvios na classificação. Esta revisão identifica mudanças na classificação, o que, por sua vez, orienta e exige ajustes no modelo.
Casos ambíguos ou de alto impacto são sinalizados para revisão humana
As estatísticas agregadas mantêm a rastreabilidade até artigos e eventos individuais
Como as estatísticas são calculadas
Métricas no nível do artigo vs. métricas no nível do evento
Algumas estatísticas são baseadas em:
Contagens por artigo (por exemplo, volume de cobertura da mídia)
Contagens no nível do evento (por exemplo, número de violações ou incidentes distintos)
Quando possível, é melhor usar métricas no nível do evento para evitar repetições.
Interpretação de contagens e frequências
Estatísticas como “incidentes por dia” ou “violações por ano” representam atividades relatadas ou divulgadas pela mídia, e não a atividade global total.
Os dados de telemetria de fornecedores, os sistemas de reclamação do governo e as projeções econômicas costumam apresentar volumes significativamente maiores devido a diferenças de escopo e metodologia. Essas diferenças são indicadas quando relevantes.
Limitações e considerações
Embora tomemos todo o cuidado para garantir a precisão e a consistência, os dados possuem limitações inerentes:
Nem todos os incidentes são divulgados ou relatados publicamente
A cobertura da mídia varia de acordo com a região, o setor e a magnitude do incidente
Algumas fontes restringem o acesso
Erros de classificação podem ocorrer em casos extremos
Os valores das perdas econômicas podem mudar conforme as investigações avançam
Então, as estatísticas devem ser interpretadas como indicadores de tendência, e não como medidas exaustivas.
Índice de Fontes
Cada fonte numerada abaixo corresponde a uma referência sobrescrita usada na página de Estatísticas de Cibersegurança. Os expoentes levam diretamente à entrada de origem relevante nesta página.
Fonte 1 Statista – |
|---|
Fonte 2 Identity Theft |
Fonte 3 Identity Theft |
Fonte 4 Verizon – |
Fonte 5 IBM – |
Fonte 6 South Korean |
Fonte 7 Aflac – June |
Fonte 8 HIPAA Journal – |
Fonte 9 California Attorney |
Fonte 10 Iowa Attorney |
Fonte 11 Rhode Island |
Fonte 12 Rhode Island |
Fonte 13 Aflac Newsroom – |
Fonte 14 HIPAA Journal – |
Fonte 15 Office of the |
Fonte 16 Qantas – Information |
Fonte 17 Qantas Newsroom – |
Fonte 18 Michigan Attorney |
Fonte 19 Maine Attorney |
Fonte 20 California Attorney |
Fonte 21 University of |
Fonte 22 Microsoft Digital |
Fonte 23 WIRED – NotPetya |
Fonte 24 Reuters – UnitedHealth |
Fonte 25 The Guardian – Jaguar |
Fonte 26 NBC News – |
Fonte 27 Delaware Department |
Fonte 28 Cybersecurity |
Fonte 29 JumpCloud – Phishing |
Fonte 30 Hornetsecurity – Email |
Fonte 31 Spearshield – |
Fonte 32 APWG – Phishing |
Fonte 33 arXiv – Academic |
Fonte 34 DeepStrike – Password |
Fonte 35 NordPass – Top 200 |
Fonte 36 Financial Times – |
Fonte 37 SecurityScorecard – |
Fonte 38 National Technology & |
Fonte 39 Palo Alto Networks – |
Fonte 40 IBM – Threat |
Fonte 41 Tenable – |
Fonte 42 Cybersecurity |
Fonte 43 Statista Market |
Fonte 44 Statista – Cost of |
Fonte 45 FTC – Consumer |
Fonte 46 FBI IC3 – 2024 Internet |
Fonte 47 Kroll – Data Breach |
Fonte 48 IBM – Cost of a Data |
Fonte 49 SailPoint – 2024 |
Fonte 50 DeepStrike – |
Fonte 51 Proofpoint & |
Fonte 52 Check Point – |
Fonte 53 Thales – 2024 |
Fonte 54 Cyfirma – Energy & |
Fonte 55 World Economic |
Fonte 56 DeepStrike – Cyber |
Fonte 57 Devolutions – State of |
Fonte 58 TotalAssure – |
Fonte 59 Cisco – Cybersecurity |
Fonte 60 IANS Research – |
Fonte 61 Munich Re – |
Fonte 62 Gartner – 2025 |
Fonte 63 Forrester – 2024 |
Fonte 64 Ivanti – State of |
Fonte 65 U.S. Department of |
Fonte 66 U.S. Department of |
Fonte 67 Google Cloud – |
Fonte 68 Gartner – Generative AI |
Fonte 69 Splashtop – Top |
Fonte 70 ENISA – Threat |