Estatísticas de cibersegurança:
Metodologia e fontes
Objetivo desta página
Esta página explica como as estatísticas de cibersegurança apresentadas na nossa página de Estatísticas de Cibersegurança são recolhidas, processadas e interpretadas, e fornece total transparência relativamente às fontes de dados referenciadas. A página principal de Estatísticas de Cibersegurança apresenta conclusões resumidas e informações de investigação da NordVPN.
Fontes de dados e atribuição
A descoberta de fontes é realizada através da API do Google Custom Search (GCS), utilizando vários motores de pesquisa personalizados (CSE) configurados para:
meios de comunicação: 44 fontes de comunicação tradicionais e de tecnologia (por exemplo, BBC, CNN, The New York Times, WSJ, FT, Reuters, Bloomberg, TechCrunch, Wired, Ars Technica, Time, Forbes).
sites de referência/autoridade: 25 fontes do setor e especialistas (por exemplo, CISA, KrebsOnSecurity, The Hacker News, Dark Reading, BleepingComputer, SecurityWeek, Infosecurity Magazine).
notícias locais: mais de 100 meios de comunicação regionais e nacionais na APAC, EMEA e nas Américas (por exemplo, Channel NewsAsia, CSA.gov.sg, Zaobao; HK01, unwire.hk; Japan Times, NISC, JPCERT, ITMedia).
sem restrições/geral.
As consultas são orientadas por palavras-chave de uma lista de palavras-chave mantida que agrupa os termos por categoria.
Todos os registos incluem uma atribuição explícita:
Ligação para o artigo original
Meio de comunicação (domínio extraído do URL)
Data de publicação e data de recolha
Sintetizamos informações de muitas fontes para estatísticas e agregação de eventos. Cada estatística é derivada de evidências ao nível do artigo armazenadas com ligações.
Frequência de recuperação e recolha de conteúdo
Obtém conteúdo de texto completo a partir de links descobertos com:
Principal: NewsPlease
Alternativa: transferência direta de HTML com sessão de pedidos reforçada e extração de trafilatura.
São utilizados tempos limite, repetições, fallbacks TLS e cabeçalhos Referer para reduzir falhas transitórias.
A data de publicação e o título são retirados do extrator, quando disponíveis. A análise da data é normalizada para apenas data.
As execuções diárias consultam o conteúdo do último dia.
Extração de funcionalidades
Os campos extraídos incluem:
Meio de comunicação (a partir do URL)
Primeiro parágrafo (primeiras três a cinco frases)
Funcionalidades das palavras-chave: contagem total no texto, presença no título, frases que contêm a palavra-chave principal e presença de quaisquer palavras-chave da lista mantida
Número de palavras
Avaliação de relevância por LLM
Cada artigo é avaliado por um LLM com uma configuração determinística (temperatura 0) e um prompt restrito que requer resultados explícitos e estruturados:
1. Se o artigo é relevante para um ciberincidente
2. Se for relevante, é atribuído um tipo de evento de alto nível:
Incidente: já ocorreu um ciberataque ou uma violação confirmada (por exemplo, implantação de ransomware, exfiltração de dados, DDoS, comprometimento do sistema).
Vulnerabilidade: Descoberta ou divulgação de uma falha de segurança em software/hardware/sistemas que poderia ser explorada (risco potencial em vez de exploração confirmada).
Informações sobre ameaças: relatórios sobre agentes maliciosos, ferramentas, TTP e campanhas. Com foco em "quem/como", e não num incidente específico envolvendo uma vítima.
Regulamentar‑Jurídico: Leis, regulamentos, ações de execução, decisões judiciais ou grandes alterações de políticas que afetam as obrigações de cibersegurança.
Tipo de artigo e categorização
Os artigos relevantes são categorizados através de pedidos de taxonomia estruturados (primário: estado do ataque, tipo de evento, regulamentar/jurídico; secundário: métricas/classe de impacto, especificidades técnicas, setores, geografia, dimensão, danos aproximados).
Agrupamento de eventos (agregação de artigo a evento)
Objetivo: agrupar artigos que descrevam o mesmo incidente subjacente num único "evento".
Método:
Recuperar eventos existentes da base de dados para fornecer contexto (títulos, organizações afetadas conhecidas, agentes de ameaças, ligações).
Para cada artigo candidato (em que Tipo de Artigo = Incidente Único), o LLM compara os detalhes do artigo com lotes de eventos existentes e:
1. Atribui um ID de evento existente quando há uma correspondência de alta confiança, ou
2. Caso contrário, cria um novo evento.
Os prompts enfatizam a alta precisão: um evento existente só é ligado quando o nível de confiança é elevado. As organizações afetadas e os sinais de agentes de ameaças são tratados como indicadores fortes.
Os eventos mantêm campos agregados: datas da primeira/última visualização, número de artigos, organizações afetadas, agentes de ameaças, títulos, ligações.
Precisão e garantia de qualidade
Determinismo e restrições:
A temperatura do LLM foi definida para 0 para maximizar o determinismo e reduzir as alucinações.
Os pedidos restritos exigem campos explícitos e saídas JSON; a análise impõe o esquema.
Os artigos sem conteúdo (sem título/texto) são rejeitados antecipadamente.
Métricas regidas por LLM e validadas por esquema:
Todos os campos de métricas são produzidos por execuções determinísticas de LLM (temperatura 0) sob diretrizes rigorosas e documentadas e esquemas JSON. Apenas os resultados em conformidade com o esquema são contabilizados, com controlo de qualidade humano periódico para calibrar e prevenir desvios.
Classificação de eventos/artigos para filtragem precisa:
A classificação por tipo de evento e foco do artigo serve como um filtro de relevância rigoroso, eliminando conteúdos fora do tema, de baixo sinal ou de estilo de resumo. Este foco na comunicação de incidentes individuais reduz o ruído e melhora de forma mensurável a precisão e a exatidão do conjunto de dados.
Validação de múltiplas fontes:
O agrupamento de eventos faz referência ao contexto de eventos armazenado anteriormente. As incompatibilidades reduzem a probabilidade de fusões incorretas.
As agregações incluem a lista de ligações de origem por evento para verificação manual.
Intervenção humana:
Casos de grande impacto ou ambíguos podem ser sinalizados para revisão editorial e verificação de factos.
Revisões regulares de controlo de qualidade: artigos e eventos amostrados são auditados mensalmente, com uma revisão de precisão. Qualquer desvio desencadeia ajustes de pedido/modelo ou palavra-chave.
Rastreabilidade:
Todas as estatísticas podem ser atribuídas a artigos e ligações contidas na base de dados para efeitos de auditoria.
Limitações
Limites de cobertura:
A descoberta baseada em GCS depende de palavras-chave e da configuração do CSE. Nem todos os incidentes são capturados, especialmente fora dos idiomas configurados ou de conteúdos com acesso pago.
Alguns sites bloqueiam a recuperação automatizada. Esses artigos podem estar parcial ou totalmente ausentes.
Riscos específicos do LLM:
Apesar das definições determinísticas e dos prompts estruturados, pode ocorrer uma classificação incorreta, especialmente com textos escassos ou ambíguos.
O agrupamento de eventos pode dividir o mesmo incidente em vários eventos ou unir incidentes semelhantes, mas distintos, em casos extremos.
Como as estatísticas são calculadas
Os campos ao nível do artigo são derivados da extração direta e dos resultados do LLM (armazenados por registo).
As métricas ao nível do evento agregam os artigos constituintes por event_id:
contagens de artigos, datas da primeira/última visualização
organizações afetadas e agentes maliciosos deduplicados
títulos representativos e listas de ligações canónicas
As estatísticas dos relatórios são extraídas destas tabelas armazenadas. Cada valor pode ser rastreado até às linhas de eventos e aos registos de artigos subjacentes.
Âmbito dos dados
As estatísticas e informações referenciadas em todo o nosso conteúdo de cibersegurança são derivadas de uma combinação de:
Relatórios de incidentes de cibersegurança disponíveis publicamente
Cobertura mediática de ciberincidentes confirmados
Relatórios e inquéritos do setor
Divulgações governamentais e regulamentares
Os dados refletem atividade publicamente observável e relatada, e não o universo completo de todos os ciberincidentes que ocorrem globalmente. Muitos ciberincidentes não chegam a ser divulgados, comunicados ou abordados pelos meios de comunicação social.
Fontes de dados e descoberta
Tipos de fontes
Os artigos e relatórios relacionados com a cibersegurança são recolhidos a partir de várias categorias de fontes, incluindo:
Meios de comunicação tradicionais e de tecnologia.
Os exemplos incluem as principais organizações internacionais de notícias e publicações de tecnologia.Fontes de cibersegurança autorizadas e especializadas.
Incluindo agências governamentais, organizações de investigação em cibersegurança e publicações consagradas do setor.Meios de comunicação regionais e locais.
A cobrir incidentes de cibersegurança na América do Norte, Europa, Ásia-Pacífico e outras regiões.Relatórios da indústria e de investigação.
Incluindo relatórios anuais de violações, relatórios do panorama de ameaças, inquéritos e análises económicas.
Cada fonte é atribuída ao nível do artigo ou relatório, com a data de publicação, o meio de comunicação e o URL original preservados.
Processo de descoberta
A descoberta de conteúdos é realizada através de consultas de pesquisa automatizadas baseadas numa lista de palavras-chave de cibersegurança mantida. As palavras-chave são agrupadas por tópico (por exemplo: violações de dados, ransomware, phishing, vulnerabilidades, regulamentação).
As pesquisas são realizadas diariamente para capturar conteúdo recém-publicado. Cada execução consulta apenas material recente, garantindo que o conjunto de dados reflita as notícias atuais.
Recolha e processamento de conteúdos
Recuperação de artigos
Assim que uma fonte é descoberta, o texto completo do artigo é obtido através de ferramentas de extração automatizadas. Quando a extração primária falha, são utilizados métodos alternativos para garantir uma cobertura robusta.
Deduplicação
Para evitar a dupla contagem:
Os URL idênticos são processados apenas uma vez
O conteúdo republicado ou distribuído é deduplicado ao nível do artigo
A agregação ao nível do evento (descrita abaixo) reduz ainda mais a duplicação entre os meios de comunicação
Filtragem e classificação de relevância
Avaliação da relevância para a cibersegurança
Cada artigo é avaliado para determinar se é relevante para as estatísticas de cibersegurança. Os artigos devem descrever ou analisar de forma significativa um evento, ameaça, vulnerabilidade ou ação regulatória de cibersegurança.
Classificação do tipo de evento
Os artigos relevantes são classificados em categorias de alto nível, incluindo:
Incidente – Um ciberataque ou violação confirmados que já ocorreram
Vulnerabilidade – Divulgação de uma falha de segurança que poderia ser explorada
Informações sobre ameaças – Relatórios sobre agentes de ameaças, ferramentas, campanhas ou técnicas
Regulamentar/jurídico – Leis, ações de execução, alterações de políticas ou processos judiciais relacionados com a cibersegurança
Esta classificação garante que as estatísticas referentes a "incidentes", "violações" ou "ataques" não sejam confundidas com divulgações de vulnerabilidades ou comentários gerais.
Agrupamento de eventos (agregação de artigo a evento)
Muitas vezes, vários artigos relatam o mesmo ciberincidente subjacente. Para evitar a contagem excessiva:
Os artigos que descrevem o mesmo incidente são agrupados num único evento
São atribuídos identificadores internos estáveis aos eventos
Os artigos são ligados a eventos existentes apenas quando existe uma elevada confiança de que descrevem a mesma ocorrência
Os indicadores utilizados para a agrupamento incluem organizações afetadas, agentes de ameaças, cronologias e descrições de incidentes.
Os registos ao nível do evento mantêm:
Datas da primeira e da última aparição
Número de artigos relacionados
Organizações afetadas
Agentes de ameaça referenciados
Ligações de origem para verificação
Utilização de análise automatizada e controlos de qualidade
Classificação automatizada
A análise estruturada e determinística do modelo de linguagem é utilizada para classificação, extração e agregação. Todos os resultados automatizados seguem esquemas predefinidos para garantir a consistência.
Os modelos operam com configurações determinísticas para reduzir a variabilidade e o risco de alucinação.
Controlo de qualidade
Para manter a precisão:
A validação do esquema garante que apenas os resultados devidamente estruturados são contabilizados
São realizados procedimentos mensais regulares de amostragem e revisão, incluindo uma revisão de precisão, para detetar desvios na classificação. Esta revisão identifica mudanças na classificação, que depois informam e exigem ajustes ao modelo.
Os casos ambíguos ou de alto impacto são sinalizados para revisão humana
As estatísticas agregadas mantêm a rastreabilidade a artigos e eventos individuais
Como são calculadas as estatísticas
Métricas ao nível do artigo vs ao nível do evento
Algumas estatísticas baseiam-se em:
Contagens ao nível do artigo (por exemplo, volume de cobertura mediática)
Contagens ao nível do evento (por exemplo, número de violações ou incidentes distintos)
Sempre que aplicável, são preferidas métricas ao nível do evento para reduzir a duplicação.
Interpretação de contagens e frequências
Estatísticas como "incidentes por dia" ou "violações por ano" representam atividade relatada ou visível nos meios de comunicação, e não a atividade global total.
A telemetria de fornecedores, os sistemas de reclamações governamentais e as projeções económicas relatam frequentemente volumes significativamente mais elevados devido a diferenças no âmbito e na metodologia. Estas diferenças são assinaladas quando relevante.
Limitações e considerações
Embora se tenha o cuidado de garantir a precisão e a consistência, os dados têm limitações inerentes:
Nem todos os incidentes são divulgados ou comunicados publicamente
A cobertura mediática varia consoante a região, o setor e a dimensão do incidente
Algumas fontes restringem o acesso
Podem ocorrer erros de classificação em casos extremos
Os valores relativos às perdas económicas podem sofrer alterações à medida que as investigações avançam
As estatísticas devem, portanto, ser interpretadas como indicadores direcionais e não como medições exaustivas.
Índice de fontes
Cada fonte numerada abaixo corresponde a uma referência em sobrescrito utilizada na página de Estatísticas de Cibersegurança. Os sobrescritos ligam diretamente à entrada da fonte relevante nesta página.
Fonte 1 Statista – |
|---|
Fonte 2 Identity Theft |
Fonte 3 Identity Theft |
Fonte 4 Verizon – |
Fonte 5 IBM – |
Fonte 6 South Korean |
Fonte 7 Aflac – June |
Fonte 8 HIPAA Journal – |
Fonte 9 California Attorney |
Fonte 10 Iowa Attorney |
Fonte 11 Rhode Island |
Fonte 12 Rhode Island |
Fonte 13 Aflac Newsroom – |
Fonte 14 HIPAA Journal – |
Fonte 15 Office of the |
Fonte 16 Qantas – Information |
Fonte 17 Qantas Newsroom – |
Fonte 18 Michigan Attorney |
Fonte 19 Maine Attorney |
Fonte 20 California Attorney |
Fonte 21 University of |
Fonte 22 Microsoft Digital |
Fonte 23 WIRED – NotPetya |
Fonte 24 Reuters – UnitedHealth |
Fonte 25 The Guardian – Jaguar |
Fonte 26 NBC News – |
Fonte 27 Delaware Department |
Fonte 28 Cybersecurity |
Fonte 29 JumpCloud – Phishing |
Fonte 30 Hornetsecurity – Email |
Fonte 31 Spearshield – |
Fonte 32 APWG – Phishing |
Fonte 33 arXiv – Academic |
Fonte 34 DeepStrike – Password |
Fonte 35 NordPass – Top 200 |
Fonte 36 Financial Times – |
Fonte 37 SecurityScorecard – |
Fonte 38 National Technology & |
Fonte 39 Palo Alto Networks – |
Fonte 40 IBM – Threat |
Fonte 41 Tenable – |
Fonte 42 Cybersecurity |
Fonte 43 Statista Market |
Fonte 44 Statista – Cost of |
Fonte 45 FTC – Consumer |
Fonte 46 FBI IC3 – 2024 Internet |
Fonte 47 Kroll – Data Breach |
Fonte 48 IBM – Cost of a Data |
Fonte 49 SailPoint – 2024 |
Fonte 50 DeepStrike – |
Fonte 51 Proofpoint & |
Fonte 52 Check Point – |
Fonte 53 Thales – 2024 |
Fonte 54 Cyfirma – Energy & |
Fonte 55 World Economic |
Fonte 56 DeepStrike – Cyber |
Fonte 57 Devolutions – State of |
Fonte 58 TotalAssure – |
Fonte 59 Cisco – Cybersecurity |
Fonte 60 IANS Research – |
Fonte 61 Munich Re – |
Fonte 62 Gartner – 2025 |
Fonte 63 Forrester – 2024 |
Fonte 64 Ivanti – State of |
Fonte 65 U.S. Department of |
Fonte 66 U.S. Department of |
Fonte 67 Google Cloud – |
Fonte 68 Gartner – Generative AI |
Fonte 69 Splashtop – Top |
Fonte 70 ENISA – Threat |