Estatísticas de cibersegurança:
Metodologia e fontes

Objetivo desta página

Esta página explica como as estatísticas de cibersegurança apresentadas na nossa página de Estatísticas de Cibersegurança são recolhidas, processadas e interpretadas, e fornece total transparência relativamente às fontes de dados referenciadas. A página principal de Estatísticas de Cibersegurança apresenta conclusões resumidas e informações de investigação da NordVPN.

Fontes de dados e atribuição

A descoberta de fontes é realizada através da API do Google Custom Search (GCS), utilizando vários motores de pesquisa personalizados (CSE) configurados para:

meios de comunicação: 44 fontes de comunicação tradicionais e de tecnologia (por exemplo, BBC, CNN, The New York Times, WSJ, FT, Reuters, Bloomberg, TechCrunch, Wired, Ars Technica, Time, Forbes).
sites de referência/autoridade: 25 fontes do setor e especialistas (por exemplo, CISA, KrebsOnSecurity, The Hacker News, Dark Reading, BleepingComputer, SecurityWeek, Infosecurity Magazine).
notícias locais: mais de 100 meios de comunicação regionais e nacionais na APAC, EMEA e nas Américas (por exemplo, Channel NewsAsia, CSA.gov.sg, Zaobao; HK01, unwire.hk; Japan Times, NISC, JPCERT, ITMedia).
sem restrições/geral.

As consultas são orientadas por palavras-chave de uma lista de palavras-chave mantida que agrupa os termos por categoria.

Todos os registos incluem uma atribuição explícita:

Ligação para o artigo original
Meio de comunicação (domínio extraído do URL)
Data de publicação e data de recolha

Sintetizamos informações de muitas fontes para estatísticas e agregação de eventos. Cada estatística é derivada de evidências ao nível do artigo armazenadas com ligações.

Frequência de recuperação e recolha de conteúdo

Obtém conteúdo de texto completo a partir de links descobertos com:

Principal: NewsPlease
Alternativa: transferência direta de HTML com sessão de pedidos reforçada e extração de trafilatura.

São utilizados tempos limite, repetições, fallbacks TLS e cabeçalhos Referer para reduzir falhas transitórias.

A data de publicação e o título são retirados do extrator, quando disponíveis. A análise da data é normalizada para apenas data.

As execuções diárias consultam o conteúdo do último dia.

Extração de funcionalidades

Os campos extraídos incluem:

Meio de comunicação (a partir do URL)
Primeiro parágrafo (primeiras três a cinco frases)
Funcionalidades das palavras-chave: contagem total no texto, presença no título, frases que contêm a palavra-chave principal e presença de quaisquer palavras-chave da lista mantida
Número de palavras

Avaliação de relevância por LLM

Cada artigo é avaliado por um LLM com uma configuração determinística (temperatura 0) e um prompt restrito que requer resultados explícitos e estruturados:

1. Se o artigo é relevante para um ciberincidente

2. Se for relevante, é atribuído um tipo de evento de alto nível:

Incidente: já ocorreu um ciberataque ou uma violação confirmada (por exemplo, implantação de ransomware, exfiltração de dados, DDoS, comprometimento do sistema).
Vulnerabilidade: Descoberta ou divulgação de uma falha de segurança em software/hardware/sistemas que poderia ser explorada (risco potencial em vez de exploração confirmada).
Informações sobre ameaças: relatórios sobre agentes maliciosos, ferramentas, TTP e campanhas. Com foco em "quem/como", e não num incidente específico envolvendo uma vítima.
Regulamentar‑Jurídico: Leis, regulamentos, ações de execução, decisões judiciais ou grandes alterações de políticas que afetam as obrigações de cibersegurança.

Tipo de artigo e categorização

Os artigos relevantes são categorizados através de pedidos de taxonomia estruturados (primário: estado do ataque, tipo de evento, regulamentar/jurídico; secundário: métricas/classe de impacto, especificidades técnicas, setores, geografia, dimensão, danos aproximados).

Agrupamento de eventos (agregação de artigo a evento)

Objetivo: agrupar artigos que descrevam o mesmo incidente subjacente num único "evento".

Método:

Recuperar eventos existentes da base de dados para fornecer contexto (títulos, organizações afetadas conhecidas, agentes de ameaças, ligações).
Para cada artigo candidato (em que Tipo de Artigo = Incidente Único), o LLM compara os detalhes do artigo com lotes de eventos existentes e:

1. Atribui um ID de evento existente quando há uma correspondência de alta confiança, ou

2. Caso contrário, cria um novo evento.

Os prompts enfatizam a alta precisão: um evento existente só é ligado quando o nível de confiança é elevado. As organizações afetadas e os sinais de agentes de ameaças são tratados como indicadores fortes.

Os eventos mantêm campos agregados: datas da primeira/última visualização, número de artigos, organizações afetadas, agentes de ameaças, títulos, ligações.

Precisão e garantia de qualidade

Determinismo e restrições:

A temperatura do LLM foi definida para 0 para maximizar o determinismo e reduzir as alucinações.
Os pedidos restritos exigem campos explícitos e saídas JSON; a análise impõe o esquema.
Os artigos sem conteúdo (sem título/texto) são rejeitados antecipadamente.

Métricas regidas por LLM e validadas por esquema:

Todos os campos de métricas são produzidos por execuções determinísticas de LLM (temperatura 0) sob diretrizes rigorosas e documentadas e esquemas JSON. Apenas os resultados em conformidade com o esquema são contabilizados, com controlo de qualidade humano periódico para calibrar e prevenir desvios.

Classificação de eventos/artigos para filtragem precisa:

A classificação por tipo de evento e foco do artigo serve como um filtro de relevância rigoroso, eliminando conteúdos fora do tema, de baixo sinal ou de estilo de resumo. Este foco na comunicação de incidentes individuais reduz o ruído e melhora de forma mensurável a precisão e a exatidão do conjunto de dados.

Validação de múltiplas fontes:

O agrupamento de eventos faz referência ao contexto de eventos armazenado anteriormente. As incompatibilidades reduzem a probabilidade de fusões incorretas.
As agregações incluem a lista de ligações de origem por evento para verificação manual.

Intervenção humana:

Casos de grande impacto ou ambíguos podem ser sinalizados para revisão editorial e verificação de factos.
Revisões regulares de controlo de qualidade: artigos e eventos amostrados são auditados mensalmente, com uma revisão de precisão. Qualquer desvio desencadeia ajustes de pedido/modelo ou palavra-chave.

Rastreabilidade:

Todas as estatísticas podem ser atribuídas a artigos e ligações contidas na base de dados para efeitos de auditoria.

Limitações

Limites de cobertura:

A descoberta baseada em GCS depende de palavras-chave e da configuração do CSE. Nem todos os incidentes são capturados, especialmente fora dos idiomas configurados ou de conteúdos com acesso pago.
Alguns sites bloqueiam a recuperação automatizada. Esses artigos podem estar parcial ou totalmente ausentes.

Riscos específicos do LLM:

Apesar das definições determinísticas e dos prompts estruturados, pode ocorrer uma classificação incorreta, especialmente com textos escassos ou ambíguos.
O agrupamento de eventos pode dividir o mesmo incidente em vários eventos ou unir incidentes semelhantes, mas distintos, em casos extremos.

Como as estatísticas são calculadas

Os campos ao nível do artigo são derivados da extração direta e dos resultados do LLM (armazenados por registo).

As métricas ao nível do evento agregam os artigos constituintes por event_id:

contagens de artigos, datas da primeira/última visualização
organizações afetadas e agentes maliciosos deduplicados
títulos representativos e listas de ligações canónicas

As estatísticas dos relatórios são extraídas destas tabelas armazenadas. Cada valor pode ser rastreado até às linhas de eventos e aos registos de artigos subjacentes.

Âmbito dos dados

As estatísticas e informações referenciadas em todo o nosso conteúdo de cibersegurança são derivadas de uma combinação de:

Relatórios de incidentes de cibersegurança disponíveis publicamente
Cobertura mediática de ciberincidentes confirmados
Relatórios e inquéritos do setor
Divulgações governamentais e regulamentares

Os dados refletem atividade publicamente observável e relatada, e não o universo completo de todos os ciberincidentes que ocorrem globalmente. Muitos ciberincidentes não chegam a ser divulgados, comunicados ou abordados pelos meios de comunicação social.

Fontes de dados e descoberta

Tipos de fontes

Os artigos e relatórios relacionados com a cibersegurança são recolhidos a partir de várias categorias de fontes, incluindo:

Meios de comunicação tradicionais e de tecnologia.
Os exemplos incluem as principais organizações internacionais de notícias e publicações de tecnologia.
Fontes de cibersegurança autorizadas e especializadas.
Incluindo agências governamentais, organizações de investigação em cibersegurança e publicações consagradas do setor.
Meios de comunicação regionais e locais.
A cobrir incidentes de cibersegurança na América do Norte, Europa, Ásia-Pacífico e outras regiões.
Relatórios da indústria e de investigação.
Incluindo relatórios anuais de violações, relatórios do panorama de ameaças, inquéritos e análises económicas.

Cada fonte é atribuída ao nível do artigo ou relatório, com a data de publicação, o meio de comunicação e o URL original preservados.

Processo de descoberta

A descoberta de conteúdos é realizada através de consultas de pesquisa automatizadas baseadas numa lista de palavras-chave de cibersegurança mantida. As palavras-chave são agrupadas por tópico (por exemplo: violações de dados, ransomware, phishing, vulnerabilidades, regulamentação).

As pesquisas são realizadas diariamente para capturar conteúdo recém-publicado. Cada execução consulta apenas material recente, garantindo que o conjunto de dados reflita as notícias atuais.

Recolha e processamento de conteúdos

Recuperação de artigos

Assim que uma fonte é descoberta, o texto completo do artigo é obtido através de ferramentas de extração automatizadas. Quando a extração primária falha, são utilizados métodos alternativos para garantir uma cobertura robusta.

Deduplicação

Para evitar a dupla contagem:

Os URL idênticos são processados apenas uma vez
O conteúdo republicado ou distribuído é deduplicado ao nível do artigo
A agregação ao nível do evento (descrita abaixo) reduz ainda mais a duplicação entre os meios de comunicação

Filtragem e classificação de relevância

Avaliação da relevância para a cibersegurança

Cada artigo é avaliado para determinar se é relevante para as estatísticas de cibersegurança. Os artigos devem descrever ou analisar de forma significativa um evento, ameaça, vulnerabilidade ou ação regulatória de cibersegurança.

Classificação do tipo de evento

Os artigos relevantes são classificados em categorias de alto nível, incluindo:

Incidente – Um ciberataque ou violação confirmados que já ocorreram
Vulnerabilidade – Divulgação de uma falha de segurança que poderia ser explorada
Informações sobre ameaças – Relatórios sobre agentes de ameaças, ferramentas, campanhas ou técnicas
Regulamentar/jurídico – Leis, ações de execução, alterações de políticas ou processos judiciais relacionados com a cibersegurança

Esta classificação garante que as estatísticas referentes a "incidentes", "violações" ou "ataques" não sejam confundidas com divulgações de vulnerabilidades ou comentários gerais.

Agrupamento de eventos (agregação de artigo a evento)

Muitas vezes, vários artigos relatam o mesmo ciberincidente subjacente. Para evitar a contagem excessiva:

Os artigos que descrevem o mesmo incidente são agrupados num único evento
São atribuídos identificadores internos estáveis aos eventos
Os artigos são ligados a eventos existentes apenas quando existe uma elevada confiança de que descrevem a mesma ocorrência

Os indicadores utilizados para a agrupamento incluem organizações afetadas, agentes de ameaças, cronologias e descrições de incidentes.

Os registos ao nível do evento mantêm:

Datas da primeira e da última aparição
Número de artigos relacionados
Organizações afetadas
Agentes de ameaça referenciados
Ligações de origem para verificação

Utilização de análise automatizada e controlos de qualidade

Classificação automatizada

A análise estruturada e determinística do modelo de linguagem é utilizada para classificação, extração e agregação. Todos os resultados automatizados seguem esquemas predefinidos para garantir a consistência.

Os modelos operam com configurações determinísticas para reduzir a variabilidade e o risco de alucinação.

Controlo de qualidade

Para manter a precisão:

A validação do esquema garante que apenas os resultados devidamente estruturados são contabilizados
São realizados procedimentos mensais regulares de amostragem e revisão, incluindo uma revisão de precisão, para detetar desvios na classificação. Esta revisão identifica mudanças na classificação, que depois informam e exigem ajustes ao modelo.
Os casos ambíguos ou de alto impacto são sinalizados para revisão humana
As estatísticas agregadas mantêm a rastreabilidade a artigos e eventos individuais

Como são calculadas as estatísticas

Métricas ao nível do artigo vs ao nível do evento

Algumas estatísticas baseiam-se em:

Contagens ao nível do artigo (por exemplo, volume de cobertura mediática)
Contagens ao nível do evento (por exemplo, número de violações ou incidentes distintos)

Sempre que aplicável, são preferidas métricas ao nível do evento para reduzir a duplicação.

Interpretação de contagens e frequências

Estatísticas como "incidentes por dia" ou "violações por ano" representam atividade relatada ou visível nos meios de comunicação, e não a atividade global total.

A telemetria de fornecedores, os sistemas de reclamações governamentais e as projeções económicas relatam frequentemente volumes significativamente mais elevados devido a diferenças no âmbito e na metodologia. Estas diferenças são assinaladas quando relevante.

Limitações e considerações

Embora se tenha o cuidado de garantir a precisão e a consistência, os dados têm limitações inerentes:

Nem todos os incidentes são divulgados ou comunicados publicamente
A cobertura mediática varia consoante a região, o setor e a dimensão do incidente
Algumas fontes restringem o acesso
Podem ocorrer erros de classificação em casos extremos
Os valores relativos às perdas económicas podem sofrer alterações à medida que as investigações avançam

As estatísticas devem, portanto, ser interpretadas como indicadores direcionais e não como medições exaustivas.

Índice de fontes

Cada fonte numerada abaixo corresponde a uma referência em sobrescrito utilizada na página de Estatísticas de Cibersegurança. Os sobrescritos ligam diretamente à entrada da fonte relevante nesta página.

Fonte ¹ Statista – Cybercrime worldwide Ligação⁠‌
Fonte ² Identity Theft Resource Center (ITRC) – Weekly Breach Breakdown Q3 2025 Ligação⁠‌
Fonte ³ Identity Theft Resource Center (ITRC) – H1 2025 Data Breach Analysis Ligação⁠‌
Fonte ⁴ Verizon – Data Breach Investigations Report (DBIR) 2025 Ligação⁠‌
Fonte ⁵ IBM – Cost of a Data Breach Report 2025 Ligação⁠‌
Fonte ⁶ South Korean Ministry of Science and ICT – SK Telecom data exfiltration incident Ligação⁠‌
Fonte ⁷ Aflac – June 2025 security incident regulatory filing Ligação⁠‌
Fonte ⁸ HIPAA Journal – Largest healthcare data breaches of 2025 Ligação⁠‌
Fonte ⁹ California Attorney General – Aflac breach report (SB24-616010) Ligação⁠‌
Fonte ¹⁰ Iowa Attorney General – Aflac data breach notification Ligação⁠‌
Fonte ¹¹ Rhode Island Attorney General – Data‑breach notifications Ligação⁠‌
Fonte ¹² Rhode Island AG – Data‑breach notification Ligação⁠‌
Fonte ¹³ Aflac Newsroom – June 2025 security incident update Ligação⁠‌
Fonte ¹⁴ HIPAA Journal – Aflac data breach article Ligação⁠‌
Fonte ¹⁵ Office of the Australian Information Commissioner – Statement on Qantas cyber incident Ligação⁠‌
Fonte ¹⁶ Qantas – Information for customers on cyber incident Ligação⁠‌
Fonte ¹⁷ Qantas Newsroom – Update on Qantas cyber incident (9 July 2025) Ligação⁠‌
Fonte ¹⁸ Michigan Attorney General – Consumer alert on data breaches (TransUnion) Ligação⁠‌
Fonte ¹⁹ Maine Attorney General – Allianz Life cyber incident notice Ligação⁠‌
Fonte ²⁰ California Attorney General – Allianz data breach report (SB24-612078) Ligação⁠‌
Fonte ²¹ University of Maryland – Cyber Security Statistics Ligação⁠‌
Fonte ²² Microsoft Digital Defense Report 2023 Ligação⁠‌
Fonte ²³ WIRED – NotPetya cyberattack article Ligação⁠‌
Fonte ²⁴ Reuters – UnitedHealth tech unit hack article Ligação⁠‌
Fonte ²⁵ The Guardian – Jaguar Land Rover hack article Ligação⁠‌
Fonte ²⁶ NBC News – MGM Resorts cyberattack cost article Ligação⁠‌
Fonte ²⁷ Delaware Department of Technology & Information – eSecurityNews (Oct 2023) Ligação⁠‌
Fonte ²⁸ Cybersecurity Ventures – Global ransomware damage cost projection Ligação⁠‌
Fonte ²⁹ JumpCloud – Phishing attack statistics Ligação⁠‌
Fonte ³⁰ Hornetsecurity – Email threats in 2024 Ligação⁠‌
Fonte ³¹ Spearshield – Click‑to‑credential phishing study Ligação⁠‌
Fonte ³² APWG – Phishing Activity Trends Reports Ligação⁠‌
Fonte ³³ arXiv – Academic password/credential research (2025) Ligação⁠‌
Fonte ³⁴ DeepStrike – Password statistics 2025 Ligação⁠‌
Fonte ³⁵ NordPass – Top 200 Most Common Passwords Ligação⁠‌
Fonte ³⁶ Financial Times – Supply‑chain cybersecurity article Ligação⁠‌
Fonte ³⁷ SecurityScorecard – 2025 Supply Chain Cybersecurity Trends Ligação⁠‌
Fonte ³⁸ National Technology & Security Coalition – 2025 Software Supply Chain Security Report Ligação⁠‌
Fonte ³⁹ Palo Alto Networks – State of Cloud Native Security Ligação⁠‌
Fonte ⁴⁰ IBM – Threat Intelligence Report Ligação⁠‌
Fonte ⁴¹ Tenable – Cloud Security Risk Report 2025 Ligação⁠‌
Fonte ⁴² Cybersecurity Ventures – Cybersecurity Cost Report Ligação⁠‌
Fonte ⁴³ Statista Market Insights – Estimated cost of cybercrime worldwide 2018‑2029 (ResearchGate) Ligação⁠‌
Fonte ⁴⁴ Statista – Cost of cybercrime worldwide forecast Ligação⁠‌
Fonte ⁴⁵ FTC – Consumer Sentinel Network Data Book 2024 Ligação⁠‌
Fonte ⁴⁶ FBI IC3 – 2024 Internet Crime Report Ligação⁠‌
Fonte ⁴⁷ Kroll – Data Breach Outlook 2025 Ligação⁠‌
Fonte ⁴⁸ IBM – Cost of a Data Breach 2024: Financial Industry Ligação⁠‌
Fonte ⁴⁹ SailPoint – 2024 State of Identity Security in Financial Services Ligação⁠‌
Fonte ⁵⁰ DeepStrike – Healthcare data breach statistics 2025 Ligação⁠‌
Fonte ⁵¹ Proofpoint & Ponemon – Healthcare Cybersecurity Report Ligação⁠‌
Fonte ⁵² Check Point – Cyber Security Report 2025 Ligação⁠‌
Fonte ⁵³ Thales – 2024 Data Threat Report: Critical Infrastructure Edition Ligação⁠‌
Fonte ⁵⁴ Cyfirma – Energy & Utilities industry report Ligação⁠‌
Fonte ⁵⁵ World Economic Forum – Global Cybersecurity Outlook 2025 Ligação⁠‌
Fonte ⁵⁶ DeepStrike – Cyber attacks on small businesses Ligação⁠‌
Fonte ⁵⁷ Devolutions – State of IT Security Report 2025 Ligação⁠‌
Fonte ⁵⁸ TotalAssure – Small business cybersecurity statistics 2025 Ligação⁠‌
Fonte ⁵⁹ Cisco – Cybersecurity Readiness Index 2025 Ligação⁠‌
Fonte ⁶⁰ IANS Research – Security budgets press release (2024) Ligação⁠‌
Fonte ⁶¹ Munich Re – Cyber insurance risks and trends 2025 Ligação⁠‌
Fonte ⁶² Gartner – 2025 information security spending forecast Ligação⁠‌
Fonte ⁶³ Forrester – 2024 Cybersecurity Benchmarks (Global) Ligação⁠‌
Fonte ⁶⁴ Ivanti – State of Cybersecurity Report Ligação⁠‌
Fonte ⁶⁵ U.S. Department of Homeland Security – FY 2025 Budget in Brief Ligação⁠‌
Fonte ⁶⁶ U.S. Department of Defense – CYBERCOM Budget Justification Ligação⁠‌
Fonte ⁶⁷ Google Cloud – Cybersecurity forecast Ligação⁠‌
Fonte ⁶⁸ Gartner – Generative AI attack survey (Sep 22 2025) Ligação⁠‌
Fonte ⁶⁹ Splashtop – Top cybersecurity trends and predictions for 2026 Ligação⁠‌
Fonte ⁷⁰ ENISA – Threat Landscape 2024 Ligação⁠‌

Estatísticas de cibersegurança: Metodologia e fontes

Objetivo desta página

Âmbito dos dados

Fontes de dados e descoberta

Tipos de fontes

Processo de descoberta

Recolha e processamento de conteúdos

Recuperação de artigos

Deduplicação

Filtragem e classificação de relevância

Avaliação da relevância para a cibersegurança

Classificação do tipo de evento

Agrupamento de eventos (agregação de artigo a evento)

Utilização de análise automatizada e controlos de qualidade

Classificação automatizada

Controlo de qualidade

Como são calculadas as estatísticas

Métricas ao nível do artigo vs ao nível do evento

Interpretação de contagens e frequências

Limitações e considerações

Índice de fontes

Estatísticas de cibersegurança:
Metodologia e fontes