Estadísticas de ciberseguridad:
metodología y fuentes

Objetivo de esta página

En esta página se explica cómo se recopilan, procesan e interpretan las estadísticas de ciberseguridad, además de presentar las fuentes de datos utilizadas. La página principal de Estadísticas de ciberseguridad muestra un resumen de los resultados y de las conclusiones obtenidas a partir de las investigaciones de NordVPN.

Fuentes de datos y atribución

Las fuentes se identifican mediante la API de Google Custom Search (GCS), utilizando varios motores de búsqueda personalizados (CSE) configurados para:

  • Medios de comunicación: 44 medios generalistas y tecnológicos de referencia (como la BBC, CNN, el New York Times, el Wall Street Journal, el Financial Times, Reuters, Bloomberg, TechCrunch, Wired, Ars Technica, Time y Forbes).

  • Sitios web especializados y fuentes de referencia: 25 fuentes del sector y expertos en ciberseguridad (como CISA, KrebsOnSecurity, The Hacker News, Dark Reading, BleepingComputer, SecurityWeek e Infosecurity Magazine).

  • Noticias locales: más de 100 medios regionales y nacionales de APAC, EMEA y América (como Channel NewsAsia, CSA.gov.sg, Zaobao, HK01, unwire.hk, Japan Times, NISC, JPCERT e ITMedia).

  • Fuentes generales o sin restricciones.

Las búsquedas se realizan a partir de palabras clave definidas en una lista mantenida y organizada por categorías.

Todos los registros incluyen una atribución explícita con la siguiente información:

  • Enlace al artículo original.

  • Medio de comunicación (dominio extraído de la URL).

  • Fecha de publicación y fecha de recopilación.

Las estadísticas y agregaciones de eventos se elaboran a partir de información sintetizada de múltiples fuentes. Cada estadística se basa en evidencias extraídas a nivel de artículo y almacenadas junto con sus enlaces correspondientes.

Recuperación de contenido y frecuencia de recopilación

El contenido completo de los enlaces detectados se obtiene mediante:

  • Método principal: NewsPlease.

  • Método alternativo: descarga directa del HTML con una sesión de solicitudes reforzada y extracción mediante trafilatura.

Para minimizar errores temporales, se utilizan tiempos de espera, reintentos, configuraciones alternativas de TLS y encabezados HTTP Referer.

Cuando están disponibles, la fecha de publicación y el título se obtienen directamente del extractor. La información se analiza y se normaliza a un formato de solo fecha.

Las recopilaciones diarias consultan el contenido publicado durante el último día.

Extracción de características

Los campos extraídos incluyen:

  • Medio de comunicación (a partir de la URL).

  • Primer párrafo (las primeras 3 a 5 frases).

  • Características basadas en palabras clave: número total de apariciones en el texto, presencia en el título, frases que contienen la palabra clave principal y presencia de cualquier palabra clave incluida en la lista mantenida.

  • Número de palabras.

Evaluación de relevancia mediante LLM

Cada artículo es evaluado por un LLM con una configuración determinista (temperatura = 0) y un prompt restringido que exige respuestas explícitas y estructuradas:

1. Si el artículo está relacionado con un ciberincidente

2. En caso afirmativo, se asigna un tipo de evento de alto nivel:

  • Incidente: ya se ha producido un ciberataque o una brecha de seguridad confirmados (por ejemplo, despliegue de ransomware, exfiltración de datos, ataques DDoS o compromiso de sistemas).

  • Vulnerabilidad: descubrimiento o divulgación de una vulnerabilidad de seguridad en software, hardware o sistemas que podría ser explotada (riesgo potencial, no explotación confirmada).

  • Inteligencia sobre amenazas: información sobre actores maliciosos, herramientas, tácticas, técnicas y procedimientos (TTP) y campañas. Este enfoque se centra en el «quién» y el «cómo», más que en una víctima concreta.

  • Regulación y ámbito legal: leyes, normativas, acciones regulatorias, decisiones judiciales o cambios relevantes en políticas que afectan a las obligaciones en materia de ciberseguridad.

Tipo de artículo y categorización

Los artículos relevantes se clasifican mediante prompts basados en una taxonomía estructurada que tiene en cuenta criterios principales, como el estado del ataque, el tipo de evento y la categoría regulatoria o legal, así como criterios secundarios, entre ellos las métricas y el nivel de impacto, los detalles técnicos, los sectores afectados, la ubicación geográfica, el tamaño y los daños aproximados.

Agrupación de eventos (agregación de artículos en eventos)

Objetivo: agrupar artículos que describen un mismo incidente subyacente en un único «evento».

Método:

  • Se recuperan eventos existentes de la base de datos para proporcionar contexto, incluyendo títulos, organizaciones afectadas conocidas, actores maliciosos y enlaces.

  • Para cada artículo candidato (cuando el tipo de artículo = incidente individual), el LLM compara los detalles del artículo con grupos de eventos existentes y realiza una de las siguientes acciones:

1. Asigna un ID de evento existente cuando existe una coincidencia de alta confianza.

2. Crea un nuevo evento.

  • Los prompts priorizan una alta precisión: un artículo solo se vincula a un evento existente cuando el nivel de confianza es elevado. Las organizaciones afectadas y los indicadores relacionados con actores maliciosos se consideran señales especialmente relevantes.

Los eventos mantienen campos agregados como las fechas de primera y última detección, el número de artículos asociados, las organizaciones afectadas, los actores maliciosos identificados, así como los títulos y enlaces relacionados.

Precisión y control de calidad

Determinismo y restricciones:

  • La temperatura del LLM se establece en 0 para maximizar el determinismo y reducir las alucinaciones.

  • Los prompts restringidos exigen campos explícitos y respuestas en formato JSON, mientras que el análisis aplica validaciones basadas en esquemas definidos.

  • Los artículos sin contenido suficiente, como aquellos sin título o texto, se descartan en una fase temprana.

Métricas generadas y validadas mediante LLM:

  • Todos los campos métricos se generan mediante ejecuciones deterministas del LLM (temperatura = 0), siguiendo directrices estrictas y esquemas JSON documentados. Solo se contabilizan los resultados que cumplen con el esquema establecido y se realizan controles de calidad periódicos por parte de personas para calibrar el sistema y evitar desviaciones.

Clasificación de eventos y artículos para el filtrado de precisión:

  • La clasificación por tipo de evento y enfoque del artículo actúa como un filtro estricto de relevancia, eliminando contenido fuera de tema, con poco valor informativo o basado en recopilaciones generales. Este enfoque centrado en incidentes individuales reduce el ruido y mejora de forma significativa la precisión y la exactitud del conjunto de datos.

Validación a partir de múltiples fuentes:

  • La agrupación de eventos utiliza como referencia el contexto de eventos previamente almacenados, lo que reduce la probabilidad de realizar asociaciones incorrectas en caso de discrepancias.

  • Las agregaciones incluyen la lista de enlaces de las fuentes asociadas a cada evento para facilitar su verificación manual.

Supervisión humana:

  • Los casos de alto impacto o especialmente ambiguos pueden marcarse para su revisión editorial y verificación de datos.

  • Revisiones periódicas de control de calidad: cada mes se audita una muestra de artículos y eventos para evaluar la precisión del sistema. Si se detectan desviaciones, se ajustan los prompts, los modelos o las palabras clave utilizadas.

Trazabilidad:

  • Todas las estadísticas pueden rastrearse hasta los artículos y enlaces almacenados en la base de datos, lo que garantiza su auditabilidad.

Limitaciones

Límites de cobertura:

  • La información recopilada basada en Google Custom Search (GCS) depende de las palabras clave utilizadas y de la configuración de los motores de búsqueda personalizados (CSE), por lo que no todos los incidentes llegan a recopilarse, especialmente aquellos publicados en idiomas fuera de los configurados o en contenidos de pago.

  • Algunos sitios web bloquean la recopilación automatizada de contenido, por lo que ciertos artículos pueden estar incompletos o faltar.

Riesgos asociados al uso de LLM:

  • A pesar de utilizar configuraciones deterministas y prompts estructurados, pueden producirse errores de clasificación, especialmente en textos ambiguos o con poca información.

  • En algunos casos límite, la agrupación de eventos puede dividir un mismo incidente en varios eventos distintos o fusionar incidentes similares que en realidad son diferentes.

¿Cómo se calculan las estadísticas?

Los campos a nivel de artículo se obtienen mediante extracción directa y a partir de los resultados generados por el LLM, que se almacenan en cada registro.

Las métricas a nivel de evento agregan la información de los artículos asociados mediante el identificador event_id, incluyendo:

  • número de artículos y fechas de primera y última detección,

  • organizaciones afectadas y actores maliciosos sin duplicados,

  • títulos representativos y listas de enlaces canónicos.

Las estadísticas de los informes se generan a partir de estas tablas almacenadas y cada cifra puede rastrearse hasta los registros de eventos y los artículos originales asociados.

Alcance de los datos

Las estadísticas y conclusiones utilizadas en nuestros contenidos sobre ciberseguridad se basan en una combinación de:

  • Informes públicos sobre incidentes de ciberseguridad.

  • Cobertura mediática de ciberincidentes confirmados.

  • Informes y estudios del sector.

  • Divulgaciones realizadas por organismos gubernamentales y reguladores.

Los datos reflejan actividades observables y reportadas públicamente, no el conjunto total de todos los ciberincidentes que se producen a nivel global. Muchos incidentes nunca se divulgan, notifican ni llegan a aparecer en los medios de comunicación.

Fuentes de datos y detección

Tipos de fuentes

Los artículos e informes relacionados con la ciberseguridad se recopilan a partir de distintas categorías de fuentes, entre ellas:

  • Medios de comunicación generalistas y tecnológicos.
    Algunos ejemplos son las principales agencias de noticias internacionales y las publicaciones tecnológicas.

  • Fuentes expertas y de referencia en ciberseguridad.
    Entre ellas se encuentran organismos gubernamentales, organizaciones de investigación en ciberseguridad y publicaciones consolidadas del sector.

  • Medios de comunicación regionales y locales.
    Cubren incidentes de ciberseguridad en Norteamérica, Europa, Asia-Pacífico y otras regiones.

  • Informes del sector y estudios de investigación.
    Incluyen informes anuales sobre brechas de seguridad, análisis del panorama de amenazas, encuestas y estudios económicos.

Cada fuente se atribuye a nivel de artículo o informe, conservando la fecha de publicación, el medio y la URL original.

Proceso de detección

La detección de contenido se realiza mediante búsquedas automatizadas basadas en una lista de palabras clave relacionadas con la ciberseguridad, mantenida y actualizada de forma continua. Estas palabras clave se agrupan por temáticas, como filtraciones de datos, ransomware, phishing, vulnerabilidades o regulación.

Las búsquedas se ejecutan diariamente para identificar contenido recién publicado. Cada ejecución consulta únicamente material reciente, lo que garantiza que el conjunto de datos refleje la actualidad informativa.

Recopilación y procesamiento del contenido

Recuperación de artículos

Una vez detectada una fuente, el texto completo del artículo se recupera mediante herramientas automatizadas de extracción. Cuando el método principal de extracción falla, se utilizan métodos alternativos para garantizar una cobertura sólida y consistente.

Eliminación de duplicados

Para evitar contabilizar contenido duplicado:

  • Las URL idénticas se procesan una sola vez.

  • El contenido republicado o distribuido en varios medios se elimina a nivel de artículo.

  • La agregación a nivel de evento (descrita más adelante) reduce aún más la duplicación entre distintos medios.

Filtrado de relevancia y clasificación

Evaluación de relevancia en ciberseguridad

Cada artículo se evalúa para determinar si resulta relevante para las estadísticas de ciberseguridad. Los artículos deben describir o analizar de forma significativa un incidente, amenaza, vulnerabilidad o acción regulatoria relacionada con la ciberseguridad.

Clasificación del tipo de evento

Los artículos relevantes se clasifican en categorías generales, entre ellas:

  • Incidente: ciberataque o brecha de seguridad confirmado que ya se ha producido.

  • Vulnerabilidad: divulgación de una debilidad de seguridad que podría ser explotada.

  • Inteligencia sobre amenazas: información relacionada con actores maliciosos, herramientas, campañas o técnicas utilizadas.

  • Regulación y ámbito legal: leyes, acciones regulatorias, cambios normativos o procedimientos judiciales relacionados con la ciberseguridad.

Esta clasificación garantiza que las estadísticas relacionadas con «incidentes», «brechas» o «ataques» no se mezclen con divulgaciones de vulnerabilidades ni con comentarios generales.

Agrupación de eventos (agregación de artículos en eventos)

Con frecuencia, varios artículos informan sobre un mismo ciberincidente subyacente. Para evitar duplicidades en el recuento:

  • Los artículos que describen el mismo incidente se agrupan en un único evento.

  • A cada evento se le asigna un identificador interno estable.

  • Los artículos solo se vinculan a eventos existentes cuando existe un alto nivel de confianza en que describen el mismo incidente.

Entre los indicadores utilizados para realizar esta agrupación se incluyen las organizaciones afectadas, los actores maliciosos, las cronologías y las descripciones del incidente.

Los registros a nivel de evento mantienen información como:

  • Fechas de primera y última aparición.

  • Número de artículos relacionados.

  • Organizaciones afectadas.

  • Actores maliciosos mencionados.

  • Enlaces a las fuentes para su verificación.

Uso de análisis automatizado y controles de calidad

Clasificación automatizada

Para las tareas de clasificación, extracción y agregación se utiliza un análisis automatizado basado en modelos de lenguaje estructurados y deterministas. Todos los resultados generados automáticamente siguen esquemas predefinidos para garantizar la coherencia y consistencia de los datos.

Los modelos funcionan con configuraciones deterministas para reducir la variabilidad y minimizar el riesgo de alucinaciones.

Control de calidad

Para garantizar la precisión de los datos:

  • La validación mediante esquemas asegura que solo se contabilicen resultados correctamente estructurados.

  • Se realizan procedimientos mensuales de muestreo y revisión, incluyendo revisiones de precisión, para detectar posibles desviaciones en la clasificación. Estas revisiones permiten identificar cambios en los criterios de clasificación y ajustar el modelo cuando es necesario.

  • Los casos ambiguos o de alto impacto se marcan para su revisión humana.

  • Las estadísticas agregadas mantienen la trazabilidad hasta los artículos y eventos individuales.

¿Cómo se calculan las estadísticas?

Métricas a nivel de artículo frente a nivel de evento

Algunas estadísticas se basan en:

  • Recuentos a nivel de artículo (por ejemplo, el volumen de cobertura mediática).

  • Recuentos a nivel de evento (por ejemplo, el número de brechas de seguridad o incidentes distintos).

Siempre que es posible, se priorizan las métricas a nivel de evento para reducir duplicidades.

Interpretación de recuentos y frecuencias

Las estadísticas como «incidentes por día» o «brechas por año» reflejan la actividad reportada o visible en los medios, no la totalidad de la actividad global.

Las herramientas de telemetría de proveedores, los sistemas gubernamentales de notificación y las proyecciones económicas suelen mostrar volúmenes considerablemente más altos debido a diferencias en el alcance y la metodología utilizados. Estas diferencias se indican cuando resulta relevante.

Limitaciones y consideraciones

Aunque se aplican medidas para garantizar la precisión y la coherencia de los datos, existen ciertas limitaciones inherentes:

  • No todos los incidentes se divulgan o notifican públicamente.

  • La cobertura mediática varía según la región, el sector y la magnitud del incidente.

  • Algunas fuentes restringen el acceso a sus contenidos.

  • En determinados casos límite pueden producirse errores de clasificación.

  • Las estimaciones de pérdidas económicas pueden cambiar a medida que avanzan las investigaciones.

Por ello, estas estadísticas deben interpretarse como indicadores orientativos y no como mediciones exhaustivas.

Índice de fuentes

Cada una de las fuentes numeradas que aparecen a continuación corresponde a una referencia en superíndice utilizada en la página de Estadísticas de ciberseguridad. Los superíndices enlazan directamente con la entrada correspondiente de esta página.

Fuente 1

Statista –
Cybercrime worldwide

Fuente 2

Identity Theft
Resource Center
(ITRC) – Weekly
Breach
Breakdown
Q3 2025

Fuente 3

Identity Theft
Resource Center
(ITRC) – H1 2025
Data Breach Analysis

Fuente 4

Verizon –
Data Breach
Investigations
Report (DBIR) 2025

Fuente 5

IBM –
Cost of a Data
Breach Report 2025

Fuente 6

South Korean
Ministry of
Science and
ICT – SK Telecom data
exfiltration
incident

Fuente 7

Aflac – June
2025 security
incident
regulatory filing

Fuente 8

HIPAA Journal –
Largest healthcare
data breaches of 2025

Fuente 9

California Attorney
General – Aflac
breach report
(SB24-616010)

Fuente 10

Iowa Attorney
General – Aflac
data breach notification

Fuente 11

Rhode Island
Attorney General –
Data‑breach
notifications

Fuente 12

Rhode Island
AG –
Data‑breach
notification

Fuente 13

Aflac Newsroom –
June 2025
security incident
update

Fuente 14

HIPAA Journal –
Aflac data
breach article

Fuente 15

Office of the
Australian Information
Commissioner –
Statement on Qantas
cyber incident

Fuente 16

Qantas – Information
for customers on
cyber incident

Fuente 17

Qantas Newsroom –
Update on Qantas
cyber incident
(9 July 2025)

Fuente 18

Michigan Attorney
General – Consumer
alert on data breaches
(TransUnion)

Fuente 19

Maine Attorney
General – Allianz Life
cyber incident notice

Fuente 20

California Attorney
General – Allianz data
breach report
(SB24-612078)

Fuente 21

University of
Maryland – Cyber
Security Statistics

Fuente 22

Microsoft Digital
Defense Report 2023

Fuente 23

WIRED – NotPetya
cyberattack article

Fuente 24

Reuters – UnitedHealth
tech unit hack article

Fuente 25

The Guardian – Jaguar
Land Rover hack article

Fuente 26

NBC News –
MGM Resorts
cyberattack cost article

Fuente 27

Delaware Department
of Technology &
Information –
eSecurityNews
(Oct 2023)

Fuente 28

Cybersecurity
Ventures – Global
ransomware damage
cost projection

Fuente 29

JumpCloud – Phishing
attack statistics

Fuente 30

Hornetsecurity – Email
threats in 2024

Fuente 31

Spearshield –
Click‑to‑credential
phishing study

Fuente 32

APWG – Phishing
Activity Trends Reports

Fuente 33

arXiv – Academic
password/credential
research (2025)

Fuente 34

DeepStrike – Password
statistics 2025

Fuente 35

NordPass – Top 200
Most Common
Passwords

Fuente 36

Financial Times –
Supply‑chain
cybersecurity article

Fuente 37

SecurityScorecard –
2025 Supply Chain
Cybersecurity Trends

Fuente 38

National Technology &
Security Coalition –
2025 Software Supply
Chain Security Report

Fuente 39

Palo Alto Networks –
State of Cloud
Native Security

Fuente 40

IBM – Threat
Intelligence Report

Fuente 41

Tenable –
Cloud Security
Risk Report 2025

Fuente 42

Cybersecurity
Ventures –
Cybersecurity Cost
Report

Fuente 43

Statista Market
Insights – Estimated
cost of cybercrime
worldwide 2018‑2029
(ResearchGate)

Fuente 44

Statista – Cost of
cybercrime worldwide
forecast

Fuente 45

FTC – Consumer
Sentinel Network Data
Book 2024

Fuente 46

FBI IC3 – 2024 Internet
Crime Report

Fuente 47

Kroll – Data Breach
Outlook 2025

Fuente 48

IBM – Cost of a Data
Breach 2024: Financial
Industry

Fuente 49

SailPoint – 2024
State of Identity
Security in Financial
Services

Fuente 50

DeepStrike –
Healthcare data
breach statistics 2025

Fuente 51

Proofpoint &
Ponemon – Healthcare
Cybersecurity Report

Fuente 52

Check Point –
Cyber Security
Report 2025

Fuente 53

Thales – 2024
Data Threat Report:
Critical Infrastructure
Edition

Fuente 54

Cyfirma – Energy &
Utilities industry report

Fuente 55

World Economic
Forum – Global
Cybersecurity Outlook
2025

Fuente 56

DeepStrike – Cyber
attacks on small
businesses

Fuente 57

Devolutions – State of
IT Security Report 2025

Fuente 58

TotalAssure –
Small business
cybersecurity statistics
2025

Fuente 59

Cisco – Cybersecurity
Readiness Index 2025

Fuente 60

IANS Research –
Security budgets
press release (2024)

Fuente 61

Munich Re –
Cyber insurance risks
and trends 2025

Fuente 62

Gartner – 2025
information security
spending forecast

Fuente 63

Forrester – 2024
Cybersecurity
Benchmarks (Global)

Fuente 64

Ivanti – State of
Cybersecurity Report

Fuente 65

U.S. Department of
Homeland Security –
FY 2025 Budget in Brief

Fuente 66

U.S. Department of
Defense – CYBERCOM
Budget Justification

Fuente 67

Google Cloud –
Cybersecurity forecast

Fuente 68

Gartner – Generative AI
attack survey
(Sep 22 2025)

Fuente 69

Splashtop – Top
cybersecurity trends
and predictions
for 2026

Fuente 70

ENISA – Threat
Landscape 2024