Estadísticas de ciberseguridad:
metodología y fuentes

Objetivo de esta página

En esta página se explica cómo se recopilan, procesan e interpretan las estadísticas de ciberseguridad, además de presentar las fuentes de datos utilizadas. La página principal de Estadísticas de ciberseguridad muestra un resumen de los resultados y de las conclusiones obtenidas a partir de las investigaciones de NordVPN.

Fuentes de datos y atribución

Las fuentes se identifican mediante la API de Google Custom Search (GCS), utilizando varios motores de búsqueda personalizados (CSE) configurados para:

Medios de comunicación: 44 medios generalistas y tecnológicos de referencia (como la BBC, CNN, el New York Times, el Wall Street Journal, el Financial Times, Reuters, Bloomberg, TechCrunch, Wired, Ars Technica, Time y Forbes).
Sitios web especializados y fuentes de referencia: 25 fuentes del sector y expertos en ciberseguridad (como CISA, KrebsOnSecurity, The Hacker News, Dark Reading, BleepingComputer, SecurityWeek e Infosecurity Magazine).
Noticias locales: más de 100 medios regionales y nacionales de APAC, EMEA y América (como Channel NewsAsia, CSA.gov.sg, Zaobao, HK01, unwire.hk, Japan Times, NISC, JPCERT e ITMedia).
Fuentes generales o sin restricciones.

Las búsquedas se realizan a partir de palabras clave definidas en una lista mantenida y organizada por categorías.

Todos los registros incluyen una atribución explícita con la siguiente información:

Enlace al artículo original.
Medio de comunicación (dominio extraído de la URL).
Fecha de publicación y fecha de recopilación.

Las estadísticas y agregaciones de eventos se elaboran a partir de información sintetizada de múltiples fuentes. Cada estadística se basa en evidencias extraídas a nivel de artículo y almacenadas junto con sus enlaces correspondientes.

Recuperación de contenido y frecuencia de recopilación

El contenido completo de los enlaces detectados se obtiene mediante:

Método principal: NewsPlease.
Método alternativo: descarga directa del HTML con una sesión de solicitudes reforzada y extracción mediante trafilatura.

Para minimizar errores temporales, se utilizan tiempos de espera, reintentos, configuraciones alternativas de TLS y encabezados HTTP Referer.

Cuando están disponibles, la fecha de publicación y el título se obtienen directamente del extractor. La información se analiza y se normaliza a un formato de solo fecha.

Las recopilaciones diarias consultan el contenido publicado durante el último día.

Extracción de características

Los campos extraídos incluyen:

Medio de comunicación (a partir de la URL).
Primer párrafo (las primeras 3 a 5 frases).
Características basadas en palabras clave: número total de apariciones en el texto, presencia en el título, frases que contienen la palabra clave principal y presencia de cualquier palabra clave incluida en la lista mantenida.
Número de palabras.

Evaluación de relevancia mediante LLM

Cada artículo es evaluado por un LLM con una configuración determinista (temperatura = 0) y un prompt restringido que exige respuestas explícitas y estructuradas:

1. Si el artículo está relacionado con un ciberincidente

2. En caso afirmativo, se asigna un tipo de evento de alto nivel:

Incidente: ya se ha producido un ciberataque o una brecha de seguridad confirmados (por ejemplo, despliegue de ransomware, exfiltración de datos, ataques DDoS o compromiso de sistemas).
Vulnerabilidad: descubrimiento o divulgación de una vulnerabilidad de seguridad en software, hardware o sistemas que podría ser explotada (riesgo potencial, no explotación confirmada).
Inteligencia sobre amenazas: información sobre actores maliciosos, herramientas, tácticas, técnicas y procedimientos (TTP) y campañas. Este enfoque se centra en el «quién» y el «cómo», más que en una víctima concreta.
Regulación y ámbito legal: leyes, normativas, acciones regulatorias, decisiones judiciales o cambios relevantes en políticas que afectan a las obligaciones en materia de ciberseguridad.

Tipo de artículo y categorización

Los artículos relevantes se clasifican mediante prompts basados en una taxonomía estructurada que tiene en cuenta criterios principales, como el estado del ataque, el tipo de evento y la categoría regulatoria o legal, así como criterios secundarios, entre ellos las métricas y el nivel de impacto, los detalles técnicos, los sectores afectados, la ubicación geográfica, el tamaño y los daños aproximados.

Agrupación de eventos (agregación de artículos en eventos)

Objetivo: agrupar artículos que describen un mismo incidente subyacente en un único «evento».

Método:

Se recuperan eventos existentes de la base de datos para proporcionar contexto, incluyendo títulos, organizaciones afectadas conocidas, actores maliciosos y enlaces.
Para cada artículo candidato (cuando el tipo de artículo = incidente individual), el LLM compara los detalles del artículo con grupos de eventos existentes y realiza una de las siguientes acciones:

1. Asigna un ID de evento existente cuando existe una coincidencia de alta confianza.

2. Crea un nuevo evento.

Los prompts priorizan una alta precisión: un artículo solo se vincula a un evento existente cuando el nivel de confianza es elevado. Las organizaciones afectadas y los indicadores relacionados con actores maliciosos se consideran señales especialmente relevantes.

Los eventos mantienen campos agregados como las fechas de primera y última detección, el número de artículos asociados, las organizaciones afectadas, los actores maliciosos identificados, así como los títulos y enlaces relacionados.

Precisión y control de calidad

Determinismo y restricciones:

La temperatura del LLM se establece en 0 para maximizar el determinismo y reducir las alucinaciones.
Los prompts restringidos exigen campos explícitos y respuestas en formato JSON, mientras que el análisis aplica validaciones basadas en esquemas definidos.
Los artículos sin contenido suficiente, como aquellos sin título o texto, se descartan en una fase temprana.

Métricas generadas y validadas mediante LLM:

Todos los campos métricos se generan mediante ejecuciones deterministas del LLM (temperatura = 0), siguiendo directrices estrictas y esquemas JSON documentados. Solo se contabilizan los resultados que cumplen con el esquema establecido y se realizan controles de calidad periódicos por parte de personas para calibrar el sistema y evitar desviaciones.

Clasificación de eventos y artículos para el filtrado de precisión:

La clasificación por tipo de evento y enfoque del artículo actúa como un filtro estricto de relevancia, eliminando contenido fuera de tema, con poco valor informativo o basado en recopilaciones generales. Este enfoque centrado en incidentes individuales reduce el ruido y mejora de forma significativa la precisión y la exactitud del conjunto de datos.

Validación a partir de múltiples fuentes:

La agrupación de eventos utiliza como referencia el contexto de eventos previamente almacenados, lo que reduce la probabilidad de realizar asociaciones incorrectas en caso de discrepancias.
Las agregaciones incluyen la lista de enlaces de las fuentes asociadas a cada evento para facilitar su verificación manual.

Supervisión humana:

Los casos de alto impacto o especialmente ambiguos pueden marcarse para su revisión editorial y verificación de datos.
Revisiones periódicas de control de calidad: cada mes se audita una muestra de artículos y eventos para evaluar la precisión del sistema. Si se detectan desviaciones, se ajustan los prompts, los modelos o las palabras clave utilizadas.

Trazabilidad:

Todas las estadísticas pueden rastrearse hasta los artículos y enlaces almacenados en la base de datos, lo que garantiza su auditabilidad.

Limitaciones

Límites de cobertura:

La información recopilada basada en Google Custom Search (GCS) depende de las palabras clave utilizadas y de la configuración de los motores de búsqueda personalizados (CSE), por lo que no todos los incidentes llegan a recopilarse, especialmente aquellos publicados en idiomas fuera de los configurados o en contenidos de pago.
Algunos sitios web bloquean la recopilación automatizada de contenido, por lo que ciertos artículos pueden estar incompletos o faltar.

Riesgos asociados al uso de LLM:

A pesar de utilizar configuraciones deterministas y prompts estructurados, pueden producirse errores de clasificación, especialmente en textos ambiguos o con poca información.
En algunos casos límite, la agrupación de eventos puede dividir un mismo incidente en varios eventos distintos o fusionar incidentes similares que en realidad son diferentes.

¿Cómo se calculan las estadísticas?

Los campos a nivel de artículo se obtienen mediante extracción directa y a partir de los resultados generados por el LLM, que se almacenan en cada registro.

Las métricas a nivel de evento agregan la información de los artículos asociados mediante el identificador event_id, incluyendo:

número de artículos y fechas de primera y última detección,
organizaciones afectadas y actores maliciosos sin duplicados,
títulos representativos y listas de enlaces canónicos.

Las estadísticas de los informes se generan a partir de estas tablas almacenadas y cada cifra puede rastrearse hasta los registros de eventos y los artículos originales asociados.

Alcance de los datos

Las estadísticas y conclusiones utilizadas en nuestros contenidos sobre ciberseguridad se basan en una combinación de:

Informes públicos sobre incidentes de ciberseguridad.
Cobertura mediática de ciberincidentes confirmados.
Informes y estudios del sector.
Divulgaciones realizadas por organismos gubernamentales y reguladores.

Los datos reflejan actividades observables y reportadas públicamente, no el conjunto total de todos los ciberincidentes que se producen a nivel global. Muchos incidentes nunca se divulgan, notifican ni llegan a aparecer en los medios de comunicación.

Fuentes de datos y detección

Tipos de fuentes

Los artículos e informes relacionados con la ciberseguridad se recopilan a partir de distintas categorías de fuentes, entre ellas:

Medios de comunicación generalistas y tecnológicos.
Algunos ejemplos son las principales agencias de noticias internacionales y las publicaciones tecnológicas.
Fuentes expertas y de referencia en ciberseguridad.
Entre ellas se encuentran organismos gubernamentales, organizaciones de investigación en ciberseguridad y publicaciones consolidadas del sector.
Medios de comunicación regionales y locales.
Cubren incidentes de ciberseguridad en Norteamérica, Europa, Asia-Pacífico y otras regiones.
Informes del sector y estudios de investigación.
Incluyen informes anuales sobre brechas de seguridad, análisis del panorama de amenazas, encuestas y estudios económicos.

Cada fuente se atribuye a nivel de artículo o informe, conservando la fecha de publicación, el medio y la URL original.

Proceso de detección

La detección de contenido se realiza mediante búsquedas automatizadas basadas en una lista de palabras clave relacionadas con la ciberseguridad, mantenida y actualizada de forma continua. Estas palabras clave se agrupan por temáticas, como filtraciones de datos, ransomware, phishing, vulnerabilidades o regulación.

Las búsquedas se ejecutan diariamente para identificar contenido recién publicado. Cada ejecución consulta únicamente material reciente, lo que garantiza que el conjunto de datos refleje la actualidad informativa.

Recopilación y procesamiento del contenido

Recuperación de artículos

Una vez detectada una fuente, el texto completo del artículo se recupera mediante herramientas automatizadas de extracción. Cuando el método principal de extracción falla, se utilizan métodos alternativos para garantizar una cobertura sólida y consistente.

Eliminación de duplicados

Para evitar contabilizar contenido duplicado:

Las URL idénticas se procesan una sola vez.
El contenido republicado o distribuido en varios medios se elimina a nivel de artículo.
La agregación a nivel de evento (descrita más adelante) reduce aún más la duplicación entre distintos medios.

Filtrado de relevancia y clasificación

Evaluación de relevancia en ciberseguridad

Cada artículo se evalúa para determinar si resulta relevante para las estadísticas de ciberseguridad. Los artículos deben describir o analizar de forma significativa un incidente, amenaza, vulnerabilidad o acción regulatoria relacionada con la ciberseguridad.

Clasificación del tipo de evento

Los artículos relevantes se clasifican en categorías generales, entre ellas:

Incidente: ciberataque o brecha de seguridad confirmado que ya se ha producido.
Vulnerabilidad: divulgación de una debilidad de seguridad que podría ser explotada.
Inteligencia sobre amenazas: información relacionada con actores maliciosos, herramientas, campañas o técnicas utilizadas.
Regulación y ámbito legal: leyes, acciones regulatorias, cambios normativos o procedimientos judiciales relacionados con la ciberseguridad.

Esta clasificación garantiza que las estadísticas relacionadas con «incidentes», «brechas» o «ataques» no se mezclen con divulgaciones de vulnerabilidades ni con comentarios generales.

Agrupación de eventos (agregación de artículos en eventos)

Con frecuencia, varios artículos informan sobre un mismo ciberincidente subyacente. Para evitar duplicidades en el recuento:

Los artículos que describen el mismo incidente se agrupan en un único evento.
A cada evento se le asigna un identificador interno estable.
Los artículos solo se vinculan a eventos existentes cuando existe un alto nivel de confianza en que describen el mismo incidente.

Entre los indicadores utilizados para realizar esta agrupación se incluyen las organizaciones afectadas, los actores maliciosos, las cronologías y las descripciones del incidente.

Los registros a nivel de evento mantienen información como:

Fechas de primera y última aparición.
Número de artículos relacionados.
Organizaciones afectadas.
Actores maliciosos mencionados.
Enlaces a las fuentes para su verificación.

Uso de análisis automatizado y controles de calidad

Clasificación automatizada

Para las tareas de clasificación, extracción y agregación se utiliza un análisis automatizado basado en modelos de lenguaje estructurados y deterministas. Todos los resultados generados automáticamente siguen esquemas predefinidos para garantizar la coherencia y consistencia de los datos.

Los modelos funcionan con configuraciones deterministas para reducir la variabilidad y minimizar el riesgo de alucinaciones.

Control de calidad

Para garantizar la precisión de los datos:

La validación mediante esquemas asegura que solo se contabilicen resultados correctamente estructurados.
Se realizan procedimientos mensuales de muestreo y revisión, incluyendo revisiones de precisión, para detectar posibles desviaciones en la clasificación. Estas revisiones permiten identificar cambios en los criterios de clasificación y ajustar el modelo cuando es necesario.
Los casos ambiguos o de alto impacto se marcan para su revisión humana.
Las estadísticas agregadas mantienen la trazabilidad hasta los artículos y eventos individuales.

¿Cómo se calculan las estadísticas?

Métricas a nivel de artículo frente a nivel de evento

Algunas estadísticas se basan en:

Recuentos a nivel de artículo (por ejemplo, el volumen de cobertura mediática).
Recuentos a nivel de evento (por ejemplo, el número de brechas de seguridad o incidentes distintos).

Siempre que es posible, se priorizan las métricas a nivel de evento para reducir duplicidades.

Interpretación de recuentos y frecuencias

Las estadísticas como «incidentes por día» o «brechas por año» reflejan la actividad reportada o visible en los medios, no la totalidad de la actividad global.

Las herramientas de telemetría de proveedores, los sistemas gubernamentales de notificación y las proyecciones económicas suelen mostrar volúmenes considerablemente más altos debido a diferencias en el alcance y la metodología utilizados. Estas diferencias se indican cuando resulta relevante.

Limitaciones y consideraciones

Aunque se aplican medidas para garantizar la precisión y la coherencia de los datos, existen ciertas limitaciones inherentes:

No todos los incidentes se divulgan o notifican públicamente.
La cobertura mediática varía según la región, el sector y la magnitud del incidente.
Algunas fuentes restringen el acceso a sus contenidos.
En determinados casos límite pueden producirse errores de clasificación.
Las estimaciones de pérdidas económicas pueden cambiar a medida que avanzan las investigaciones.

Por ello, estas estadísticas deben interpretarse como indicadores orientativos y no como mediciones exhaustivas.

Índice de fuentes

Cada una de las fuentes numeradas que aparecen a continuación corresponde a una referencia en superíndice utilizada en la página de Estadísticas de ciberseguridad. Los superíndices enlazan directamente con la entrada correspondiente de esta página.

Fuente ¹ Statista – Cybercrime worldwide Link⁠‌
Fuente ² Identity Theft Resource Center (ITRC) – Weekly Breach Breakdown Q3 2025 Link⁠‌
Fuente ³ Identity Theft Resource Center (ITRC) – H1 2025 Data Breach Analysis Link⁠‌
Fuente ⁴ Verizon – Data Breach Investigations Report (DBIR) 2025 Link⁠‌
Fuente ⁵ IBM – Cost of a Data Breach Report 2025 Link⁠‌
Fuente ⁶ South Korean Ministry of Science and ICT – SK Telecom data exfiltration incident Link⁠‌
Fuente ⁷ Aflac – June 2025 security incident regulatory filing Link⁠‌
Fuente ⁸ HIPAA Journal – Largest healthcare data breaches of 2025 Link⁠‌
Fuente ⁹ California Attorney General – Aflac breach report (SB24-616010) Link⁠‌
Fuente ¹⁰ Iowa Attorney General – Aflac data breach notification Link⁠‌
Fuente ¹¹ Rhode Island Attorney General – Data‑breach notifications Link⁠‌
Fuente ¹² Rhode Island AG – Data‑breach notification Link⁠‌
Fuente ¹³ Aflac Newsroom – June 2025 security incident update Link⁠‌
Fuente ¹⁴ HIPAA Journal – Aflac data breach article Link⁠‌
Fuente ¹⁵ Office of the Australian Information Commissioner – Statement on Qantas cyber incident Link⁠‌
Fuente ¹⁶ Qantas – Information for customers on cyber incident Link⁠‌
Fuente ¹⁷ Qantas Newsroom – Update on Qantas cyber incident (9 July 2025) Link⁠‌
Fuente ¹⁸ Michigan Attorney General – Consumer alert on data breaches (TransUnion) Link⁠‌
Fuente ¹⁹ Maine Attorney General – Allianz Life cyber incident notice Link⁠‌
Fuente ²⁰ California Attorney General – Allianz data breach report (SB24-612078) Link⁠‌
Fuente ²¹ University of Maryland – Cyber Security Statistics Link⁠‌
Fuente ²² Microsoft Digital Defense Report 2023 Link⁠‌
Fuente ²³ WIRED – NotPetya cyberattack article Link⁠‌
Fuente ²⁴ Reuters – UnitedHealth tech unit hack article Link⁠‌
Fuente ²⁵ The Guardian – Jaguar Land Rover hack article Link⁠‌
Fuente ²⁶ NBC News – MGM Resorts cyberattack cost article Link⁠‌
Fuente ²⁷ Delaware Department of Technology & Information – eSecurityNews (Oct 2023) Link⁠‌
Fuente ²⁸ Cybersecurity Ventures – Global ransomware damage cost projection Link⁠‌
Fuente ²⁹ JumpCloud – Phishing attack statistics Link⁠‌
Fuente ³⁰ Hornetsecurity – Email threats in 2024 Link⁠‌
Fuente ³¹ Spearshield – Click‑to‑credential phishing study Link⁠‌
Fuente ³² APWG – Phishing Activity Trends Reports Link⁠‌
Fuente ³³ arXiv – Academic password/credential research (2025) Link⁠‌
Fuente ³⁴ DeepStrike – Password statistics 2025 Link⁠‌
Fuente ³⁵ NordPass – Top 200 Most Common Passwords Link⁠‌
Fuente ³⁶ Financial Times – Supply‑chain cybersecurity article Link⁠‌
Fuente ³⁷ SecurityScorecard – 2025 Supply Chain Cybersecurity Trends Link⁠‌
Fuente ³⁸ National Technology & Security Coalition – 2025 Software Supply Chain Security Report Link⁠‌
Fuente ³⁹ Palo Alto Networks – State of Cloud Native Security Link⁠‌
Fuente ⁴⁰ IBM – Threat Intelligence Report Link⁠‌
Fuente ⁴¹ Tenable – Cloud Security Risk Report 2025 Link⁠‌
Fuente ⁴² Cybersecurity Ventures – Cybersecurity Cost Report Link⁠‌
Fuente ⁴³ Statista Market Insights – Estimated cost of cybercrime worldwide 2018‑2029 (ResearchGate) Link⁠‌
Fuente ⁴⁴ Statista – Cost of cybercrime worldwide forecast Link⁠‌
Fuente ⁴⁵ FTC – Consumer Sentinel Network Data Book 2024 Link⁠‌
Fuente ⁴⁶ FBI IC3 – 2024 Internet Crime Report Link⁠‌
Fuente ⁴⁷ Kroll – Data Breach Outlook 2025 Link⁠‌
Fuente ⁴⁸ IBM – Cost of a Data Breach 2024: Financial Industry Link⁠‌
Fuente ⁴⁹ SailPoint – 2024 State of Identity Security in Financial Services Link⁠‌
Fuente ⁵⁰ DeepStrike – Healthcare data breach statistics 2025 Link⁠‌
Fuente ⁵¹ Proofpoint & Ponemon – Healthcare Cybersecurity Report Link⁠‌
Fuente ⁵² Check Point – Cyber Security Report 2025 Link⁠‌
Fuente ⁵³ Thales – 2024 Data Threat Report: Critical Infrastructure Edition Link⁠‌
Fuente ⁵⁴ Cyfirma – Energy & Utilities industry report Link⁠‌
Fuente ⁵⁵ World Economic Forum – Global Cybersecurity Outlook 2025 Link⁠‌
Fuente ⁵⁶ DeepStrike – Cyber attacks on small businesses Link⁠‌
Fuente ⁵⁷ Devolutions – State of IT Security Report 2025 Link⁠‌
Fuente ⁵⁸ TotalAssure – Small business cybersecurity statistics 2025 Link⁠‌
Fuente ⁵⁹ Cisco – Cybersecurity Readiness Index 2025 Link⁠‌
Fuente ⁶⁰ IANS Research – Security budgets press release (2024) Link⁠‌
Fuente ⁶¹ Munich Re – Cyber insurance risks and trends 2025 Link⁠‌
Fuente ⁶² Gartner – 2025 information security spending forecast Link⁠‌
Fuente ⁶³ Forrester – 2024 Cybersecurity Benchmarks (Global) Link⁠‌
Fuente ⁶⁴ Ivanti – State of Cybersecurity Report Link⁠‌
Fuente ⁶⁵ U.S. Department of Homeland Security – FY 2025 Budget in Brief Link⁠‌
Fuente ⁶⁶ U.S. Department of Defense – CYBERCOM Budget Justification Link⁠‌
Fuente ⁶⁷ Google Cloud – Cybersecurity forecast Link⁠‌
Fuente ⁶⁸ Gartner – Generative AI attack survey (Sep 22 2025) Link⁠‌
Fuente ⁶⁹ Splashtop – Top cybersecurity trends and predictions for 2026 Link⁠‌
Fuente ⁷⁰ ENISA – Threat Landscape 2024 Link⁠‌

Estadísticas de ciberseguridad: metodología y fuentes

Objetivo de esta página

Alcance de los datos

Fuentes de datos y detección

Tipos de fuentes

Proceso de detección

Recopilación y procesamiento del contenido

Recuperación de artículos

Eliminación de duplicados

Filtrado de relevancia y clasificación

Evaluación de relevancia en ciberseguridad

Clasificación del tipo de evento

Agrupación de eventos (agregación de artículos en eventos)

Uso de análisis automatizado y controles de calidad

Clasificación automatizada

Control de calidad

¿Cómo se calculan las estadísticas?

Métricas a nivel de artículo frente a nivel de evento

Interpretación de recuentos y frecuencias

Limitaciones y consideraciones

Índice de fuentes

Estadísticas de ciberseguridad:
metodología y fuentes