Estadísticas de ciberseguridad:
metodología y fuentes
Objetivo de esta página
En esta página se explica cómo se recopilan, procesan e interpretan las estadísticas de ciberseguridad, además de presentar las fuentes de datos utilizadas. La página principal de Estadísticas de ciberseguridad muestra un resumen de los resultados y de las conclusiones obtenidas a partir de las investigaciones de NordVPN.
Fuentes de datos y atribución
Las fuentes se identifican mediante la API de Google Custom Search (GCS), utilizando varios motores de búsqueda personalizados (CSE) configurados para:
Medios de comunicación: 44 medios generalistas y tecnológicos de referencia (como la BBC, CNN, el New York Times, el Wall Street Journal, el Financial Times, Reuters, Bloomberg, TechCrunch, Wired, Ars Technica, Time y Forbes).
Sitios web especializados y fuentes de referencia: 25 fuentes del sector y expertos en ciberseguridad (como CISA, KrebsOnSecurity, The Hacker News, Dark Reading, BleepingComputer, SecurityWeek e Infosecurity Magazine).
Noticias locales: más de 100 medios regionales y nacionales de APAC, EMEA y América (como Channel NewsAsia, CSA.gov.sg, Zaobao, HK01, unwire.hk, Japan Times, NISC, JPCERT e ITMedia).
Fuentes generales o sin restricciones.
Las búsquedas se realizan a partir de palabras clave definidas en una lista mantenida y organizada por categorías.
Todos los registros incluyen una atribución explícita con la siguiente información:
Enlace al artículo original.
Medio de comunicación (dominio extraído de la URL).
Fecha de publicación y fecha de recopilación.
Las estadísticas y agregaciones de eventos se elaboran a partir de información sintetizada de múltiples fuentes. Cada estadística se basa en evidencias extraídas a nivel de artículo y almacenadas junto con sus enlaces correspondientes.
Recuperación de contenido y frecuencia de recopilación
El contenido completo de los enlaces detectados se obtiene mediante:
Método principal: NewsPlease.
Método alternativo: descarga directa del HTML con una sesión de solicitudes reforzada y extracción mediante trafilatura.
Para minimizar errores temporales, se utilizan tiempos de espera, reintentos, configuraciones alternativas de TLS y encabezados HTTP Referer.
Cuando están disponibles, la fecha de publicación y el título se obtienen directamente del extractor. La información se analiza y se normaliza a un formato de solo fecha.
Las recopilaciones diarias consultan el contenido publicado durante el último día.
Extracción de características
Los campos extraídos incluyen:
Medio de comunicación (a partir de la URL).
Primer párrafo (las primeras 3 a 5 frases).
Características basadas en palabras clave: número total de apariciones en el texto, presencia en el título, frases que contienen la palabra clave principal y presencia de cualquier palabra clave incluida en la lista mantenida.
Número de palabras.
Evaluación de relevancia mediante LLM
Cada artículo es evaluado por un LLM con una configuración determinista (temperatura = 0) y un prompt restringido que exige respuestas explícitas y estructuradas:
1. Si el artículo está relacionado con un ciberincidente
2. En caso afirmativo, se asigna un tipo de evento de alto nivel:
Incidente: ya se ha producido un ciberataque o una brecha de seguridad confirmados (por ejemplo, despliegue de ransomware, exfiltración de datos, ataques DDoS o compromiso de sistemas).
Vulnerabilidad: descubrimiento o divulgación de una vulnerabilidad de seguridad en software, hardware o sistemas que podría ser explotada (riesgo potencial, no explotación confirmada).
Inteligencia sobre amenazas: información sobre actores maliciosos, herramientas, tácticas, técnicas y procedimientos (TTP) y campañas. Este enfoque se centra en el «quién» y el «cómo», más que en una víctima concreta.
Regulación y ámbito legal: leyes, normativas, acciones regulatorias, decisiones judiciales o cambios relevantes en políticas que afectan a las obligaciones en materia de ciberseguridad.
Tipo de artículo y categorización
Los artículos relevantes se clasifican mediante prompts basados en una taxonomía estructurada que tiene en cuenta criterios principales, como el estado del ataque, el tipo de evento y la categoría regulatoria o legal, así como criterios secundarios, entre ellos las métricas y el nivel de impacto, los detalles técnicos, los sectores afectados, la ubicación geográfica, el tamaño y los daños aproximados.
Agrupación de eventos (agregación de artículos en eventos)
Objetivo: agrupar artículos que describen un mismo incidente subyacente en un único «evento».
Método:
Se recuperan eventos existentes de la base de datos para proporcionar contexto, incluyendo títulos, organizaciones afectadas conocidas, actores maliciosos y enlaces.
Para cada artículo candidato (cuando el tipo de artículo = incidente individual), el LLM compara los detalles del artículo con grupos de eventos existentes y realiza una de las siguientes acciones:
1. Asigna un ID de evento existente cuando existe una coincidencia de alta confianza.
2. Crea un nuevo evento.
Los prompts priorizan una alta precisión: un artículo solo se vincula a un evento existente cuando el nivel de confianza es elevado. Las organizaciones afectadas y los indicadores relacionados con actores maliciosos se consideran señales especialmente relevantes.
Los eventos mantienen campos agregados como las fechas de primera y última detección, el número de artículos asociados, las organizaciones afectadas, los actores maliciosos identificados, así como los títulos y enlaces relacionados.
Precisión y control de calidad
Determinismo y restricciones:
La temperatura del LLM se establece en 0 para maximizar el determinismo y reducir las alucinaciones.
Los prompts restringidos exigen campos explícitos y respuestas en formato JSON, mientras que el análisis aplica validaciones basadas en esquemas definidos.
Los artículos sin contenido suficiente, como aquellos sin título o texto, se descartan en una fase temprana.
Métricas generadas y validadas mediante LLM:
Todos los campos métricos se generan mediante ejecuciones deterministas del LLM (temperatura = 0), siguiendo directrices estrictas y esquemas JSON documentados. Solo se contabilizan los resultados que cumplen con el esquema establecido y se realizan controles de calidad periódicos por parte de personas para calibrar el sistema y evitar desviaciones.
Clasificación de eventos y artículos para el filtrado de precisión:
La clasificación por tipo de evento y enfoque del artículo actúa como un filtro estricto de relevancia, eliminando contenido fuera de tema, con poco valor informativo o basado en recopilaciones generales. Este enfoque centrado en incidentes individuales reduce el ruido y mejora de forma significativa la precisión y la exactitud del conjunto de datos.
Validación a partir de múltiples fuentes:
La agrupación de eventos utiliza como referencia el contexto de eventos previamente almacenados, lo que reduce la probabilidad de realizar asociaciones incorrectas en caso de discrepancias.
Las agregaciones incluyen la lista de enlaces de las fuentes asociadas a cada evento para facilitar su verificación manual.
Supervisión humana:
Los casos de alto impacto o especialmente ambiguos pueden marcarse para su revisión editorial y verificación de datos.
Revisiones periódicas de control de calidad: cada mes se audita una muestra de artículos y eventos para evaluar la precisión del sistema. Si se detectan desviaciones, se ajustan los prompts, los modelos o las palabras clave utilizadas.
Trazabilidad:
Todas las estadísticas pueden rastrearse hasta los artículos y enlaces almacenados en la base de datos, lo que garantiza su auditabilidad.
Limitaciones
Límites de cobertura:
La información recopilada basada en Google Custom Search (GCS) depende de las palabras clave utilizadas y de la configuración de los motores de búsqueda personalizados (CSE), por lo que no todos los incidentes llegan a recopilarse, especialmente aquellos publicados en idiomas fuera de los configurados o en contenidos de pago.
Algunos sitios web bloquean la recopilación automatizada de contenido, por lo que ciertos artículos pueden estar incompletos o faltar.
Riesgos asociados al uso de LLM:
A pesar de utilizar configuraciones deterministas y prompts estructurados, pueden producirse errores de clasificación, especialmente en textos ambiguos o con poca información.
En algunos casos límite, la agrupación de eventos puede dividir un mismo incidente en varios eventos distintos o fusionar incidentes similares que en realidad son diferentes.
¿Cómo se calculan las estadísticas?
Los campos a nivel de artículo se obtienen mediante extracción directa y a partir de los resultados generados por el LLM, que se almacenan en cada registro.
Las métricas a nivel de evento agregan la información de los artículos asociados mediante el identificador event_id, incluyendo:
número de artículos y fechas de primera y última detección,
organizaciones afectadas y actores maliciosos sin duplicados,
títulos representativos y listas de enlaces canónicos.
Las estadísticas de los informes se generan a partir de estas tablas almacenadas y cada cifra puede rastrearse hasta los registros de eventos y los artículos originales asociados.
Alcance de los datos
Las estadísticas y conclusiones utilizadas en nuestros contenidos sobre ciberseguridad se basan en una combinación de:
Informes públicos sobre incidentes de ciberseguridad.
Cobertura mediática de ciberincidentes confirmados.
Informes y estudios del sector.
Divulgaciones realizadas por organismos gubernamentales y reguladores.
Los datos reflejan actividades observables y reportadas públicamente, no el conjunto total de todos los ciberincidentes que se producen a nivel global. Muchos incidentes nunca se divulgan, notifican ni llegan a aparecer en los medios de comunicación.
Fuentes de datos y detección
Tipos de fuentes
Los artículos e informes relacionados con la ciberseguridad se recopilan a partir de distintas categorías de fuentes, entre ellas:
Medios de comunicación generalistas y tecnológicos.
Algunos ejemplos son las principales agencias de noticias internacionales y las publicaciones tecnológicas.Fuentes expertas y de referencia en ciberseguridad.
Entre ellas se encuentran organismos gubernamentales, organizaciones de investigación en ciberseguridad y publicaciones consolidadas del sector.Medios de comunicación regionales y locales.
Cubren incidentes de ciberseguridad en Norteamérica, Europa, Asia-Pacífico y otras regiones.Informes del sector y estudios de investigación.
Incluyen informes anuales sobre brechas de seguridad, análisis del panorama de amenazas, encuestas y estudios económicos.
Cada fuente se atribuye a nivel de artículo o informe, conservando la fecha de publicación, el medio y la URL original.
Proceso de detección
La detección de contenido se realiza mediante búsquedas automatizadas basadas en una lista de palabras clave relacionadas con la ciberseguridad, mantenida y actualizada de forma continua. Estas palabras clave se agrupan por temáticas, como filtraciones de datos, ransomware, phishing, vulnerabilidades o regulación.
Las búsquedas se ejecutan diariamente para identificar contenido recién publicado. Cada ejecución consulta únicamente material reciente, lo que garantiza que el conjunto de datos refleje la actualidad informativa.
Recopilación y procesamiento del contenido
Recuperación de artículos
Una vez detectada una fuente, el texto completo del artículo se recupera mediante herramientas automatizadas de extracción. Cuando el método principal de extracción falla, se utilizan métodos alternativos para garantizar una cobertura sólida y consistente.
Eliminación de duplicados
Para evitar contabilizar contenido duplicado:
Las URL idénticas se procesan una sola vez.
El contenido republicado o distribuido en varios medios se elimina a nivel de artículo.
La agregación a nivel de evento (descrita más adelante) reduce aún más la duplicación entre distintos medios.
Filtrado de relevancia y clasificación
Evaluación de relevancia en ciberseguridad
Cada artículo se evalúa para determinar si resulta relevante para las estadísticas de ciberseguridad. Los artículos deben describir o analizar de forma significativa un incidente, amenaza, vulnerabilidad o acción regulatoria relacionada con la ciberseguridad.
Clasificación del tipo de evento
Los artículos relevantes se clasifican en categorías generales, entre ellas:
Incidente: ciberataque o brecha de seguridad confirmado que ya se ha producido.
Vulnerabilidad: divulgación de una debilidad de seguridad que podría ser explotada.
Inteligencia sobre amenazas: información relacionada con actores maliciosos, herramientas, campañas o técnicas utilizadas.
Regulación y ámbito legal: leyes, acciones regulatorias, cambios normativos o procedimientos judiciales relacionados con la ciberseguridad.
Esta clasificación garantiza que las estadísticas relacionadas con «incidentes», «brechas» o «ataques» no se mezclen con divulgaciones de vulnerabilidades ni con comentarios generales.
Agrupación de eventos (agregación de artículos en eventos)
Con frecuencia, varios artículos informan sobre un mismo ciberincidente subyacente. Para evitar duplicidades en el recuento:
Los artículos que describen el mismo incidente se agrupan en un único evento.
A cada evento se le asigna un identificador interno estable.
Los artículos solo se vinculan a eventos existentes cuando existe un alto nivel de confianza en que describen el mismo incidente.
Entre los indicadores utilizados para realizar esta agrupación se incluyen las organizaciones afectadas, los actores maliciosos, las cronologías y las descripciones del incidente.
Los registros a nivel de evento mantienen información como:
Fechas de primera y última aparición.
Número de artículos relacionados.
Organizaciones afectadas.
Actores maliciosos mencionados.
Enlaces a las fuentes para su verificación.
Uso de análisis automatizado y controles de calidad
Clasificación automatizada
Para las tareas de clasificación, extracción y agregación se utiliza un análisis automatizado basado en modelos de lenguaje estructurados y deterministas. Todos los resultados generados automáticamente siguen esquemas predefinidos para garantizar la coherencia y consistencia de los datos.
Los modelos funcionan con configuraciones deterministas para reducir la variabilidad y minimizar el riesgo de alucinaciones.
Control de calidad
Para garantizar la precisión de los datos:
La validación mediante esquemas asegura que solo se contabilicen resultados correctamente estructurados.
Se realizan procedimientos mensuales de muestreo y revisión, incluyendo revisiones de precisión, para detectar posibles desviaciones en la clasificación. Estas revisiones permiten identificar cambios en los criterios de clasificación y ajustar el modelo cuando es necesario.
Los casos ambiguos o de alto impacto se marcan para su revisión humana.
Las estadísticas agregadas mantienen la trazabilidad hasta los artículos y eventos individuales.
¿Cómo se calculan las estadísticas?
Métricas a nivel de artículo frente a nivel de evento
Algunas estadísticas se basan en:
Recuentos a nivel de artículo (por ejemplo, el volumen de cobertura mediática).
Recuentos a nivel de evento (por ejemplo, el número de brechas de seguridad o incidentes distintos).
Siempre que es posible, se priorizan las métricas a nivel de evento para reducir duplicidades.
Interpretación de recuentos y frecuencias
Las estadísticas como «incidentes por día» o «brechas por año» reflejan la actividad reportada o visible en los medios, no la totalidad de la actividad global.
Las herramientas de telemetría de proveedores, los sistemas gubernamentales de notificación y las proyecciones económicas suelen mostrar volúmenes considerablemente más altos debido a diferencias en el alcance y la metodología utilizados. Estas diferencias se indican cuando resulta relevante.
Limitaciones y consideraciones
Aunque se aplican medidas para garantizar la precisión y la coherencia de los datos, existen ciertas limitaciones inherentes:
No todos los incidentes se divulgan o notifican públicamente.
La cobertura mediática varía según la región, el sector y la magnitud del incidente.
Algunas fuentes restringen el acceso a sus contenidos.
En determinados casos límite pueden producirse errores de clasificación.
Las estimaciones de pérdidas económicas pueden cambiar a medida que avanzan las investigaciones.
Por ello, estas estadísticas deben interpretarse como indicadores orientativos y no como mediciones exhaustivas.
Índice de fuentes
Cada una de las fuentes numeradas que aparecen a continuación corresponde a una referencia en superíndice utilizada en la página de Estadísticas de ciberseguridad. Los superíndices enlazan directamente con la entrada correspondiente de esta página.
Fuente 1 Statista – |
|---|
Fuente 2 Identity Theft |
Fuente 3 Identity Theft |
Fuente 4 Verizon – |
Fuente 5 IBM – |
Fuente 6 South Korean |
Fuente 7 Aflac – June |
Fuente 8 HIPAA Journal – |
Fuente 9 California Attorney |
Fuente 10 Iowa Attorney |
Fuente 11 Rhode Island |
Fuente 12 Rhode Island |
Fuente 13 Aflac Newsroom – |
Fuente 14 HIPAA Journal – |
Fuente 15 Office of the |
Fuente 16 Qantas – Information |
Fuente 17 Qantas Newsroom – |
Fuente 18 Michigan Attorney |
Fuente 19 Maine Attorney |
Fuente 20 California Attorney |
Fuente 21 University of |
Fuente 22 Microsoft Digital |
Fuente 23 WIRED – NotPetya |
Fuente 24 Reuters – UnitedHealth |
Fuente 25 The Guardian – Jaguar |
Fuente 26 NBC News – |
Fuente 27 Delaware Department |
Fuente 28 Cybersecurity |
Fuente 29 JumpCloud – Phishing |
Fuente 30 Hornetsecurity – Email |
Fuente 31 Spearshield – |
Fuente 32 APWG – Phishing |
Fuente 33 arXiv – Academic |
Fuente 34 DeepStrike – Password |
Fuente 35 NordPass – Top 200 |
Fuente 36 Financial Times – |
Fuente 37 SecurityScorecard – |
Fuente 38 National Technology & |
Fuente 39 Palo Alto Networks – |
Fuente 40 IBM – Threat |
Fuente 41 Tenable – |
Fuente 42 Cybersecurity |
Fuente 43 Statista Market |
Fuente 44 Statista – Cost of |
Fuente 45 FTC – Consumer |
Fuente 46 FBI IC3 – 2024 Internet |
Fuente 47 Kroll – Data Breach |
Fuente 48 IBM – Cost of a Data |
Fuente 49 SailPoint – 2024 |
Fuente 50 DeepStrike – |
Fuente 51 Proofpoint & |
Fuente 52 Check Point – |
Fuente 53 Thales – 2024 |
Fuente 54 Cyfirma – Energy & |
Fuente 55 World Economic |
Fuente 56 DeepStrike – Cyber |
Fuente 57 Devolutions – State of |
Fuente 58 TotalAssure – |
Fuente 59 Cisco – Cybersecurity |
Fuente 60 IANS Research – |
Fuente 61 Munich Re – |
Fuente 62 Gartner – 2025 |
Fuente 63 Forrester – 2024 |
Fuente 64 Ivanti – State of |
Fuente 65 U.S. Department of |
Fuente 66 U.S. Department of |
Fuente 67 Google Cloud – |
Fuente 68 Gartner – Generative AI |
Fuente 69 Splashtop – Top |
Fuente 70 ENISA – Threat |