Estadísticas de ciberseguridad:
metodología y fuentes

Propósito de esta página

Esta página explica cómo recopilamos, procesamos e interpretamos las estadísticas de ciberseguridad y presenta las fuentes usadas con total transparencia. La página principal de Estadísticas de ciberseguridad presenta hallazgos resumidos y datos obtenidos con la investigación de NordVPN.

Fuentes de datos y distribución

El descubrimiento de fuentes se hace con la API de búsqueda personalizada de Google (GCS), usando múltiples motores de búsqueda personalizados (CSE) configurados para:

Medios: 44 fuentes de medios generales y especializados en tecnología (p.ej. BBC, CNN, The New York Times, WSJ, FT, Reuters, Bloomberg, TechCrunch, Wired, Ars Technica, Time, Forbes).
Páginas autorizadas/de referencia: 25 fuentes de la industria y de expertos (p. ej. CISA, KrebsOnSecurity, The Hacker News, Dark Reading, BleepingComputer, SecurityWeek, Infosecurity Magazine).
Noticias locales: más de 100 medios regionales y nacionales en APAC, EMEA y América (p. ej., Channel NewsAsia, CSA.gov.sg, Zaobao; HK01, unwire.hk; Japan Times, NISC, JPCERT, ITMedia).
Fuentes generales o sin restricciones.

La consultas se basan en palabras clave de una lista mantenida y organizada por categorías.

Todos los registros incluyen una atribución explícita:

Link al artículo original
Medio de comunicación (dominio extraído de la URL)
Fecha de publicación y fecha de recopilación

Las estadísticas y agregaciones de eventos se elaboran a partir de información sintetizada de múltiples fuentes. Cada estadística se basa en evidencias extraídas a nivel de artículo y almacenadas junto con sus links correspondientes.

Frecuencia de recuperación y recopilación de contenido

El contenido completo de los links detectados se obtiene a través de:

Método principal: NewsPlease
Método alternativo: descarga directa del HTML con una sesión de solicitudes reforzada y extracción mediante trafilatura.

Para minimizar errores temporales, se utilizan tiempos de espera, reintentos, configuraciones alternativas de TLS y encabezados de referencia.

Cuando están disponibles, la fecha de publicación y el título se obtienen directamente del extractor. La información se analiza y se normaliza a un formato únicamente con la fecha.

Las recopilaciones diarias consultan el contenido publicado durante el último día.

Extracción de características

Los campos extraídos incluyen:

Medio de comunicación (de la URL)
Primer párrafo (primeras 3 a 5 oraciones)
Características de la palabra clave: recuento total en el texto, presencia en el título, oraciones que contienen la palabra clave principal y presencia de cualquier palabra clave de la lista mantenida
Conteo de palabras

Evaluación de relevancia de LLM

Cada artículo es evaluado por un LLM con una configuración determinista (temperatura 0) y un prompt restringido que exige respuestas explícitas y estructuradas:

1. Si el artículo es relevante para un ciberincidente

2. Si es así, se asigna un tipo de evento de alto nivel:

Incidente: ya se produjo un ciberataque o una brecha de seguridad confirmados (p. ej., despliegue de ransomware, exfiltración de datos, ataques DDoS o compromiso de sistemas).
Vulnerabilidad: descubrimiento o divulgación de una falla de seguridad en software, hardware o sistemas que podría ser explotada (riesgo potencial en lugar de explotación confirmada).
Inteligencia de amenazas: informes sobre actores de amenazas, herramientas, TTP y campañas; se centra en el “quién/cómo”, no en un incidente de una víctima concreta.
Regulatorio y legal: leyes, regulaciones, medidas de cumplimiento, decisiones judiciales o cambios importantes en las políticas que afectan las obligaciones de ciberseguridad.

Tipo de artículo y categorización

Los artículos relevantes se clasifican mediante prompts de taxonomía estructurada (principales: estado del ataque, tipo de evento y aspectos regulatorios o legales; secundarios: métricas o categorías de impacto, detalles técnicos, sectores, ubicación, tamaño y daños aproximados).

Agrupación de eventos (agregación de artículos en eventos)

Objetivo: agrupar los artículos que describen el mismo incidente subyacente en un solo "evento".

Método:

Recuperar eventos existentes de la base de datos para proporcionar contexto (títulos, organizaciones afectadas conocidas, organizaciones cibercriminales/hackers y links).
Para cada artículo candidato (donde el tipo de artículo = incidente único), el modelo de lenguaje (LLM) compara los detalles del artículo con grupos de eventos:

1. Puede asignar un ID de evento existente cuando haya una coincidencia de alta confianza, o

2. De lo contrario, puede crear un nuevo evento.

Los prompts priorizan una alta precisión: un artículo solo se vincula a un evento existente cuando el nivel de confianza es alto. Las organizaciones afectadas y los indicadores relacionados con actores de amenazas se consideran señales relevantes.

Los eventos mantienen campos agregados como fechas de primera y última detección, cantidad de artículos, organizaciones afectadas, agentes de amenazas, títulos y links.

Precisión y garantía de calidad

Determinismo y restricciones:

La temperatura del LLM se establece en 0 para maximizar el determinismo y reducir las alucinaciones.
Los prompts restringidos requieren campos explícitos y resultados en formato JSON, mientras que el análisis valida el cumplimiento del esquema.
Los artículos sin contenido (sin título o texto) se descartan en una fase temprana.

Métricas generadas y validadas mediante LLM:

Todos los campos métricos se generan mediante ejecuciones deterministas de LLM (temperatura 0), siguiendo directrices estrictas y documentadas, así como esquemas JSON. Solo se contabilizan los resultados que cumplen con el esquema, y se realizan controles de calidad humanos periódicos para calibrar el sistema y evitar desviaciones.

Clasificación de eventos/artículos para un filtrado de precisión:

La clasificación por tipo de evento y enfoque del artículo actúa como un filtro estricto de relevancia, excluyendo contenido fuera de tema, de baja relevancia o de tipo recopilatorio. Este enfoque centrado en la cobertura de incidentes individuales reduce el ruido y mejora de forma medible la precisión y exactitud del conjunto de datos.

Validación de múltiples fuentes:

La agrupación de eventos toma como referencia el contexto de eventos previamente almacenados; las discrepancias reducen la probabilidad de fusiones incorrectas.
Las agregaciones incluyen la lista de links de las fuentes de cada evento para permitir su verificación manual.

Intervención humana:

Los casos de alto impacto o especialmente ambiguos pueden marcarse para revisión editorial y verificación de hechos.
Revisiones periódicas de control de calidad: los artículos y eventos seleccionados se auditan mensualmente, incluyendo una revisión de precisión; cualquier desviación detectada da lugar a ajustes en los prompts, el modelo o las palabras clave.

Trazabilidad:

Cada estadística se puede rastrear hasta los artículos y links en la base de datos para fines de auditoría.

Limitaciones

Límites de cobertura:

La información recopilada basada en Google Custom Search (GCS) depende de las palabras clave utilizadas y de la configuración de los motores de búsqueda personalizados (CSE), por lo que no todos los incidentes llegan a recopilarse, especialmente aquellos publicados en idiomas fuera de los configurados o en contenidos de pago.
Algunas páginas web bloquean la recopilación automatizada de contenido, por lo que ciertos artículos pueden estar incompletos o faltar totalmente.

Riesgos asociados a un LLM:

A pesar de las configuraciones deterministas y los prompts estructurados, pueden producirse errores de clasificación, especialmente en textos con poca información o ambiguos.
La agrupación de eventos puede dividir el mismo incidente en múltiples eventos o fusionar incidentes similares pero distintos en casos extremos.

¿Cómo se calculan las estadísticas?

Los campos a nivel de artículo se derivan de la extracción directa y de los resultados del LLM (almacenados por registro).

Las métricas a nivel de evento agregan la información de los artículos asociados usando el identificador event_id, incluyendo:

recuentos de artículos, fechas de primera/última visualización
organizaciones afectadas desduplicadas y actores de amenazas
títulos representativos y listas de enlaces canónicos

Las estadísticas de los informes se extraen de estas tablas almacenadas; cada cifra puede rastrearse hasta las filas de eventos y los registros de artículos subyacentes.

Alcance de los datos

Las estadísticas y conclusiones mencionadas en nuestro contenido de ciberseguridad se derivan de una combinación de:

Informes públicos sobre incidentes de ciberseguridad
Cobertura mediática de ciberincidentes confirmados
Informes y estudios de la industria
Divulgaciones gubernamentales y regulatorias

Los datos reflejan actividad observable y reportada públicamente, no el universo completo de todos los incidentes cibernéticos que ocurren a nivel global. Muchos incidentes cibernéticos nunca se divulgan, reportan o se cubren en los medios de comunicación.

Fuentes de datos y detección

Tipos de fuentes

Los artículos e informes relacionados con la ciberseguridad se recopilan de múltiples categorías de fuentes, entre ellas:

Medios de comunicación convencionales y de tecnología.
Algunos ejemplos incluyen importantes organizaciones internacionales de noticias y publicaciones especializadas en tecnología.
Fuentes autorizadas y especializadas.
Incluyen agencias gubernamentales , organizaciones de investigación de ciberseguridad y publicaciones consolidadas del sector.
Medios de comunicación regionales y locales.
Cubren incidentes de ciberseguridad en Norteamérica, Europa, Asia-Pacífico y otras regiones.
Informes de la industria y de investigación.
Incluidos reportes anuales de filtraciones, reportes del panorama de amenazas, encuestas y análisis económicos.

Cada fuente se atribuye a nivel de artículo o informe, conservando la fecha de publicación, el medio y la URL original.

Proceso de detección

La detección de contenido se realiza a través de búsquedas automatizadas basadas en una lista de palabras clave relacionadas con la ciberseguridad, mantenida y actualizada continuamente. Las palabras clave se agrupan por tema (p. ej., filtraciones de datos, ransomware, phishing, vulnerabilidades, regulación).

Las búsquedas se realizan diariamente para recopilar contenido publicado recientemente. Cada investigación consulta únicamente contenido reciente, lo que garantiza que el conjunto de datos refleje la cobertura más reciente.

Recopilación y procesamiento del contenido

Recuperación de artículos

Una vez detectada una fuente, el texto completo del artículo se obtiene mediante herramientas automatizadas de extracción. Cuando falla la extracción primaria, se utilizan métodos alternativos para garantizar una cobertura sólida.

Desduplicación

Para evitar doble conteo:

Las URL idénticas se procesan solo una vez
El contenido republicado o distribuido en varios medios se elimina a nivel de artículo
La agregación a nivel de evento (descrita a continuación) reduce aún más la duplicación entre distintos medios de comunicación

Filtrado y clasificación de relevancia

Evaluación de la relevancia en ciberseguridad

Cada artículo se evalúa para determinar si es relevante para las estadísticas de ciberseguridad. Los artículos deben describir o analizar de manera significativa un evento, amenaza, vulnerabilidad o medida regulatoria relacionada con la ciberseguridad.

Clasificación del tipo de evento

Los artículos relevantes se clasifican en categorías de alto nivel, incluyendo:

Incidente - Un ciberataque o una brecha de seguridad confirmado que ya ha ocurrido
Vulnerabilidad - Divulgación de una falla de seguridad que podría ser explotada
Inteligencia sobre amenazas - Informes sobre actores de amenazas, herramientas, campañas o técnicas
Regulatorio / legal - Leyes, medidas de cumplimiento, cambios de políticas o procedimientos legales relacionados con la ciberseguridad

Esta clasificación garantiza que las estadísticas que se refieren a “incidentes”, “filtraciones” o “ataques” no se confundan con divulgaciones de vulnerabilidades ni con comentarios generales.

Agrupación de eventos (agregación de artículos en eventos)

Con frecuencia, varios artículos informan sobre el mismo incidente cibernético. Para evitar el conteo excesivo:

Los artículos que describen el mismo incidente se agrupan en un solo evento
A los eventos se les asignan identificadores internos estables
Los artículos se vinculan a eventos existentes únicamente cuando hay un alto nivel de certeza de que describen el mismo suceso

Los indicadores utilizados para la agrupación incluyen organizaciones afectadas, actores de amenazas, cronogramas y descripciones de incidentes.

Los registros a nivel de evento mantienen:

Fechas de primera y última aparición
Número de artículos relacionados
Organizaciones afectadas
Cibercriminales mencionados
Links a las fuentes para su verificación

Uso de análisis automatizados y controles de calidad

Clasificación automatizada

Se utiliza un análisis estructurado y determinista mediante modelos de lenguaje para la clasificación, extracción y agregación. Todos los resultados automatizados siguen esquemas predefinidos para garantizar consistencia.

Los modelos operan con configuraciones determinantes para reducir la variabilidad y el riesgo de alucinaciones.

Control de calidad

Para mantener la precisión:

La validación del esquema garantiza que solo se contabilicen los resultados con una estructura correcta
Se realizan procedimientos mensuales de muestreo y revisión incluida una revisión de precisión, para detectar desviaciones en la clasificación. Esta revisión identifica cambios en la clasificación, lo que posteriormente permite determinar y aplicar ajustes al modelo.
Los casos ambiguos o de alto impacto se marcan para revisión humana
Las estadísticas agregadas conservan la trazabilidad a artículos y eventos individuales

¿Cómo se calculan las estadísticas?

Métricas a nivel de artículo y de evento

Algunas estadísticas se basan en:

Recuentos a nivel de artículo (p. ej., volumen de cobertura mediática)
Recuentos a nivel de evento (p. ej., número de filtraciones o incidentes distintos)

Siempre que es posible, se priorizan las métricas a nivel de evento para reducir la duplicación.

Interpretación de recuentos y frecuencias

Estadísticas como “incidentes por día” o “filtraciones por año” representan actividad reportada o visible en los medios, no la actividad global total.

La telemetría de los proveedores, los sistemas gubernamentales de denuncias y las proyecciones económicas suelen reportar volúmenes significativamente mayores debido a diferencias en el alcance y la metodología. Estas diferencias se señalan cuando resulta relevante.

Limitaciones y consideraciones

Aunque se tomen medidas para garantizar precisión y consistencia, los datos presentan limitaciones inherentes:

No todos los incidentes se divulgan o reportan públicamente
La cobertura mediática varía según la región, el sector y la magnitud del incidente
Algunas fuentes restringen el acceso
Pueden producirse errores de clasificación en casos extremos
Las cifras de pérdidas económicas pueden cambiar a medida que avancen las investigaciones

Por lo tanto, las estadísticas deben interpretarse como indicadores orientativos, no como mediciones exhaustivas.

Índice de fuentes

Cada fuente numerada a continuación corresponde a una referencia en superíndice utilizada en la página de Estadísticas de ciberseguridad. Los superíndices enlazan directamente a la fuente correspondiente en esta página.

Fuente ¹ Statista – Cybercrime worldwide Enlace⁠‌
Fuente ² Identity Theft Resource Center (ITRC) – Weekly Breach Breakdown Q3 2025 Enlace⁠‌
Fuente ³ Identity Theft Resource Center (ITRC) – H1 2025 Data Breach Analysis Enlace⁠‌
Fuente ⁴ Verizon – Data Breach Investigations Report (DBIR) 2025 Enlace⁠‌
Fuente ⁵ IBM – Cost of a Data Breach Report 2025 Enlace⁠‌
Fuente ⁶ South Korean Ministry of Science and ICT – SK Telecom data exfiltration incident Enlace⁠‌
Fuente ⁷ Aflac – June 2025 security incident regulatory filing Enlace⁠‌
Fuente ⁸ HIPAA Journal – Largest healthcare data breaches of 2025 Enlace⁠‌
Fuente ⁹ California Attorney General – Aflac breach report (SB24-616010) Enlace⁠‌
Fuente ¹⁰ Iowa Attorney General – Aflac data breach notification Enlace⁠‌
Fuente ¹¹ Rhode Island Attorney General – Data‑breach notifications Enlace⁠‌
Fuente ¹² Rhode Island AG – Data‑breach notification Enlace⁠‌
Fuente ¹³ Aflac Newsroom – June 2025 security incident update Enlace⁠‌
Fuente ¹⁴ HIPAA Journal – Aflac data breach article Enlace⁠‌
Fuente ¹⁵ Office of the Australian Information Commissioner – Statement on Qantas cyber incident Enlace⁠‌
Fuente ¹⁶ Qantas – Information for customers on cyber incident Enlace⁠‌
Fuente ¹⁷ Qantas Newsroom – Update on Qantas cyber incident (9 July 2025) Enlace⁠‌
Fuente ¹⁸ Michigan Attorney General – Consumer alert on data breaches (TransUnion) Enlace⁠‌
Fuente ¹⁹ Maine Attorney General – Allianz Life cyber incident notice Enlace⁠‌
Fuente ²⁰ California Attorney General – Allianz data breach report (SB24-612078) Enlace⁠‌
Fuente ²¹ University of Maryland – Cyber Security Statistics Enlace⁠‌
Fuente ²² Microsoft Digital Defense Report 2023 Enlace⁠‌
Fuente ²³ WIRED – NotPetya cyberattack article Enlace⁠‌
Fuente ²⁴ Reuters – UnitedHealth tech unit hack article Enlace⁠‌
Fuente ²⁵ The Guardian – Jaguar Land Rover hack article Enlace⁠‌
Fuente ²⁶ NBC News – MGM Resorts cyberattack cost article Enlace⁠‌
Fuente ²⁷ Delaware Department of Technology & Information – eSecurityNews (Oct 2023) Enlace⁠‌
Fuente ²⁸ Cybersecurity Ventures – Global ransomware damage cost projection Enlace⁠‌
Fuente ²⁹ JumpCloud – Phishing attack statistics Enlace⁠‌
Fuente ³⁰ Hornetsecurity – Email threats in 2024 Enlace⁠‌
Fuente ³¹ Spearshield – Click‑to‑credential phishing study Enlace⁠‌
Fuente ³² APWG – Phishing Activity Trends Reports Enlace⁠‌
Fuente ³³ arXiv – Academic password/credential research (2025) Enlace⁠‌
Fuente ³⁴ DeepStrike – Password statistics 2025 Enlace⁠‌
Fuente ³⁵ NordPass – Top 200 Most Common Passwords Enlace⁠‌
Fuente ³⁶ Financial Times – Supply‑chain cybersecurity article Enlace⁠‌
Fuente ³⁷ SecurityScorecard – 2025 Supply Chain Cybersecurity Trends Enlace⁠‌
Fuente ³⁸ National Technology & Security Coalition – 2025 Software Supply Chain Security Report Enlace⁠‌
Fuente ³⁹ Palo Alto Networks – State of Cloud Native Security Enlace⁠‌
Fuente ⁴⁰ IBM – Threat Intelligence Report Enlace⁠‌
Fuente ⁴¹ Tenable – Cloud Security Risk Report 2025 Enlace⁠‌
Fuente ⁴² Cybersecurity Ventures – Cybersecurity Cost Report Enlace⁠‌
Fuente ⁴³ Statista Market Insights – Estimated cost of cybercrime worldwide 2018‑2029 (ResearchGate) Enlace⁠‌
Fuente ⁴⁴ Statista – Cost of cybercrime worldwide forecast Enlace⁠‌
Fuente ⁴⁵ FTC – Consumer Sentinel Network Data Book 2024 Enlace⁠‌
Fuente ⁴⁶ FBI IC3 – 2024 Internet Crime Report Enlace⁠‌
Fuente ⁴⁷ Kroll – Data Breach Outlook 2025 Enlace⁠‌
Fuente ⁴⁸ IBM – Cost of a Data Breach 2024: Financial Industry Enlace⁠‌
Fuente ⁴⁹ SailPoint – 2024 State of Identity Security in Financial Services Enlace⁠‌
Fuente ⁵⁰ DeepStrike – Healthcare data breach statistics 2025 Enlace⁠‌
Fuente ⁵¹ Proofpoint & Ponemon – Healthcare Cybersecurity Report Enlace⁠‌
Fuente ⁵² Check Point – Cyber Security Report 2025 Enlace⁠‌
Fuente ⁵³ Thales – 2024 Data Threat Report: Critical Infrastructure Edition Enlace⁠‌
Fuente ⁵⁴ Cyfirma – Energy & Utilities industry report Enlace⁠‌
Fuente ⁵⁵ World Economic Forum – Global Cybersecurity Outlook 2025 Enlace⁠‌
Fuente ⁵⁶ DeepStrike – Cyber attacks on small businesses Enlace⁠‌
Fuente ⁵⁷ Devolutions – State of IT Security Report 2025 Enlace⁠‌
Fuente ⁵⁸ TotalAssure – Small business cybersecurity statistics 2025 Enlace⁠‌
Fuente ⁵⁹ Cisco – Cybersecurity Readiness Index 2025 Enlace⁠‌
Fuente ⁶⁰ IANS Research – Security budgets press release (2024) Enlace⁠‌
Fuente ⁶¹ Munich Re – Cyber insurance risks and trends 2025 Enlace⁠‌
Fuente ⁶² Gartner – 2025 information security spending forecast Enlace⁠‌
Fuente ⁶³ Forrester – 2024 Cybersecurity Benchmarks (Global) Enlace⁠‌
Fuente ⁶⁴ Ivanti – State of Cybersecurity Report Enlace⁠‌
Fuente ⁶⁵ U.S. Department of Homeland Security – FY 2025 Budget in Brief Enlace⁠‌
Fuente ⁶⁶ U.S. Department of Defense – CYBERCOM Budget Justification Enlace⁠‌
Fuente ⁶⁷ Google Cloud – Cybersecurity forecast Enlace⁠‌
Fuente ⁶⁸ Gartner – Generative AI attack survey (Sep 22 2025) Enlace⁠‌
Fuente ⁶⁹ Splashtop – Top cybersecurity trends and predictions for 2026 Enlace⁠‌
Fuente ⁷⁰ ENISA – Threat Landscape 2024 Enlace⁠‌

Estadísticas de ciberseguridad: metodología y fuentes

Propósito de esta página

Alcance de los datos

Fuentes de datos y detección

Tipos de fuentes

Proceso de detección

Recopilación y procesamiento del contenido

Recuperación de artículos

Desduplicación

Filtrado y clasificación de relevancia

Evaluación de la relevancia en ciberseguridad

Clasificación del tipo de evento

Agrupación de eventos (agregación de artículos en eventos)

Uso de análisis automatizados y controles de calidad

Clasificación automatizada

Control de calidad

¿Cómo se calculan las estadísticas?

Métricas a nivel de artículo y de evento

Interpretación de recuentos y frecuencias

Limitaciones y consideraciones

Índice de fuentes

Estadísticas de ciberseguridad:
metodología y fuentes