Estadísticas de ciberseguridad:
metodología y fuentes
Propósito de esta página
Esta página explica cómo recopilamos, procesamos e interpretamos las estadísticas de ciberseguridad y presenta las fuentes usadas con total transparencia. La página principal de Estadísticas de ciberseguridad presenta hallazgos resumidos y datos obtenidos con la investigación de NordVPN.
Fuentes de datos y distribución
El descubrimiento de fuentes se hace con la API de búsqueda personalizada de Google (GCS), usando múltiples motores de búsqueda personalizados (CSE) configurados para:
Medios: 44 fuentes de medios generales y especializados en tecnología (p.ej. BBC, CNN, The New York Times, WSJ, FT, Reuters, Bloomberg, TechCrunch, Wired, Ars Technica, Time, Forbes).
Páginas autorizadas/de referencia: 25 fuentes de la industria y de expertos (p. ej. CISA, KrebsOnSecurity, The Hacker News, Dark Reading, BleepingComputer, SecurityWeek, Infosecurity Magazine).
Noticias locales: más de 100 medios regionales y nacionales en APAC, EMEA y América (p. ej., Channel NewsAsia, CSA.gov.sg, Zaobao; HK01, unwire.hk; Japan Times, NISC, JPCERT, ITMedia).
Fuentes generales o sin restricciones.
La consultas se basan en palabras clave de una lista mantenida y organizada por categorías.
Todos los registros incluyen una atribución explícita:
Link al artículo original
Medio de comunicación (dominio extraído de la URL)
Fecha de publicación y fecha de recopilación
Las estadísticas y agregaciones de eventos se elaboran a partir de información sintetizada de múltiples fuentes. Cada estadística se basa en evidencias extraídas a nivel de artículo y almacenadas junto con sus links correspondientes.
Frecuencia de recuperación y recopilación de contenido
El contenido completo de los links detectados se obtiene a través de:
Método principal: NewsPlease
Método alternativo: descarga directa del HTML con una sesión de solicitudes reforzada y extracción mediante trafilatura.
Para minimizar errores temporales, se utilizan tiempos de espera, reintentos, configuraciones alternativas de TLS y encabezados de referencia.
Cuando están disponibles, la fecha de publicación y el título se obtienen directamente del extractor. La información se analiza y se normaliza a un formato únicamente con la fecha.
Las recopilaciones diarias consultan el contenido publicado durante el último día.
Extracción de características
Los campos extraídos incluyen:
Medio de comunicación (de la URL)
Primer párrafo (primeras 3 a 5 oraciones)
Características de la palabra clave: recuento total en el texto, presencia en el título, oraciones que contienen la palabra clave principal y presencia de cualquier palabra clave de la lista mantenida
Conteo de palabras
Evaluación de relevancia de LLM
Cada artículo es evaluado por un LLM con una configuración determinista (temperatura 0) y un prompt restringido que exige respuestas explícitas y estructuradas:
1. Si el artículo es relevante para un ciberincidente
2. Si es así, se asigna un tipo de evento de alto nivel:
Incidente: ya se produjo un ciberataque o una brecha de seguridad confirmados (p. ej., despliegue de ransomware, exfiltración de datos, ataques DDoS o compromiso de sistemas).
Vulnerabilidad: descubrimiento o divulgación de una falla de seguridad en software, hardware o sistemas que podría ser explotada (riesgo potencial en lugar de explotación confirmada).
Inteligencia de amenazas: informes sobre actores de amenazas, herramientas, TTP y campañas; se centra en el “quién/cómo”, no en un incidente de una víctima concreta.
Regulatorio y legal: leyes, regulaciones, medidas de cumplimiento, decisiones judiciales o cambios importantes en las políticas que afectan las obligaciones de ciberseguridad.
Tipo de artículo y categorización
Los artículos relevantes se clasifican mediante prompts de taxonomía estructurada (principales: estado del ataque, tipo de evento y aspectos regulatorios o legales; secundarios: métricas o categorías de impacto, detalles técnicos, sectores, ubicación, tamaño y daños aproximados).
Agrupación de eventos (agregación de artículos en eventos)
Objetivo: agrupar los artículos que describen el mismo incidente subyacente en un solo "evento".
Método:
Recuperar eventos existentes de la base de datos para proporcionar contexto (títulos, organizaciones afectadas conocidas, organizaciones cibercriminales/hackers y links).
Para cada artículo candidato (donde el tipo de artículo = incidente único), el modelo de lenguaje (LLM) compara los detalles del artículo con grupos de eventos:
1. Puede asignar un ID de evento existente cuando haya una coincidencia de alta confianza, o
2. De lo contrario, puede crear un nuevo evento.
Los prompts priorizan una alta precisión: un artículo solo se vincula a un evento existente cuando el nivel de confianza es alto. Las organizaciones afectadas y los indicadores relacionados con actores de amenazas se consideran señales relevantes.
Los eventos mantienen campos agregados como fechas de primera y última detección, cantidad de artículos, organizaciones afectadas, agentes de amenazas, títulos y links.
Precisión y garantía de calidad
Determinismo y restricciones:
La temperatura del LLM se establece en 0 para maximizar el determinismo y reducir las alucinaciones.
Los prompts restringidos requieren campos explícitos y resultados en formato JSON, mientras que el análisis valida el cumplimiento del esquema.
Los artículos sin contenido (sin título o texto) se descartan en una fase temprana.
Métricas generadas y validadas mediante LLM:
Todos los campos métricos se generan mediante ejecuciones deterministas de LLM (temperatura 0), siguiendo directrices estrictas y documentadas, así como esquemas JSON. Solo se contabilizan los resultados que cumplen con el esquema, y se realizan controles de calidad humanos periódicos para calibrar el sistema y evitar desviaciones.
Clasificación de eventos/artículos para un filtrado de precisión:
La clasificación por tipo de evento y enfoque del artículo actúa como un filtro estricto de relevancia, excluyendo contenido fuera de tema, de baja relevancia o de tipo recopilatorio. Este enfoque centrado en la cobertura de incidentes individuales reduce el ruido y mejora de forma medible la precisión y exactitud del conjunto de datos.
Validación de múltiples fuentes:
La agrupación de eventos toma como referencia el contexto de eventos previamente almacenados; las discrepancias reducen la probabilidad de fusiones incorrectas.
Las agregaciones incluyen la lista de links de las fuentes de cada evento para permitir su verificación manual.
Intervención humana:
Los casos de alto impacto o especialmente ambiguos pueden marcarse para revisión editorial y verificación de hechos.
Revisiones periódicas de control de calidad: los artículos y eventos seleccionados se auditan mensualmente, incluyendo una revisión de precisión; cualquier desviación detectada da lugar a ajustes en los prompts, el modelo o las palabras clave.
Trazabilidad:
Cada estadística se puede rastrear hasta los artículos y links en la base de datos para fines de auditoría.
Limitaciones
Límites de cobertura:
La información recopilada basada en Google Custom Search (GCS) depende de las palabras clave utilizadas y de la configuración de los motores de búsqueda personalizados (CSE), por lo que no todos los incidentes llegan a recopilarse, especialmente aquellos publicados en idiomas fuera de los configurados o en contenidos de pago.
Algunas páginas web bloquean la recopilación automatizada de contenido, por lo que ciertos artículos pueden estar incompletos o faltar totalmente.
Riesgos asociados a un LLM:
A pesar de las configuraciones deterministas y los prompts estructurados, pueden producirse errores de clasificación, especialmente en textos con poca información o ambiguos.
La agrupación de eventos puede dividir el mismo incidente en múltiples eventos o fusionar incidentes similares pero distintos en casos extremos.
¿Cómo se calculan las estadísticas?
Los campos a nivel de artículo se derivan de la extracción directa y de los resultados del LLM (almacenados por registro).
Las métricas a nivel de evento agregan la información de los artículos asociados usando el identificador event_id, incluyendo:
recuentos de artículos, fechas de primera/última visualización
organizaciones afectadas desduplicadas y actores de amenazas
títulos representativos y listas de enlaces canónicos
Las estadísticas de los informes se extraen de estas tablas almacenadas; cada cifra puede rastrearse hasta las filas de eventos y los registros de artículos subyacentes.
Alcance de los datos
Las estadísticas y conclusiones mencionadas en nuestro contenido de ciberseguridad se derivan de una combinación de:
Informes públicos sobre incidentes de ciberseguridad
Cobertura mediática de ciberincidentes confirmados
Informes y estudios de la industria
Divulgaciones gubernamentales y regulatorias
Los datos reflejan actividad observable y reportada públicamente, no el universo completo de todos los incidentes cibernéticos que ocurren a nivel global. Muchos incidentes cibernéticos nunca se divulgan, reportan o se cubren en los medios de comunicación.
Fuentes de datos y detección
Tipos de fuentes
Los artículos e informes relacionados con la ciberseguridad se recopilan de múltiples categorías de fuentes, entre ellas:
Medios de comunicación convencionales y de tecnología.
Algunos ejemplos incluyen importantes organizaciones internacionales de noticias y publicaciones especializadas en tecnología.Fuentes autorizadas y especializadas.
Incluyen agencias gubernamentales , organizaciones de investigación de ciberseguridad y publicaciones consolidadas del sector.Medios de comunicación regionales y locales.
Cubren incidentes de ciberseguridad en Norteamérica, Europa, Asia-Pacífico y otras regiones.Informes de la industria y de investigación.
Incluidos reportes anuales de filtraciones, reportes del panorama de amenazas, encuestas y análisis económicos.
Cada fuente se atribuye a nivel de artículo o informe, conservando la fecha de publicación, el medio y la URL original.
Proceso de detección
La detección de contenido se realiza a través de búsquedas automatizadas basadas en una lista de palabras clave relacionadas con la ciberseguridad, mantenida y actualizada continuamente. Las palabras clave se agrupan por tema (p. ej., filtraciones de datos, ransomware, phishing, vulnerabilidades, regulación).
Las búsquedas se realizan diariamente para recopilar contenido publicado recientemente. Cada investigación consulta únicamente contenido reciente, lo que garantiza que el conjunto de datos refleje la cobertura más reciente.
Recopilación y procesamiento del contenido
Recuperación de artículos
Una vez detectada una fuente, el texto completo del artículo se obtiene mediante herramientas automatizadas de extracción. Cuando falla la extracción primaria, se utilizan métodos alternativos para garantizar una cobertura sólida.
Desduplicación
Para evitar doble conteo:
Las URL idénticas se procesan solo una vez
El contenido republicado o distribuido en varios medios se elimina a nivel de artículo
La agregación a nivel de evento (descrita a continuación) reduce aún más la duplicación entre distintos medios de comunicación
Filtrado y clasificación de relevancia
Evaluación de la relevancia en ciberseguridad
Cada artículo se evalúa para determinar si es relevante para las estadísticas de ciberseguridad. Los artículos deben describir o analizar de manera significativa un evento, amenaza, vulnerabilidad o medida regulatoria relacionada con la ciberseguridad.
Clasificación del tipo de evento
Los artículos relevantes se clasifican en categorías de alto nivel, incluyendo:
Incidente - Un ciberataque o una brecha de seguridad confirmado que ya ha ocurrido
Vulnerabilidad - Divulgación de una falla de seguridad que podría ser explotada
Inteligencia sobre amenazas - Informes sobre actores de amenazas, herramientas, campañas o técnicas
Regulatorio / legal - Leyes, medidas de cumplimiento, cambios de políticas o procedimientos legales relacionados con la ciberseguridad
Esta clasificación garantiza que las estadísticas que se refieren a “incidentes”, “filtraciones” o “ataques” no se confundan con divulgaciones de vulnerabilidades ni con comentarios generales.
Agrupación de eventos (agregación de artículos en eventos)
Con frecuencia, varios artículos informan sobre el mismo incidente cibernético. Para evitar el conteo excesivo:
Los artículos que describen el mismo incidente se agrupan en un solo evento
A los eventos se les asignan identificadores internos estables
Los artículos se vinculan a eventos existentes únicamente cuando hay un alto nivel de certeza de que describen el mismo suceso
Los indicadores utilizados para la agrupación incluyen organizaciones afectadas, actores de amenazas, cronogramas y descripciones de incidentes.
Los registros a nivel de evento mantienen:
Fechas de primera y última aparición
Número de artículos relacionados
Organizaciones afectadas
Cibercriminales mencionados
Links a las fuentes para su verificación
Uso de análisis automatizados y controles de calidad
Clasificación automatizada
Se utiliza un análisis estructurado y determinista mediante modelos de lenguaje para la clasificación, extracción y agregación. Todos los resultados automatizados siguen esquemas predefinidos para garantizar consistencia.
Los modelos operan con configuraciones determinantes para reducir la variabilidad y el riesgo de alucinaciones.
Control de calidad
Para mantener la precisión:
La validación del esquema garantiza que solo se contabilicen los resultados con una estructura correcta
Se realizan procedimientos mensuales de muestreo y revisión incluida una revisión de precisión, para detectar desviaciones en la clasificación. Esta revisión identifica cambios en la clasificación, lo que posteriormente permite determinar y aplicar ajustes al modelo.
Los casos ambiguos o de alto impacto se marcan para revisión humana
Las estadísticas agregadas conservan la trazabilidad a artículos y eventos individuales
¿Cómo se calculan las estadísticas?
Métricas a nivel de artículo y de evento
Algunas estadísticas se basan en:
Recuentos a nivel de artículo (p. ej., volumen de cobertura mediática)
Recuentos a nivel de evento (p. ej., número de filtraciones o incidentes distintos)
Siempre que es posible, se priorizan las métricas a nivel de evento para reducir la duplicación.
Interpretación de recuentos y frecuencias
Estadísticas como “incidentes por día” o “filtraciones por año” representan actividad reportada o visible en los medios, no la actividad global total.
La telemetría de los proveedores, los sistemas gubernamentales de denuncias y las proyecciones económicas suelen reportar volúmenes significativamente mayores debido a diferencias en el alcance y la metodología. Estas diferencias se señalan cuando resulta relevante.
Limitaciones y consideraciones
Aunque se tomen medidas para garantizar precisión y consistencia, los datos presentan limitaciones inherentes:
No todos los incidentes se divulgan o reportan públicamente
La cobertura mediática varía según la región, el sector y la magnitud del incidente
Algunas fuentes restringen el acceso
Pueden producirse errores de clasificación en casos extremos
Las cifras de pérdidas económicas pueden cambiar a medida que avancen las investigaciones
Por lo tanto, las estadísticas deben interpretarse como indicadores orientativos, no como mediciones exhaustivas.
Índice de fuentes
Cada fuente numerada a continuación corresponde a una referencia en superíndice utilizada en la página de Estadísticas de ciberseguridad. Los superíndices enlazan directamente a la fuente correspondiente en esta página.
Fuente 1 Statista – |
|---|
Fuente 2 Identity Theft |
Fuente 3 Identity Theft |
Fuente 4 Verizon – |
Fuente 5 IBM – |
Fuente 6 South Korean |
Fuente 7 Aflac – June |
Fuente 8 HIPAA Journal – |
Fuente 9 California Attorney |
Fuente 10 Iowa Attorney |
Fuente 11 Rhode Island |
Fuente 12 Rhode Island |
Fuente 13 Aflac Newsroom – |
Fuente 14 HIPAA Journal – |
Fuente 15 Office of the |
Fuente 16 Qantas – Information |
Fuente 17 Qantas Newsroom – |
Fuente 18 Michigan Attorney |
Fuente 19 Maine Attorney |
Fuente 20 California Attorney |
Fuente 21 University of |
Fuente 22 Microsoft Digital |
Fuente 23 WIRED – NotPetya |
Fuente 24 Reuters – UnitedHealth |
Fuente 25 The Guardian – Jaguar |
Fuente 26 NBC News – |
Fuente 27 Delaware Department |
Fuente 28 Cybersecurity |
Fuente 29 JumpCloud – Phishing |
Fuente 30 Hornetsecurity – Email |
Fuente 31 Spearshield – |
Fuente 32 APWG – Phishing |
Fuente 33 arXiv – Academic |
Fuente 34 DeepStrike – Password |
Fuente 35 NordPass – Top 200 |
Fuente 36 Financial Times – |
Fuente 37 SecurityScorecard – |
Fuente 38 National Technology & |
Fuente 39 Palo Alto Networks – |
Fuente 40 IBM – Threat |
Fuente 41 Tenable – |
Fuente 42 Cybersecurity |
Fuente 43 Statista Market |
Fuente 44 Statista – Cost of |
Fuente 45 FTC – Consumer |
Fuente 46 FBI IC3 – 2024 Internet |
Fuente 47 Kroll – Data Breach |
Fuente 48 IBM – Cost of a Data |
Fuente 49 SailPoint – 2024 |
Fuente 50 DeepStrike – |
Fuente 51 Proofpoint & |
Fuente 52 Check Point – |
Fuente 53 Thales – 2024 |
Fuente 54 Cyfirma – Energy & |
Fuente 55 World Economic |
Fuente 56 DeepStrike – Cyber |
Fuente 57 Devolutions – State of |
Fuente 58 TotalAssure – |
Fuente 59 Cisco – Cybersecurity |
Fuente 60 IANS Research – |
Fuente 61 Munich Re – |
Fuente 62 Gartner – 2025 |
Fuente 63 Forrester – 2024 |
Fuente 64 Ivanti – State of |
Fuente 65 U.S. Department of |
Fuente 66 U.S. Department of |
Fuente 67 Google Cloud – |
Fuente 68 Gartner – Generative AI |
Fuente 69 Splashtop – Top |
Fuente 70 ENISA – Threat |