Estadísticas de ciberseguridad:
metodología y fuentes

Propósito de esta página

Esta página explica cómo recopilamos, procesamos e interpretamos las estadísticas de ciberseguridad y presenta las fuentes usadas con total transparencia. La página principal de Estadísticas de ciberseguridad presenta hallazgos resumidos y datos obtenidos con la investigación de NordVPN.

Fuentes de datos y distribución

El descubrimiento de fuentes se hace con la API de búsqueda personalizada de Google (GCS), usando múltiples motores de búsqueda personalizados (CSE) configurados para:

  • Medios: 44 fuentes de medios generales y especializados en tecnología (p.ej. BBC, CNN, The New York Times, WSJ, FT, Reuters, Bloomberg, TechCrunch, Wired, Ars Technica, Time, Forbes).

  • Páginas autorizadas/de referencia: 25 fuentes de la industria y de expertos (p. ej. CISA, KrebsOnSecurity, The Hacker News, Dark Reading, BleepingComputer, SecurityWeek, Infosecurity Magazine).

  • Noticias locales: más de 100 medios regionales y nacionales en APAC, EMEA y América (p. ej., Channel NewsAsia, CSA.gov.sg, Zaobao; HK01, unwire.hk; Japan Times, NISC, JPCERT, ITMedia).

  • Fuentes generales o sin restricciones.

La consultas se basan en palabras clave de una lista mantenida y organizada por categorías.

Todos los registros incluyen una atribución explícita:

  • Link al artículo original

  • Medio de comunicación (dominio extraído de la URL)

  • Fecha de publicación y fecha de recopilación

Las estadísticas y agregaciones de eventos se elaboran a partir de información sintetizada de múltiples fuentes. Cada estadística se basa en evidencias extraídas a nivel de artículo y almacenadas junto con sus links correspondientes.

Frecuencia de recuperación y recopilación de contenido

El contenido completo de los links detectados se obtiene a través de:

  • Método principal: NewsPlease

  • Método alternativo: descarga directa del HTML con una sesión de solicitudes reforzada y extracción mediante trafilatura.

Para minimizar errores temporales, se utilizan tiempos de espera, reintentos, configuraciones alternativas de TLS y encabezados de referencia.

Cuando están disponibles, la fecha de publicación y el título se obtienen directamente del extractor. La información se analiza y se normaliza a un formato únicamente con la fecha.

Las recopilaciones diarias consultan el contenido publicado durante el último día.

Extracción de características

Los campos extraídos incluyen:

  • Medio de comunicación (de la URL)

  • Primer párrafo (primeras 3 a 5 oraciones)

  • Características de la palabra clave: recuento total en el texto, presencia en el título, oraciones que contienen la palabra clave principal y presencia de cualquier palabra clave de la lista mantenida

  • Conteo de palabras

Evaluación de relevancia de LLM

Cada artículo es evaluado por un LLM con una configuración determinista (temperatura 0) y un prompt restringido que exige respuestas explícitas y estructuradas:

1. Si el artículo es relevante para un ciberincidente

2. Si es así, se asigna un tipo de evento de alto nivel:

  • Incidente: ya se produjo un ciberataque o una brecha de seguridad confirmados (p. ej., despliegue de ransomware, exfiltración de datos, ataques DDoS o compromiso de sistemas).

  • Vulnerabilidad: descubrimiento o divulgación de una falla de seguridad en software, hardware o sistemas que podría ser explotada (riesgo potencial en lugar de explotación confirmada).

  • Inteligencia de amenazas: informes sobre actores de amenazas, herramientas, TTP y campañas; se centra en el “quién/cómo”, no en un incidente de una víctima concreta.

  • Regulatorio y legal: leyes, regulaciones, medidas de cumplimiento, decisiones judiciales o cambios importantes en las políticas que afectan las obligaciones de ciberseguridad.

Tipo de artículo y categorización

Los artículos relevantes se clasifican mediante prompts de taxonomía estructurada (principales: estado del ataque, tipo de evento y aspectos regulatorios o legales; secundarios: métricas o categorías de impacto, detalles técnicos, sectores, ubicación, tamaño y daños aproximados).

Agrupación de eventos (agregación de artículos en eventos)

Objetivo: agrupar los artículos que describen el mismo incidente subyacente en un solo "evento".

Método:

  • Recuperar eventos existentes de la base de datos para proporcionar contexto (títulos, organizaciones afectadas conocidas, organizaciones cibercriminales/hackers y links).

  • Para cada artículo candidato (donde el tipo de artículo = incidente único), el modelo de lenguaje (LLM) compara los detalles del artículo con grupos de eventos:

1. Puede asignar un ID de evento existente cuando haya una coincidencia de alta confianza, o

2. De lo contrario, puede crear un nuevo evento.

  • Los prompts priorizan una alta precisión: un artículo solo se vincula a un evento existente cuando el nivel de confianza es alto. Las organizaciones afectadas y los indicadores relacionados con actores de amenazas se consideran señales relevantes.

Los eventos mantienen campos agregados como fechas de primera y última detección, cantidad de artículos, organizaciones afectadas, agentes de amenazas, títulos y links.

Precisión y garantía de calidad

Determinismo y restricciones:

  • La temperatura del LLM se establece en 0 para maximizar el determinismo y reducir las alucinaciones.

  • Los prompts restringidos requieren campos explícitos y resultados en formato JSON, mientras que el análisis valida el cumplimiento del esquema.

  • Los artículos sin contenido (sin título o texto) se descartan en una fase temprana.

Métricas generadas y validadas mediante LLM:

  • Todos los campos métricos se generan mediante ejecuciones deterministas de LLM (temperatura 0), siguiendo directrices estrictas y documentadas, así como esquemas JSON. Solo se contabilizan los resultados que cumplen con el esquema, y se realizan controles de calidad humanos periódicos para calibrar el sistema y evitar desviaciones.

Clasificación de eventos/artículos para un filtrado de precisión:

  • La clasificación por tipo de evento y enfoque del artículo actúa como un filtro estricto de relevancia, excluyendo contenido fuera de tema, de baja relevancia o de tipo recopilatorio. Este enfoque centrado en la cobertura de incidentes individuales reduce el ruido y mejora de forma medible la precisión y exactitud del conjunto de datos.

Validación de múltiples fuentes:

  • La agrupación de eventos toma como referencia el contexto de eventos previamente almacenados; las discrepancias reducen la probabilidad de fusiones incorrectas.

  • Las agregaciones incluyen la lista de links de las fuentes de cada evento para permitir su verificación manual.

Intervención humana:

  • Los casos de alto impacto o especialmente ambiguos pueden marcarse para revisión editorial y verificación de hechos.

  • Revisiones periódicas de control de calidad: los artículos y eventos seleccionados se auditan mensualmente, incluyendo una revisión de precisión; cualquier desviación detectada da lugar a ajustes en los prompts, el modelo o las palabras clave.

Trazabilidad:

  • Cada estadística se puede rastrear hasta los artículos y links en la base de datos para fines de auditoría.

Limitaciones

Límites de cobertura:

  • La información recopilada basada en Google Custom Search (GCS) depende de las palabras clave utilizadas y de la configuración de los motores de búsqueda personalizados (CSE), por lo que no todos los incidentes llegan a recopilarse, especialmente aquellos publicados en idiomas fuera de los configurados o en contenidos de pago.

  • Algunas páginas web bloquean la recopilación automatizada de contenido, por lo que ciertos artículos pueden estar incompletos o faltar totalmente.

Riesgos asociados a un LLM:

  • A pesar de las configuraciones deterministas y los prompts estructurados, pueden producirse errores de clasificación, especialmente en textos con poca información o ambiguos.

  • La agrupación de eventos puede dividir el mismo incidente en múltiples eventos o fusionar incidentes similares pero distintos en casos extremos.

¿Cómo se calculan las estadísticas?

Los campos a nivel de artículo se derivan de la extracción directa y de los resultados del LLM (almacenados por registro).

Las métricas a nivel de evento agregan la información de los artículos asociados usando el identificador event_id, incluyendo:

  • recuentos de artículos, fechas de primera/última visualización

  • organizaciones afectadas desduplicadas y actores de amenazas

  • títulos representativos y listas de enlaces canónicos

Las estadísticas de los informes se extraen de estas tablas almacenadas; cada cifra puede rastrearse hasta las filas de eventos y los registros de artículos subyacentes.

Alcance de los datos

Las estadísticas y conclusiones mencionadas en nuestro contenido de ciberseguridad se derivan de una combinación de:

  • Informes públicos sobre incidentes de ciberseguridad

  • Cobertura mediática de ciberincidentes confirmados

  • Informes y estudios de la industria

  • Divulgaciones gubernamentales y regulatorias

Los datos reflejan actividad observable y reportada públicamente, no el universo completo de todos los incidentes cibernéticos que ocurren a nivel global. Muchos incidentes cibernéticos nunca se divulgan, reportan o se cubren en los medios de comunicación.

Fuentes de datos y detección

Tipos de fuentes

Los artículos e informes relacionados con la ciberseguridad se recopilan de múltiples categorías de fuentes, entre ellas:

  • Medios de comunicación convencionales y de tecnología.
    Algunos ejemplos incluyen importantes organizaciones internacionales de noticias y publicaciones especializadas en tecnología.

  • Fuentes autorizadas y especializadas.
    Incluyen agencias gubernamentales , organizaciones de investigación de ciberseguridad y publicaciones consolidadas del sector.

  • Medios de comunicación regionales y locales.
    Cubren incidentes de ciberseguridad en Norteamérica, Europa, Asia-Pacífico y otras regiones.

  • Informes de la industria y de investigación.
    Incluidos reportes anuales de filtraciones, reportes del panorama de amenazas, encuestas y análisis económicos.

Cada fuente se atribuye a nivel de artículo o informe, conservando la fecha de publicación, el medio y la URL original.

Proceso de detección

La detección de contenido se realiza a través de búsquedas automatizadas basadas en una lista de palabras clave relacionadas con la ciberseguridad, mantenida y actualizada continuamente. Las palabras clave se agrupan por tema (p. ej., filtraciones de datos, ransomware, phishing, vulnerabilidades, regulación).

Las búsquedas se realizan diariamente para recopilar contenido publicado recientemente. Cada investigación consulta únicamente contenido reciente, lo que garantiza que el conjunto de datos refleje la cobertura más reciente.

Recopilación y procesamiento del contenido

Recuperación de artículos

Una vez detectada una fuente, el texto completo del artículo se obtiene mediante herramientas automatizadas de extracción. Cuando falla la extracción primaria, se utilizan métodos alternativos para garantizar una cobertura sólida.

Desduplicación

Para evitar doble conteo:

  • Las URL idénticas se procesan solo una vez

  • El contenido republicado o distribuido en varios medios se elimina a nivel de artículo

  • La agregación a nivel de evento (descrita a continuación) reduce aún más la duplicación entre distintos medios de comunicación

Filtrado y clasificación de relevancia

Evaluación de la relevancia en ciberseguridad

Cada artículo se evalúa para determinar si es relevante para las estadísticas de ciberseguridad. Los artículos deben describir o analizar de manera significativa un evento, amenaza, vulnerabilidad o medida regulatoria relacionada con la ciberseguridad.

Clasificación del tipo de evento

Los artículos relevantes se clasifican en categorías de alto nivel, incluyendo:

  • Incidente - Un ciberataque o una brecha de seguridad confirmado que ya ha ocurrido

  • Vulnerabilidad - Divulgación de una falla de seguridad que podría ser explotada

  • Inteligencia sobre amenazas - Informes sobre actores de amenazas, herramientas, campañas o técnicas

  • Regulatorio / legal - Leyes, medidas de cumplimiento, cambios de políticas o procedimientos legales relacionados con la ciberseguridad

Esta clasificación garantiza que las estadísticas que se refieren a “incidentes”, “filtraciones” o “ataques” no se confundan con divulgaciones de vulnerabilidades ni con comentarios generales.

Agrupación de eventos (agregación de artículos en eventos)

Con frecuencia, varios artículos informan sobre el mismo incidente cibernético. Para evitar el conteo excesivo:

  • Los artículos que describen el mismo incidente se agrupan en un solo evento

  • A los eventos se les asignan identificadores internos estables

  • Los artículos se vinculan a eventos existentes únicamente cuando hay un alto nivel de certeza de que describen el mismo suceso

Los indicadores utilizados para la agrupación incluyen organizaciones afectadas, actores de amenazas, cronogramas y descripciones de incidentes.

Los registros a nivel de evento mantienen:

  • Fechas de primera y última aparición

  • Número de artículos relacionados

  • Organizaciones afectadas

  • Cibercriminales mencionados

  • Links a las fuentes para su verificación

Uso de análisis automatizados y controles de calidad

Clasificación automatizada

Se utiliza un análisis estructurado y determinista mediante modelos de lenguaje para la clasificación, extracción y agregación. Todos los resultados automatizados siguen esquemas predefinidos para garantizar consistencia.

Los modelos operan con configuraciones determinantes para reducir la variabilidad y el riesgo de alucinaciones.

Control de calidad

Para mantener la precisión:

  • La validación del esquema garantiza que solo se contabilicen los resultados con una estructura correcta

  • Se realizan procedimientos mensuales de muestreo y revisión incluida una revisión de precisión, para detectar desviaciones en la clasificación. Esta revisión identifica cambios en la clasificación, lo que posteriormente permite determinar y aplicar ajustes al modelo.

  • Los casos ambiguos o de alto impacto se marcan para revisión humana

  • Las estadísticas agregadas conservan la trazabilidad a artículos y eventos individuales

¿Cómo se calculan las estadísticas?

Métricas a nivel de artículo y de evento

Algunas estadísticas se basan en:

  • Recuentos a nivel de artículo (p. ej., volumen de cobertura mediática)

  • Recuentos a nivel de evento (p. ej., número de filtraciones o incidentes distintos)

Siempre que es posible, se priorizan las métricas a nivel de evento para reducir la duplicación.

Interpretación de recuentos y frecuencias

Estadísticas como “incidentes por día” o “filtraciones por año” representan actividad reportada o visible en los medios, no la actividad global total.

La telemetría de los proveedores, los sistemas gubernamentales de denuncias y las proyecciones económicas suelen reportar volúmenes significativamente mayores debido a diferencias en el alcance y la metodología. Estas diferencias se señalan cuando resulta relevante.

Limitaciones y consideraciones

Aunque se tomen medidas para garantizar precisión y consistencia, los datos presentan limitaciones inherentes:

  • No todos los incidentes se divulgan o reportan públicamente

  • La cobertura mediática varía según la región, el sector y la magnitud del incidente

  • Algunas fuentes restringen el acceso

  • Pueden producirse errores de clasificación en casos extremos

  • Las cifras de pérdidas económicas pueden cambiar a medida que avancen las investigaciones

Por lo tanto, las estadísticas deben interpretarse como indicadores orientativos, no como mediciones exhaustivas.

Índice de fuentes

Cada fuente numerada a continuación corresponde a una referencia en superíndice utilizada en la página de Estadísticas de ciberseguridad. Los superíndices enlazan directamente a la fuente correspondiente en esta página.

Fuente 1

Statista –
Cybercrime worldwide

Fuente 2

Identity Theft
Resource Center
(ITRC) – Weekly
Breach
Breakdown
Q3 2025

Fuente 3

Identity Theft
Resource Center
(ITRC) – H1 2025
Data Breach Analysis

Fuente 4

Verizon –
Data Breach
Investigations
Report (DBIR) 2025

Fuente 5

IBM –
Cost of a Data
Breach Report 2025

Fuente 6

South Korean
Ministry of
Science and
ICT – SK Telecom data
exfiltration
incident

Fuente 7

Aflac – June
2025 security
incident
regulatory filing

Fuente 8

HIPAA Journal –
Largest healthcare
data breaches of 2025

Fuente 9

California Attorney
General – Aflac
breach report
(SB24-616010)

Fuente 10

Iowa Attorney
General – Aflac
data breach notification

Fuente 11

Rhode Island
Attorney General –
Data‑breach
notifications

Fuente 12

Rhode Island
AG –
Data‑breach
notification

Fuente 13

Aflac Newsroom –
June 2025
security incident
update

Fuente 14

HIPAA Journal –
Aflac data
breach article

Fuente 15

Office of the
Australian Information
Commissioner –
Statement on Qantas
cyber incident

Fuente 16

Qantas – Information
for customers on
cyber incident

Fuente 17

Qantas Newsroom –
Update on Qantas
cyber incident
(9 July 2025)

Fuente 18

Michigan Attorney
General – Consumer
alert on data breaches
(TransUnion)

Fuente 19

Maine Attorney
General – Allianz Life
cyber incident notice

Fuente 20

California Attorney
General – Allianz data
breach report
(SB24-612078)

Fuente 21

University of
Maryland – Cyber
Security Statistics

Fuente 22

Microsoft Digital
Defense Report 2023

Fuente 23

WIRED – NotPetya
cyberattack article

Fuente 24

Reuters – UnitedHealth
tech unit hack article

Fuente 25

The Guardian – Jaguar
Land Rover hack article

Fuente 26

NBC News –
MGM Resorts
cyberattack cost article

Fuente 27

Delaware Department
of Technology &
Information –
eSecurityNews
(Oct 2023)

Fuente 28

Cybersecurity
Ventures – Global
ransomware damage
cost projection

Fuente 29

JumpCloud – Phishing
attack statistics

Fuente 30

Hornetsecurity – Email
threats in 2024

Fuente 31

Spearshield –
Click‑to‑credential
phishing study

Fuente 32

APWG – Phishing
Activity Trends Reports

Fuente 33

arXiv – Academic
password/credential
research (2025)

Fuente 34

DeepStrike – Password
statistics 2025

Fuente 35

NordPass – Top 200
Most Common
Passwords

Fuente 36

Financial Times –
Supply‑chain
cybersecurity article

Fuente 37

SecurityScorecard –
2025 Supply Chain
Cybersecurity Trends

Fuente 38

National Technology &
Security Coalition –
2025 Software Supply
Chain Security Report

Fuente 39

Palo Alto Networks –
State of Cloud
Native Security

Fuente 40

IBM – Threat
Intelligence Report

Fuente 41

Tenable –
Cloud Security
Risk Report 2025

Fuente 42

Cybersecurity
Ventures –
Cybersecurity Cost
Report

Fuente 43

Statista Market
Insights – Estimated
cost of cybercrime
worldwide 2018‑2029
(ResearchGate)

Fuente 44

Statista – Cost of
cybercrime worldwide
forecast

Fuente 45

FTC – Consumer
Sentinel Network Data
Book 2024

Fuente 46

FBI IC3 – 2024 Internet
Crime Report

Fuente 47

Kroll – Data Breach
Outlook 2025

Fuente 48

IBM – Cost of a Data
Breach 2024: Financial
Industry

Fuente 49

SailPoint – 2024
State of Identity
Security in Financial
Services

Fuente 50

DeepStrike –
Healthcare data
breach statistics 2025

Fuente 51

Proofpoint &
Ponemon – Healthcare
Cybersecurity Report

Fuente 52

Check Point –
Cyber Security
Report 2025

Fuente 53

Thales – 2024
Data Threat Report:
Critical Infrastructure
Edition

Fuente 54

Cyfirma – Energy &
Utilities industry report

Fuente 55

World Economic
Forum – Global
Cybersecurity Outlook
2025

Fuente 56

DeepStrike – Cyber
attacks on small
businesses

Fuente 57

Devolutions – State of
IT Security Report 2025

Fuente 58

TotalAssure –
Small business
cybersecurity statistics
2025

Fuente 59

Cisco – Cybersecurity
Readiness Index 2025

Fuente 60

IANS Research –
Security budgets
press release (2024)

Fuente 61

Munich Re –
Cyber insurance risks
and trends 2025

Fuente 62

Gartner – 2025
information security
spending forecast

Fuente 63

Forrester – 2024
Cybersecurity
Benchmarks (Global)

Fuente 64

Ivanti – State of
Cybersecurity Report

Fuente 65

U.S. Department of
Homeland Security –
FY 2025 Budget in Brief

Fuente 66

U.S. Department of
Defense – CYBERCOM
Budget Justification

Fuente 67

Google Cloud –
Cybersecurity forecast

Fuente 68

Gartner – Generative AI
attack survey
(Sep 22 2025)

Fuente 69

Splashtop – Top
cybersecurity trends
and predictions
for 2026

Fuente 70

ENISA – Threat
Landscape 2024