Статистика кибербезопасности:
методология и источники

Назначение этой страницы

Эта страница содержит пояснения о сборе, обработке и интерпретации данных со страницы «Статистика кибербезопасности», и об используемых источниках данных. На главной странице «Статистика кибербезопасности» представлены обобщенные результаты и выводы исследований NordVPN.

Источники данных и указание авторства

Поиск источников осуществляется через интерфейс системы пользовательского поиска Google (GCS) с использованием нескольких настраиваемых поисковых систем (CSE), настроенных на поиск:

  • СМИ — 44 ведущих СМИ и технологических издания (включая BBC, CNN, The New York Times, WSJ, FT, Reuters, Bloomberg, TechCrunch, Wired, Ars Technica, Time, Forbes);

  • авторитетных/справочных сайтов — 25 отраслевых и экспертных источников (включая CISA, KrebsOnSecurity, The Hacker News, Dark Reading, BleepingComputer, SecurityWeek, Infosecurity Magazine);

  • местных новостей — более 100 региональных и национальных изданий в Азиатско-Тихоокеанском регионе, Европе, на Ближнем Востоке и в Африке, в Северной и Южной Америке (включая Channel NewsAsia, CSA.gov.sg, Zaobao; HK01, unwire.hk; Japan Times, NISC, JPCERT, ITMedia);

  • сведений общего характера/без ограничений.

Запросы формируются на основе ключевых слов из постоянно обновляемого списка, где термины сгруппированы по категориям.

Все записи содержат четкое указание авторства и источника:

  • ссылку на оригинальную статью

  • СМИ (домен, извлеченный из URL)

  • дату публикации и дату сбора

Для статистических расчетов и агрегирования событий мы обобщаем информацию из множества источников; каждая статистическая величина рассчитывается на основе данных из отдельных статей со ссылками на первоисточник.

Частота извлечения и сбора контента

Полнотекстовый контент из обнаруженных ссылок извлекается с помощью:

  • NewsPlease (основной вариант)

  • прямого скачивания HTML с укрепленной сессией запросов и извлечения с помощью Trafilatura (резервный вариант).

Для уменьшения числа временных сбоев применяются таймауты, повторные попытки, резервные варианты TLS и заголовки Referer.

Дата публикации и название берутся из экстрактора, если они доступны; анализ даты приводится к формату, содержащему только дату.

Ежедневные запросы обращаются к контенту за 1 последний день.

Извлечение признаков

Извлеченные поля включают:

  • СМИ (из URL)

  • Первый абзац (первые 3–5 предложений)

  • Характеристики ключевых слов: общее количество в тексте, наличие в заголовке, предложения с базовыми ключевыми словами и наличие любых ключевых слов из поддерживаемого списка

  • Количество слов

Оценка релевантности LLM

Каждая статья оценивается LLM с детерминированной настройкой (температура 0) и ограниченным промптом с запросом на явные структурированные результаты:

1. Имеет ли статья отношение к киберсобытиям

2. Если имеет, назначается тип события высокого уровня:

  • Инцидент: уже произошедшая подтвержденная кибератака или утечка данных (например, запуск программы-вымогателя, кража данных, DDoS-атака, компрометация системы).

  • Уязвимость: выявление или раскрытие дефекта безопасности в программном обеспечении/оборудовании/системах, который может быть использован (потенциальный риск, а не подтвержденное использование).

  • Разведка угроз: отчетность о субъектах угроз, инструментах, тактике, методах и стратегиях (TTP) и кампаниях (фокус на определении «кто и как», а не на конкретном инциденте с жертвой).

  • Нормативно-правовая база: законы, нормативные акты, правоприменительные меры, судебные решения или важные изменения политик, влияющие на обязательства в области кибербезопасности.

Типы и категоризация статей

Релевантные статьи классифицируются с помощью структурированных таксономических промптов (основные: статус атаки, тип события, нормативные/правовые аспекты; второстепенные: метрики/класс воздействия, технические детали, секторы, география, масштаб, приблизительный ущерб).

Кластеризация событий (агрегация статей по событиям)

Цель: сгруппировать статьи, описывающие один и тот же исходный инцидент, в одно «событие».

Метод:

  • Извлечь из базы данных существующие события для предоставления контекста (названия, известные затронутые организации, субъекты угроз, ссылки).

  • Для каждой статьи-кандидата (где тип статьи = одиночный инцидент) LLM сравнивает детали статьи с наборами существующих событий и:

1. либо присваивает идентификатор существующего события при наличии совпадения с высокой степенью достоверности,

2. либо создает новое событие.

  • Промпты подчеркивают высокую точность: ссылка на существующее событие ставится только при высокой степени уверенности. Затронутые организации и сигналы субъектов угроз считаются надежными индикаторами.

События содержат агрегированные поля: даты первого/последнего просмотра, количество статей, затронутые организации, субъекты угроз, заголовки, ссылки.

Обеспечение точности и качества

Детерминизм и ограничения:

  • Температура LLM установлена на 0, чтобы максимизировать детерминизм и снизить галлюцинации.

  • Ограниченные промпты требуют конкретных полей и вывода в формате JSON; при парсинге соблюдается схема.

  • Статьи без контента (без заголовка/текста) отклоняются на раннем этапе.

Метрики, управляемые LLM и проверяемые на соответствие схеме:

  • Все поля метрик создаются с помощью детерминированных прогонов LLM (температура 0) в соответствии со строгими задокументированными руководствами и схемами JSON; учитываются только результаты, соответствующие схеме, с периодическим контролем качества специалистами для калибровки и предотвращения дрейфа.

Классификация событий/статей для точной фильтрации:

  • Классификация по типу события и тематике статьи служит строгим фильтром релевантности, отсеивающим не относящийся к теме, малоинформативный или обзорный контент. Такая ориентация на отчетность по отдельным инцидентам снижает уровень шума и заметно повышает точность и достоверность набора данных.

Проверка по нескольким источникам:

  • Кластеризация событий ссылается на ранее сохраненный контекст событий; несоответствия снижают вероятность неправильного объединения.

  • Агрегации включают список исходных ссылок по каждому событию для ручной проверки.

Участие человека:

  • Случаи с высоким уровнем влияния или неоднозначностью могут быть помечены для редакционной оценки и проверки фактов.

  • Регулярные проверки качества: отобранные статьи и события проверяются ежемесячно с применением точного анализа; любое отклонение приводит к корректировке промптов/моделей или ключевых слов.

Прослеживаемость:

  • Для обеспечения возможности аудита каждый статистический показатель может быть отслежен до статей и ссылок, содержащихся в базе данных.

Ограничения

Ограничения охвата:

  • Обнаружение на основе GCS зависит от ключевых слов и конфигураций CSE; фиксируются не все инциденты, особенно если речь идет о языках, не включенных в настройки, или платном контенте.

  • Некоторые сайты блокируют автоматическое извлечение; такие статьи могут частично или полностью отсутствовать.

Риски, связанные с LLM:

  • Использование детерминированных настроек и структурированных промптов не исключает вероятность ошибок классификации, особенно при работе с небольшими текстами или неоднозначными формулировками.

  • При кластеризации событий один и тот же инцидент может быть разбит на несколько событий или, в крайних случаях, объединен с похожими, но отдельными инцидентами.

Как вычисляются статистические данные

Поля на уровне статьи получают путем прямого извлечения и результатов LLM (сохраняются для каждой записи).

Метрики на уровне событий агрегируют составляющие статьи по event_id:

  • количество статей, даты первого/последнего просмотра

  • затронутые организации и субъекты угроз после удаления дубликатов

  • репрезентативные заголовки и списки канонических ссылок

Статистика отчетов извлекается из этих сохраненных таблиц; каждый показатель может быть прослежен до строк событий и соответствующих записей статей.

Объем данных

Статистические и аналитические данные, упоминаемые в наших материалах по кибербезопасности, получены из следующих источников:

  • Общедоступные отчеты об инцидентах в сфере кибербезопасности

  • Освещение подтвержденных киберинцидентов в СМИ

  • Отраслевые отчеты и исследования

  • Информация, раскрытая в соответствии с нормативными требованиями

Эти данные отражают общедоступные сведения и зарегистрированные действия, а не полную картину всех киберинцидентов, происходящих в мире. Многие киберсобытия никогда не раскрываются и не освещаются СМИ.

Источники данных и поиск информации

Типы источников

Статьи и отчеты по кибербезопасности собираются из разных источников, включая следующие:

  • Ведущие и технологические СМИ.
    К ним относятся крупные международные новостные организации и технологические издания.

  • Авторитетные и экспертные источники по кибербезопасности,
    включая государственные учреждения, исследовательские организации в области кибербезопасности и авторитетные отраслевые издания.

  • Региональные и местные новостные агентства,
    освещающие инциденты в сфере кибербезопасности в Северной Америке, Европе, Азиатско-Тихоокеанском и других регионах.

  • Отраслевые и исследовательские отчеты,
    включая ежегодные отчеты об утечках, отчеты о ландшафте угроз, опросы и данные экономического анализа.

Каждый источник указывается на уровне статьи или отчета с сохранением даты публикации, названия издания и исходного URL-адреса.

Процесс обнаружения

Обнаружение контента осуществляется с помощью автоматических поисковых запросов на основе обновляемого списка ключевых слов по кибербезопасности. Ключевые слова сгруппированы по темам (например: утечки данных, программы-вымогатели, фишинг, уязвимости, регулирование).

Поиск проводится ежедневно для охвата свежеопубликованного контента. При каждом запуске запрашиваются только последние данные, чтобы набор данных отражал текущую отчетность.

Сбор и обработка контента

Извлечение статей

После обнаружения источника полный текст статьи извлекается с помощью средств автоматического извлечения. Если первичное извлечение не удается, используются резервные методы для обеспечения надежного охвата.

Дедупликация

Для избежания двойного подсчета используется:

  • Одинаковые URL-адреса обрабатываются только один раз

  • Повторно опубликованный или синдицированный контент дедуплицируется на уровне статьи

  • Агрегация на уровне событий (описанная ниже) дополнительно сокращает дублирование по источникам

Фильтрация и классификация по релевантности

Оценка актуальности для кибербезопасности

Каждая статья оценивается на релевантность для статистики кибербезопасности. Статьи должны содержательно описывать или анализировать событие, угрозу, уязвимость или регуляторные меры в сфере кибербезопасности.

Классификация типов событий

Релевантные статьи классифицируются по основным категориям, включая следующие:

  • Инцидент — уже произошедшая подтвержденная кибератака или утечка данных

  • Уязвимость — раскрытие слабого места в системе безопасности, которое может быть использовано

  • Разведка угроз — отчетность о субъектах, инструментах, кампаниях и методах угроз

  • Нормативно-правовое регулирование — законы, правоприменительные меры, изменения в политиках и судебные разбирательства, связанные с кибербезопасностью

Такая классификация гарантирует, что статистика, относящаяся к «инцидентам», «утечкам» или «атакам», не будет объединена с раскрытием уязвимостей или общими комментариями.

Кластеризация событий (агрегация статей по событиям)

Один и тот же киберинцидент часто освещается в нескольких статьях. Чтобы избежать двойного подсчета:

  • Статьи, описывающие один и тот же инцидент, группируются в одно событие

  • Событиям присваиваются стабильные внутренние идентификаторы

  • Статьи связываются с существующими событиями только при наличии высокой уверенности в том, что они описывают одно и то же событие

В индикаторы, используемые для кластеризации, включены затронутые организации, субъекты угроз, временные рамки и описания инцидентов.

Записи на уровне события содержат следующее:

  • Даты первого и последнего появления

  • Количество связанных статей

  • Затронутые организации

  • Упомянутые субъекты угроз

  • Ссылки на источники для проверки

Использование автоматизированного анализа и контроля качества

Автоматизированная классификация

Для классификации, извлечения и агрегации используется структурированный детерминированный анализ языковых моделей. Все автоматизированные результаты соответствуют предопределенным схемам, что обеспечивает их согласованность.

Модели работают с детерминированными настройками для снижения вариативности и риска галлюцинаций.

Контроль качества

Для обеспечения точности:

  • Валидация схемы гарантирует рассмотрение только правильно структурированных результатов

  • Для выявления дрейфа классификации проводятся регулярные ежемесячные выборки и проверки, включая проверку точности. Такая проверка выявляет изменения в классификации, которые служат основанием для последующей корректировки модели.

  • Случаи с высоким уровнем влияния или неоднозначностью помечаются для проверки специалистом

  • Агрегированные статистические данные сохраняют возможность прослеживания до отдельных статей и событий

Как рассчитываются статистические данные

Метрики на уровне статьи и на уровне события

Основой для некоторых статистических данных служат:

  • Подсчеты на уровне статей (например, объем освещения в СМИ)

  • Подсчеты на уровне события (например, количество отдельных утечек или инцидентов)

В соответствующих случаях предпочтение отдается метрикам на уровне событий для минимизации дублирования.

Интерпретация количества и частоты

Такие статистические показатели, как «количество инцидентов в день» или «количество утечек в год», отражают зарегистрированные действия или освещенные в СМИ события, а не общемировую активность.

Телеметрия поставщиков, государственные системы рассмотрения жалоб и экономические прогнозы часто показывают значительно более высокие объемы из-за различий в охвате и методологии. Эти различия отмечаются там, где имеют значение.

Ограничения и соображения

Наряду с применением мер для обеспечения точности и согласованности данных следует отметить присущие им ограничения:

  • Не все инциденты освещаются публично и фиксируются в отчетах

  • Освещение в СМИ зависит от региона, сектора и масштаба инцидента

  • Доступ к некоторым источникам ограничен

  • В крайних случаях возможны ошибки классификации

  • Показатели экономических потерь по мере продвижения расследований могут изменяться

В связи с этим статистические данные следует интерпретировать как индикаторы направления, а не исчерпывающие измерения.

Индексы источников

Каждый пронумерованный источник ниже соответствует ссылке в виде надстрочного индекса, используемой на странице «Статистика кибербезопасности». Надстрочные индексы ведут непосредственно к соответствующим записям источников на этой странице.

Источник 1

Statista –
Cybercrime worldwide

Источник 2

Identity Theft
Resource Center
(ITRC) – Weekly
Breach
Breakdown
Q3 2025

Источник 3

Identity Theft
Resource Center
(ITRC) – H1 2025
Data Breach Analysis

Источник 4

Verizon –
Data Breach
Investigations
Report (DBIR) 2025

Источник 5

IBM –
Cost of a Data
Breach Report 2025

Источник 6

South Korean
Ministry of
Science and
ICT – SK Telecom data
exfiltration
incident

Источник 7

Aflac – June
2025 security
incident
regulatory filing

Источник 8

HIPAA Journal –
Largest healthcare
data breaches of 2025

Источник 9

California Attorney
General – Aflac
breach report
(SB24-616010)

Источник 10

Iowa Attorney
General – Aflac
data breach notification

Источник 11

Rhode Island
Attorney General –
Data‑breach
notifications

Источник 12

Rhode Island
AG –
Data‑breach
notification

Источник 13

Aflac Newsroom –
June 2025
security incident
update

Источник 14

HIPAA Journal –
Aflac data
breach article

Источник 15

Office of the
Australian Information
Commissioner –
Statement on Qantas
cyber incident

Источник 16

Qantas – Information
for customers on
cyber incident

Источник 17

Qantas Newsroom –
Update on Qantas
cyber incident
(9 July 2025)

Источник 18

Michigan Attorney
General – Consumer
alert on data breaches
(TransUnion)

Источник 19

Maine Attorney
General – Allianz Life
cyber incident notice

Источник 20

California Attorney
General – Allianz data
breach report
(SB24-612078)

Источник 21

University of
Maryland – Cyber
Security Statistics

Источник 22

Microsoft Digital
Defense Report 2023

Источник 23

WIRED – NotPetya
cyberattack article

Источник 24

Reuters – UnitedHealth
tech unit hack article

Источник 25

The Guardian – Jaguar
Land Rover hack article

Источник 26

NBC News –
MGM Resorts
cyberattack cost article

Источник 27

Delaware Department
of Technology &
Information –
eSecurityNews
(Oct 2023)

Источник 28

Cybersecurity
Ventures – Global
ransomware damage
cost projection

Источник 29

JumpCloud – Phishing
attack statistics

Источник 30

Hornetsecurity – Email
threats in 2024

Источник 31

Spearshield –
Click‑to‑credential
phishing study

Источник 32

APWG – Phishing
Activity Trends Reports

Источник 33

arXiv – Academic
password/credential
research (2025)

Источник 34

DeepStrike – Password
statistics 2025

Источник 35

NordPass – Top 200
Most Common
Passwords

Источник 36

Financial Times –
Supply‑chain
cybersecurity article

Источник 37

SecurityScorecard –
2025 Supply Chain
Cybersecurity Trends

Источник 38

National Technology &
Security Coalition –
2025 Software Supply
Chain Security Report

Источник 39

Palo Alto Networks –
State of Cloud
Native Security

Источник 40

IBM – Threat
Intelligence Report

Источник 41

Tenable –
Cloud Security
Risk Report 2025

Источник 42

Cybersecurity
Ventures –
Cybersecurity Cost
Report

Источник 43

Statista Market
Insights – Estimated
cost of cybercrime
worldwide 2018‑2029
(ResearchGate)

Источник 44

Statista – Cost of
cybercrime worldwide
forecast

Источник 45

FTC – Consumer
Sentinel Network Data
Book 2024

Источник 46

FBI IC3 – 2024 Internet
Crime Report

Источник 47

Kroll – Data Breach
Outlook 2025

Источник 48

IBM – Cost of a Data
Breach 2024: Financial
Industry

Источник 49

SailPoint – 2024
State of Identity
Security in Financial
Services

Источник 50

DeepStrike –
Healthcare data
breach statistics 2025

Источник 51

Proofpoint &
Ponemon – Healthcare
Cybersecurity Report

Источник 52

Check Point –
Cyber Security
Report 2025

Источник 53

Thales – 2024
Data Threat Report:
Critical Infrastructure
Edition

Источник 54

Cyfirma – Energy &
Utilities industry report

Источник 55

World Economic
Forum – Global
Cybersecurity Outlook
2025

Источник 56

DeepStrike – Cyber
attacks on small
businesses

Источник 57

Devolutions – State of
IT Security Report 2025

Источник 58

TotalAssure –
Small business
cybersecurity statistics
2025

Источник 59

Cisco – Cybersecurity
Readiness Index 2025

Источник 60

IANS Research –
Security budgets
press release (2024)

Источник 61

Munich Re –
Cyber insurance risks
and trends 2025

Источник 62

Gartner – 2025
information security
spending forecast

Источник 63

Forrester – 2024
Cybersecurity
Benchmarks (Global)

Источник 64

Ivanti – State of
Cybersecurity Report

Источник 65

U.S. Department of
Homeland Security –
FY 2025 Budget in Brief

Источник 66

U.S. Department of
Defense – CYBERCOM
Budget Justification

Источник 67

Google Cloud –
Cybersecurity forecast

Источник 68

Gartner – Generative AI
attack survey
(Sep 22 2025)

Источник 69

Splashtop – Top
cybersecurity trends
and predictions
for 2026

Источник 70

ENISA – Threat
Landscape 2024