Статистика кибербезопасности:
методология и источники

Назначение этой страницы

Эта страница содержит пояснения о сборе, обработке и интерпретации данных со страницы «Статистика кибербезопасности», и об используемых источниках данных. На главной странице «Статистика кибербезопасности» представлены обобщенные результаты и выводы исследований NordVPN.

Источники данных и указание авторства

Поиск источников осуществляется через интерфейс системы пользовательского поиска Google (GCS) с использованием нескольких настраиваемых поисковых систем (CSE), настроенных на поиск:

СМИ — 44 ведущих СМИ и технологических издания (включая BBC, CNN, The New York Times, WSJ, FT, Reuters, Bloomberg, TechCrunch, Wired, Ars Technica, Time, Forbes);
авторитетных/справочных сайтов — 25 отраслевых и экспертных источников (включая CISA, KrebsOnSecurity, The Hacker News, Dark Reading, BleepingComputer, SecurityWeek, Infosecurity Magazine);
местных новостей — более 100 региональных и национальных изданий в Азиатско-Тихоокеанском регионе, Европе, на Ближнем Востоке и в Африке, в Северной и Южной Америке (включая Channel NewsAsia, CSA.gov.sg, Zaobao; HK01, unwire.hk; Japan Times, NISC, JPCERT, ITMedia);
сведений общего характера/без ограничений.

Запросы формируются на основе ключевых слов из постоянно обновляемого списка, где термины сгруппированы по категориям.

Все записи содержат четкое указание авторства и источника:

ссылку на оригинальную статью
СМИ (домен, извлеченный из URL)
дату публикации и дату сбора

Для статистических расчетов и агрегирования событий мы обобщаем информацию из множества источников; каждая статистическая величина рассчитывается на основе данных из отдельных статей со ссылками на первоисточник.

Частота извлечения и сбора контента

Полнотекстовый контент из обнаруженных ссылок извлекается с помощью:

NewsPlease (основной вариант)
прямого скачивания HTML с укрепленной сессией запросов и извлечения с помощью Trafilatura (резервный вариант).

Для уменьшения числа временных сбоев применяются таймауты, повторные попытки, резервные варианты TLS и заголовки Referer.

Дата публикации и название берутся из экстрактора, если они доступны; анализ даты приводится к формату, содержащему только дату.

Ежедневные запросы обращаются к контенту за 1 последний день.

Извлечение признаков

Извлеченные поля включают:

СМИ (из URL)
Первый абзац (первые 3–5 предложений)
Характеристики ключевых слов: общее количество в тексте, наличие в заголовке, предложения с базовыми ключевыми словами и наличие любых ключевых слов из поддерживаемого списка
Количество слов

Оценка релевантности LLM

Каждая статья оценивается LLM с детерминированной настройкой (температура 0) и ограниченным промптом с запросом на явные структурированные результаты:

1. Имеет ли статья отношение к киберсобытиям

2. Если имеет, назначается тип события высокого уровня:

Инцидент: уже произошедшая подтвержденная кибератака или утечка данных (например, запуск программы-вымогателя, кража данных, DDoS-атака, компрометация системы).
Уязвимость: выявление или раскрытие дефекта безопасности в программном обеспечении/оборудовании/системах, который может быть использован (потенциальный риск, а не подтвержденное использование).
Разведка угроз: отчетность о субъектах угроз, инструментах, тактике, методах и стратегиях (TTP) и кампаниях (фокус на определении «кто и как», а не на конкретном инциденте с жертвой).
Нормативно-правовая база: законы, нормативные акты, правоприменительные меры, судебные решения или важные изменения политик, влияющие на обязательства в области кибербезопасности.

Типы и категоризация статей

Релевантные статьи классифицируются с помощью структурированных таксономических промптов (основные: статус атаки, тип события, нормативные/правовые аспекты; второстепенные: метрики/класс воздействия, технические детали, секторы, география, масштаб, приблизительный ущерб).

Кластеризация событий (агрегация статей по событиям)

Цель: сгруппировать статьи, описывающие один и тот же исходный инцидент, в одно «событие».

Метод:

Извлечь из базы данных существующие события для предоставления контекста (названия, известные затронутые организации, субъекты угроз, ссылки).
Для каждой статьи-кандидата (где тип статьи = одиночный инцидент) LLM сравнивает детали статьи с наборами существующих событий и:

1. либо присваивает идентификатор существующего события при наличии совпадения с высокой степенью достоверности,

2. либо создает новое событие.

Промпты подчеркивают высокую точность: ссылка на существующее событие ставится только при высокой степени уверенности. Затронутые организации и сигналы субъектов угроз считаются надежными индикаторами.

События содержат агрегированные поля: даты первого/последнего просмотра, количество статей, затронутые организации, субъекты угроз, заголовки, ссылки.

Обеспечение точности и качества

Детерминизм и ограничения:

Температура LLM установлена на 0, чтобы максимизировать детерминизм и снизить галлюцинации.
Ограниченные промпты требуют конкретных полей и вывода в формате JSON; при парсинге соблюдается схема.
Статьи без контента (без заголовка/текста) отклоняются на раннем этапе.

Метрики, управляемые LLM и проверяемые на соответствие схеме:

Все поля метрик создаются с помощью детерминированных прогонов LLM (температура 0) в соответствии со строгими задокументированными руководствами и схемами JSON; учитываются только результаты, соответствующие схеме, с периодическим контролем качества специалистами для калибровки и предотвращения дрейфа.

Классификация событий/статей для точной фильтрации:

Классификация по типу события и тематике статьи служит строгим фильтром релевантности, отсеивающим не относящийся к теме, малоинформативный или обзорный контент. Такая ориентация на отчетность по отдельным инцидентам снижает уровень шума и заметно повышает точность и достоверность набора данных.

Проверка по нескольким источникам:

Кластеризация событий ссылается на ранее сохраненный контекст событий; несоответствия снижают вероятность неправильного объединения.
Агрегации включают список исходных ссылок по каждому событию для ручной проверки.

Участие человека:

Случаи с высоким уровнем влияния или неоднозначностью могут быть помечены для редакционной оценки и проверки фактов.
Регулярные проверки качества: отобранные статьи и события проверяются ежемесячно с применением точного анализа; любое отклонение приводит к корректировке промптов/моделей или ключевых слов.

Прослеживаемость:

Для обеспечения возможности аудита каждый статистический показатель может быть отслежен до статей и ссылок, содержащихся в базе данных.

Ограничения

Ограничения охвата:

Обнаружение на основе GCS зависит от ключевых слов и конфигураций CSE; фиксируются не все инциденты, особенно если речь идет о языках, не включенных в настройки, или платном контенте.
Некоторые сайты блокируют автоматическое извлечение; такие статьи могут частично или полностью отсутствовать.

Риски, связанные с LLM:

Использование детерминированных настроек и структурированных промптов не исключает вероятность ошибок классификации, особенно при работе с небольшими текстами или неоднозначными формулировками.
При кластеризации событий один и тот же инцидент может быть разбит на несколько событий или, в крайних случаях, объединен с похожими, но отдельными инцидентами.

Как вычисляются статистические данные

Поля на уровне статьи получают путем прямого извлечения и результатов LLM (сохраняются для каждой записи).

Метрики на уровне событий агрегируют составляющие статьи по event_id:

количество статей, даты первого/последнего просмотра
затронутые организации и субъекты угроз после удаления дубликатов
репрезентативные заголовки и списки канонических ссылок

Статистика отчетов извлекается из этих сохраненных таблиц; каждый показатель может быть прослежен до строк событий и соответствующих записей статей.

Объем данных

Статистические и аналитические данные, упоминаемые в наших материалах по кибербезопасности, получены из следующих источников:

Общедоступные отчеты об инцидентах в сфере кибербезопасности
Освещение подтвержденных киберинцидентов в СМИ
Отраслевые отчеты и исследования
Информация, раскрытая в соответствии с нормативными требованиями

Эти данные отражают общедоступные сведения и зарегистрированные действия, а не полную картину всех киберинцидентов, происходящих в мире. Многие киберсобытия никогда не раскрываются и не освещаются СМИ.

Источники данных и поиск информации

Типы источников

Статьи и отчеты по кибербезопасности собираются из разных источников, включая следующие:

Ведущие и технологические СМИ.
К ним относятся крупные международные новостные организации и технологические издания.
Авторитетные и экспертные источники по кибербезопасности,
включая государственные учреждения, исследовательские организации в области кибербезопасности и авторитетные отраслевые издания.
Региональные и местные новостные агентства,
освещающие инциденты в сфере кибербезопасности в Северной Америке, Европе, Азиатско-Тихоокеанском и других регионах.
Отраслевые и исследовательские отчеты,
включая ежегодные отчеты об утечках, отчеты о ландшафте угроз, опросы и данные экономического анализа.

Каждый источник указывается на уровне статьи или отчета с сохранением даты публикации, названия издания и исходного URL-адреса.

Процесс обнаружения

Обнаружение контента осуществляется с помощью автоматических поисковых запросов на основе обновляемого списка ключевых слов по кибербезопасности. Ключевые слова сгруппированы по темам (например: утечки данных, программы-вымогатели, фишинг, уязвимости, регулирование).

Поиск проводится ежедневно для охвата свежеопубликованного контента. При каждом запуске запрашиваются только последние данные, чтобы набор данных отражал текущую отчетность.

Сбор и обработка контента

Извлечение статей

После обнаружения источника полный текст статьи извлекается с помощью средств автоматического извлечения. Если первичное извлечение не удается, используются резервные методы для обеспечения надежного охвата.

Дедупликация

Для избежания двойного подсчета используется:

Одинаковые URL-адреса обрабатываются только один раз
Повторно опубликованный или синдицированный контент дедуплицируется на уровне статьи
Агрегация на уровне событий (описанная ниже) дополнительно сокращает дублирование по источникам

Фильтрация и классификация по релевантности

Оценка актуальности для кибербезопасности

Каждая статья оценивается на релевантность для статистики кибербезопасности. Статьи должны содержательно описывать или анализировать событие, угрозу, уязвимость или регуляторные меры в сфере кибербезопасности.

Классификация типов событий

Релевантные статьи классифицируются по основным категориям, включая следующие:

Инцидент — уже произошедшая подтвержденная кибератака или утечка данных
Уязвимость — раскрытие слабого места в системе безопасности, которое может быть использовано
Разведка угроз — отчетность о субъектах, инструментах, кампаниях и методах угроз
Нормативно-правовое регулирование — законы, правоприменительные меры, изменения в политиках и судебные разбирательства, связанные с кибербезопасностью

Такая классификация гарантирует, что статистика, относящаяся к «инцидентам», «утечкам» или «атакам», не будет объединена с раскрытием уязвимостей или общими комментариями.

Кластеризация событий (агрегация статей по событиям)

Один и тот же киберинцидент часто освещается в нескольких статьях. Чтобы избежать двойного подсчета:

Статьи, описывающие один и тот же инцидент, группируются в одно событие
Событиям присваиваются стабильные внутренние идентификаторы
Статьи связываются с существующими событиями только при наличии высокой уверенности в том, что они описывают одно и то же событие

В индикаторы, используемые для кластеризации, включены затронутые организации, субъекты угроз, временные рамки и описания инцидентов.

Записи на уровне события содержат следующее:

Даты первого и последнего появления
Количество связанных статей
Затронутые организации
Упомянутые субъекты угроз
Ссылки на источники для проверки

Использование автоматизированного анализа и контроля качества

Автоматизированная классификация

Для классификации, извлечения и агрегации используется структурированный детерминированный анализ языковых моделей. Все автоматизированные результаты соответствуют предопределенным схемам, что обеспечивает их согласованность.

Модели работают с детерминированными настройками для снижения вариативности и риска галлюцинаций.

Контроль качества

Для обеспечения точности:

Валидация схемы гарантирует рассмотрение только правильно структурированных результатов
Для выявления дрейфа классификации проводятся регулярные ежемесячные выборки и проверки, включая проверку точности. Такая проверка выявляет изменения в классификации, которые служат основанием для последующей корректировки модели.
Случаи с высоким уровнем влияния или неоднозначностью помечаются для проверки специалистом
Агрегированные статистические данные сохраняют возможность прослеживания до отдельных статей и событий

Как рассчитываются статистические данные

Метрики на уровне статьи и на уровне события

Основой для некоторых статистических данных служат:

Подсчеты на уровне статей (например, объем освещения в СМИ)
Подсчеты на уровне события (например, количество отдельных утечек или инцидентов)

В соответствующих случаях предпочтение отдается метрикам на уровне событий для минимизации дублирования.

Интерпретация количества и частоты

Такие статистические показатели, как «количество инцидентов в день» или «количество утечек в год», отражают зарегистрированные действия или освещенные в СМИ события, а не общемировую активность.

Телеметрия поставщиков, государственные системы рассмотрения жалоб и экономические прогнозы часто показывают значительно более высокие объемы из-за различий в охвате и методологии. Эти различия отмечаются там, где имеют значение.

Ограничения и соображения

Наряду с применением мер для обеспечения точности и согласованности данных следует отметить присущие им ограничения:

Не все инциденты освещаются публично и фиксируются в отчетах
Освещение в СМИ зависит от региона, сектора и масштаба инцидента
Доступ к некоторым источникам ограничен
В крайних случаях возможны ошибки классификации
Показатели экономических потерь по мере продвижения расследований могут изменяться

В связи с этим статистические данные следует интерпретировать как индикаторы направления, а не исчерпывающие измерения.

Индексы источников

Каждый пронумерованный источник ниже соответствует ссылке в виде надстрочного индекса, используемой на странице «Статистика кибербезопасности». Надстрочные индексы ведут непосредственно к соответствующим записям источников на этой странице.

Источник ¹ Statista – Cybercrime worldwide Ссылка⁠‌
Источник ² Identity Theft Resource Center (ITRC) – Weekly Breach Breakdown Q3 2025 Ссылка⁠‌
Источник ³ Identity Theft Resource Center (ITRC) – H1 2025 Data Breach Analysis Ссылка⁠‌
Источник ⁴ Verizon – Data Breach Investigations Report (DBIR) 2025 Ссылка⁠‌
Источник ⁵ IBM – Cost of a Data Breach Report 2025 Ссылка⁠‌
Источник ⁶ South Korean Ministry of Science and ICT – SK Telecom data exfiltration incident Ссылка⁠‌
Источник ⁷ Aflac – June 2025 security incident regulatory filing Ссылка⁠‌
Источник ⁸ HIPAA Journal – Largest healthcare data breaches of 2025 Ссылка⁠‌
Источник ⁹ California Attorney General – Aflac breach report (SB24-616010) Ссылка⁠‌
Источник ¹⁰ Iowa Attorney General – Aflac data breach notification Ссылка⁠‌
Источник ¹¹ Rhode Island Attorney General – Data‑breach notifications Ссылка⁠‌
Источник ¹² Rhode Island AG – Data‑breach notification Ссылка⁠‌
Источник ¹³ Aflac Newsroom – June 2025 security incident update Ссылка⁠‌
Источник ¹⁴ HIPAA Journal – Aflac data breach article Ссылка⁠‌
Источник ¹⁵ Office of the Australian Information Commissioner – Statement on Qantas cyber incident Ссылка⁠‌
Источник ¹⁶ Qantas – Information for customers on cyber incident Ссылка⁠‌
Источник ¹⁷ Qantas Newsroom – Update on Qantas cyber incident (9 July 2025) Ссылка⁠‌
Источник ¹⁸ Michigan Attorney General – Consumer alert on data breaches (TransUnion) Ссылка⁠‌
Источник ¹⁹ Maine Attorney General – Allianz Life cyber incident notice Ссылка⁠‌
Источник ²⁰ California Attorney General – Allianz data breach report (SB24-612078) Ссылка⁠‌
Источник ²¹ University of Maryland – Cyber Security Statistics Ссылка⁠‌
Источник ²² Microsoft Digital Defense Report 2023 Ссылка⁠‌
Источник ²³ WIRED – NotPetya cyberattack article Ссылка⁠‌
Источник ²⁴ Reuters – UnitedHealth tech unit hack article Ссылка⁠‌
Источник ²⁵ The Guardian – Jaguar Land Rover hack article Ссылка⁠‌
Источник ²⁶ NBC News – MGM Resorts cyberattack cost article Ссылка⁠‌
Источник ²⁷ Delaware Department of Technology & Information – eSecurityNews (Oct 2023) Ссылка⁠‌
Источник ²⁸ Cybersecurity Ventures – Global ransomware damage cost projection Ссылка⁠‌
Источник ²⁹ JumpCloud – Phishing attack statistics Ссылка⁠‌
Источник ³⁰ Hornetsecurity – Email threats in 2024 Ссылка⁠‌
Источник ³¹ Spearshield – Click‑to‑credential phishing study Ссылка⁠‌
Источник ³² APWG – Phishing Activity Trends Reports Ссылка⁠‌
Источник ³³ arXiv – Academic password/credential research (2025) Ссылка⁠‌
Источник ³⁴ DeepStrike – Password statistics 2025 Ссылка⁠‌
Источник ³⁵ NordPass – Top 200 Most Common Passwords Ссылка⁠‌
Источник ³⁶ Financial Times – Supply‑chain cybersecurity article Ссылка⁠‌
Источник ³⁷ SecurityScorecard – 2025 Supply Chain Cybersecurity Trends Ссылка⁠‌
Источник ³⁸ National Technology & Security Coalition – 2025 Software Supply Chain Security Report Ссылка⁠‌
Источник ³⁹ Palo Alto Networks – State of Cloud Native Security Ссылка⁠‌
Источник ⁴⁰ IBM – Threat Intelligence Report Ссылка⁠‌
Источник ⁴¹ Tenable – Cloud Security Risk Report 2025 Ссылка⁠‌
Источник ⁴² Cybersecurity Ventures – Cybersecurity Cost Report Ссылка⁠‌
Источник ⁴³ Statista Market Insights – Estimated cost of cybercrime worldwide 2018‑2029 (ResearchGate) Ссылка⁠‌
Источник ⁴⁴ Statista – Cost of cybercrime worldwide forecast Ссылка⁠‌
Источник ⁴⁵ FTC – Consumer Sentinel Network Data Book 2024 Ссылка⁠‌
Источник ⁴⁶ FBI IC3 – 2024 Internet Crime Report Ссылка⁠‌
Источник ⁴⁷ Kroll – Data Breach Outlook 2025 Ссылка⁠‌
Источник ⁴⁸ IBM – Cost of a Data Breach 2024: Financial Industry Ссылка⁠‌
Источник ⁴⁹ SailPoint – 2024 State of Identity Security in Financial Services Ссылка⁠‌
Источник ⁵⁰ DeepStrike – Healthcare data breach statistics 2025 Ссылка⁠‌
Источник ⁵¹ Proofpoint & Ponemon – Healthcare Cybersecurity Report Ссылка⁠‌
Источник ⁵² Check Point – Cyber Security Report 2025 Ссылка⁠‌
Источник ⁵³ Thales – 2024 Data Threat Report: Critical Infrastructure Edition Ссылка⁠‌
Источник ⁵⁴ Cyfirma – Energy & Utilities industry report Ссылка⁠‌
Источник ⁵⁵ World Economic Forum – Global Cybersecurity Outlook 2025 Ссылка⁠‌
Источник ⁵⁶ DeepStrike – Cyber attacks on small businesses Ссылка⁠‌
Источник ⁵⁷ Devolutions – State of IT Security Report 2025 Ссылка⁠‌
Источник ⁵⁸ TotalAssure – Small business cybersecurity statistics 2025 Ссылка⁠‌
Источник ⁵⁹ Cisco – Cybersecurity Readiness Index 2025 Ссылка⁠‌
Источник ⁶⁰ IANS Research – Security budgets press release (2024) Ссылка⁠‌
Источник ⁶¹ Munich Re – Cyber insurance risks and trends 2025 Ссылка⁠‌
Источник ⁶² Gartner – 2025 information security spending forecast Ссылка⁠‌
Источник ⁶³ Forrester – 2024 Cybersecurity Benchmarks (Global) Ссылка⁠‌
Источник ⁶⁴ Ivanti – State of Cybersecurity Report Ссылка⁠‌
Источник ⁶⁵ U.S. Department of Homeland Security – FY 2025 Budget in Brief Ссылка⁠‌
Источник ⁶⁶ U.S. Department of Defense – CYBERCOM Budget Justification Ссылка⁠‌
Источник ⁶⁷ Google Cloud – Cybersecurity forecast Ссылка⁠‌
Источник ⁶⁸ Gartner – Generative AI attack survey (Sep 22 2025) Ссылка⁠‌
Источник ⁶⁹ Splashtop – Top cybersecurity trends and predictions for 2026 Ссылка⁠‌
Источник ⁷⁰ ENISA – Threat Landscape 2024 Ссылка⁠‌

Статистика кибербезопасности: методология и источники

Назначение этой страницы

Объем данных

Источники данных и поиск информации

Типы источников

Процесс обнаружения

Сбор и обработка контента

Извлечение статей

Дедупликация

Фильтрация и классификация по релевантности

Оценка актуальности для кибербезопасности

Классификация типов событий

Кластеризация событий (агрегация статей по событиям)

Использование автоматизированного анализа и контроля качества

Автоматизированная классификация

Контроль качества

Как рассчитываются статистические данные

Метрики на уровне статьи и на уровне события

Интерпретация количества и частоты

Ограничения и соображения

Индексы источников

Статистика кибербезопасности:
методология и источники