Статистика кибербезопасности:
методология и источники
Назначение этой страницы
Эта страница содержит пояснения о сборе, обработке и интерпретации данных со страницы «Статистика кибербезопасности», и об используемых источниках данных. На главной странице «Статистика кибербезопасности» представлены обобщенные результаты и выводы исследований NordVPN.
Источники данных и указание авторства
Поиск источников осуществляется через интерфейс системы пользовательского поиска Google (GCS) с использованием нескольких настраиваемых поисковых систем (CSE), настроенных на поиск:
СМИ — 44 ведущих СМИ и технологических издания (включая BBC, CNN, The New York Times, WSJ, FT, Reuters, Bloomberg, TechCrunch, Wired, Ars Technica, Time, Forbes);
авторитетных/справочных сайтов — 25 отраслевых и экспертных источников (включая CISA, KrebsOnSecurity, The Hacker News, Dark Reading, BleepingComputer, SecurityWeek, Infosecurity Magazine);
местных новостей — более 100 региональных и национальных изданий в Азиатско-Тихоокеанском регионе, Европе, на Ближнем Востоке и в Африке, в Северной и Южной Америке (включая Channel NewsAsia, CSA.gov.sg, Zaobao; HK01, unwire.hk; Japan Times, NISC, JPCERT, ITMedia);
сведений общего характера/без ограничений.
Запросы формируются на основе ключевых слов из постоянно обновляемого списка, где термины сгруппированы по категориям.
Все записи содержат четкое указание авторства и источника:
ссылку на оригинальную статью
СМИ (домен, извлеченный из URL)
дату публикации и дату сбора
Для статистических расчетов и агрегирования событий мы обобщаем информацию из множества источников; каждая статистическая величина рассчитывается на основе данных из отдельных статей со ссылками на первоисточник.
Частота извлечения и сбора контента
Полнотекстовый контент из обнаруженных ссылок извлекается с помощью:
NewsPlease (основной вариант)
прямого скачивания HTML с укрепленной сессией запросов и извлечения с помощью Trafilatura (резервный вариант).
Для уменьшения числа временных сбоев применяются таймауты, повторные попытки, резервные варианты TLS и заголовки Referer.
Дата публикации и название берутся из экстрактора, если они доступны; анализ даты приводится к формату, содержащему только дату.
Ежедневные запросы обращаются к контенту за 1 последний день.
Извлечение признаков
Извлеченные поля включают:
СМИ (из URL)
Первый абзац (первые 3–5 предложений)
Характеристики ключевых слов: общее количество в тексте, наличие в заголовке, предложения с базовыми ключевыми словами и наличие любых ключевых слов из поддерживаемого списка
Количество слов
Оценка релевантности LLM
Каждая статья оценивается LLM с детерминированной настройкой (температура 0) и ограниченным промптом с запросом на явные структурированные результаты:
1. Имеет ли статья отношение к киберсобытиям
2. Если имеет, назначается тип события высокого уровня:
Инцидент: уже произошедшая подтвержденная кибератака или утечка данных (например, запуск программы-вымогателя, кража данных, DDoS-атака, компрометация системы).
Уязвимость: выявление или раскрытие дефекта безопасности в программном обеспечении/оборудовании/системах, который может быть использован (потенциальный риск, а не подтвержденное использование).
Разведка угроз: отчетность о субъектах угроз, инструментах, тактике, методах и стратегиях (TTP) и кампаниях (фокус на определении «кто и как», а не на конкретном инциденте с жертвой).
Нормативно-правовая база: законы, нормативные акты, правоприменительные меры, судебные решения или важные изменения политик, влияющие на обязательства в области кибербезопасности.
Типы и категоризация статей
Релевантные статьи классифицируются с помощью структурированных таксономических промптов (основные: статус атаки, тип события, нормативные/правовые аспекты; второстепенные: метрики/класс воздействия, технические детали, секторы, география, масштаб, приблизительный ущерб).
Кластеризация событий (агрегация статей по событиям)
Цель: сгруппировать статьи, описывающие один и тот же исходный инцидент, в одно «событие».
Метод:
Извлечь из базы данных существующие события для предоставления контекста (названия, известные затронутые организации, субъекты угроз, ссылки).
Для каждой статьи-кандидата (где тип статьи = одиночный инцидент) LLM сравнивает детали статьи с наборами существующих событий и:
1. либо присваивает идентификатор существующего события при наличии совпадения с высокой степенью достоверности,
2. либо создает новое событие.
Промпты подчеркивают высокую точность: ссылка на существующее событие ставится только при высокой степени уверенности. Затронутые организации и сигналы субъектов угроз считаются надежными индикаторами.
События содержат агрегированные поля: даты первого/последнего просмотра, количество статей, затронутые организации, субъекты угроз, заголовки, ссылки.
Обеспечение точности и качества
Детерминизм и ограничения:
Температура LLM установлена на 0, чтобы максимизировать детерминизм и снизить галлюцинации.
Ограниченные промпты требуют конкретных полей и вывода в формате JSON; при парсинге соблюдается схема.
Статьи без контента (без заголовка/текста) отклоняются на раннем этапе.
Метрики, управляемые LLM и проверяемые на соответствие схеме:
Все поля метрик создаются с помощью детерминированных прогонов LLM (температура 0) в соответствии со строгими задокументированными руководствами и схемами JSON; учитываются только результаты, соответствующие схеме, с периодическим контролем качества специалистами для калибровки и предотвращения дрейфа.
Классификация событий/статей для точной фильтрации:
Классификация по типу события и тематике статьи служит строгим фильтром релевантности, отсеивающим не относящийся к теме, малоинформативный или обзорный контент. Такая ориентация на отчетность по отдельным инцидентам снижает уровень шума и заметно повышает точность и достоверность набора данных.
Проверка по нескольким источникам:
Кластеризация событий ссылается на ранее сохраненный контекст событий; несоответствия снижают вероятность неправильного объединения.
Агрегации включают список исходных ссылок по каждому событию для ручной проверки.
Участие человека:
Случаи с высоким уровнем влияния или неоднозначностью могут быть помечены для редакционной оценки и проверки фактов.
Регулярные проверки качества: отобранные статьи и события проверяются ежемесячно с применением точного анализа; любое отклонение приводит к корректировке промптов/моделей или ключевых слов.
Прослеживаемость:
Для обеспечения возможности аудита каждый статистический показатель может быть отслежен до статей и ссылок, содержащихся в базе данных.
Ограничения
Ограничения охвата:
Обнаружение на основе GCS зависит от ключевых слов и конфигураций CSE; фиксируются не все инциденты, особенно если речь идет о языках, не включенных в настройки, или платном контенте.
Некоторые сайты блокируют автоматическое извлечение; такие статьи могут частично или полностью отсутствовать.
Риски, связанные с LLM:
Использование детерминированных настроек и структурированных промптов не исключает вероятность ошибок классификации, особенно при работе с небольшими текстами или неоднозначными формулировками.
При кластеризации событий один и тот же инцидент может быть разбит на несколько событий или, в крайних случаях, объединен с похожими, но отдельными инцидентами.
Как вычисляются статистические данные
Поля на уровне статьи получают путем прямого извлечения и результатов LLM (сохраняются для каждой записи).
Метрики на уровне событий агрегируют составляющие статьи по event_id:
количество статей, даты первого/последнего просмотра
затронутые организации и субъекты угроз после удаления дубликатов
репрезентативные заголовки и списки канонических ссылок
Статистика отчетов извлекается из этих сохраненных таблиц; каждый показатель может быть прослежен до строк событий и соответствующих записей статей.
Объем данных
Статистические и аналитические данные, упоминаемые в наших материалах по кибербезопасности, получены из следующих источников:
Общедоступные отчеты об инцидентах в сфере кибербезопасности
Освещение подтвержденных киберинцидентов в СМИ
Отраслевые отчеты и исследования
Информация, раскрытая в соответствии с нормативными требованиями
Эти данные отражают общедоступные сведения и зарегистрированные действия, а не полную картину всех киберинцидентов, происходящих в мире. Многие киберсобытия никогда не раскрываются и не освещаются СМИ.
Источники данных и поиск информации
Типы источников
Статьи и отчеты по кибербезопасности собираются из разных источников, включая следующие:
Ведущие и технологические СМИ.
К ним относятся крупные международные новостные организации и технологические издания.Авторитетные и экспертные источники по кибербезопасности,
включая государственные учреждения, исследовательские организации в области кибербезопасности и авторитетные отраслевые издания.Региональные и местные новостные агентства,
освещающие инциденты в сфере кибербезопасности в Северной Америке, Европе, Азиатско-Тихоокеанском и других регионах.Отраслевые и исследовательские отчеты,
включая ежегодные отчеты об утечках, отчеты о ландшафте угроз, опросы и данные экономического анализа.
Каждый источник указывается на уровне статьи или отчета с сохранением даты публикации, названия издания и исходного URL-адреса.
Процесс обнаружения
Обнаружение контента осуществляется с помощью автоматических поисковых запросов на основе обновляемого списка ключевых слов по кибербезопасности. Ключевые слова сгруппированы по темам (например: утечки данных, программы-вымогатели, фишинг, уязвимости, регулирование).
Поиск проводится ежедневно для охвата свежеопубликованного контента. При каждом запуске запрашиваются только последние данные, чтобы набор данных отражал текущую отчетность.
Сбор и обработка контента
Извлечение статей
После обнаружения источника полный текст статьи извлекается с помощью средств автоматического извлечения. Если первичное извлечение не удается, используются резервные методы для обеспечения надежного охвата.
Дедупликация
Для избежания двойного подсчета используется:
Одинаковые URL-адреса обрабатываются только один раз
Повторно опубликованный или синдицированный контент дедуплицируется на уровне статьи
Агрегация на уровне событий (описанная ниже) дополнительно сокращает дублирование по источникам
Фильтрация и классификация по релевантности
Оценка актуальности для кибербезопасности
Каждая статья оценивается на релевантность для статистики кибербезопасности. Статьи должны содержательно описывать или анализировать событие, угрозу, уязвимость или регуляторные меры в сфере кибербезопасности.
Классификация типов событий
Релевантные статьи классифицируются по основным категориям, включая следующие:
Инцидент — уже произошедшая подтвержденная кибератака или утечка данных
Уязвимость — раскрытие слабого места в системе безопасности, которое может быть использовано
Разведка угроз — отчетность о субъектах, инструментах, кампаниях и методах угроз
Нормативно-правовое регулирование — законы, правоприменительные меры, изменения в политиках и судебные разбирательства, связанные с кибербезопасностью
Такая классификация гарантирует, что статистика, относящаяся к «инцидентам», «утечкам» или «атакам», не будет объединена с раскрытием уязвимостей или общими комментариями.
Кластеризация событий (агрегация статей по событиям)
Один и тот же киберинцидент часто освещается в нескольких статьях. Чтобы избежать двойного подсчета:
Статьи, описывающие один и тот же инцидент, группируются в одно событие
Событиям присваиваются стабильные внутренние идентификаторы
Статьи связываются с существующими событиями только при наличии высокой уверенности в том, что они описывают одно и то же событие
В индикаторы, используемые для кластеризации, включены затронутые организации, субъекты угроз, временные рамки и описания инцидентов.
Записи на уровне события содержат следующее:
Даты первого и последнего появления
Количество связанных статей
Затронутые организации
Упомянутые субъекты угроз
Ссылки на источники для проверки
Использование автоматизированного анализа и контроля качества
Автоматизированная классификация
Для классификации, извлечения и агрегации используется структурированный детерминированный анализ языковых моделей. Все автоматизированные результаты соответствуют предопределенным схемам, что обеспечивает их согласованность.
Модели работают с детерминированными настройками для снижения вариативности и риска галлюцинаций.
Контроль качества
Для обеспечения точности:
Валидация схемы гарантирует рассмотрение только правильно структурированных результатов
Для выявления дрейфа классификации проводятся регулярные ежемесячные выборки и проверки, включая проверку точности. Такая проверка выявляет изменения в классификации, которые служат основанием для последующей корректировки модели.
Случаи с высоким уровнем влияния или неоднозначностью помечаются для проверки специалистом
Агрегированные статистические данные сохраняют возможность прослеживания до отдельных статей и событий
Как рассчитываются статистические данные
Метрики на уровне статьи и на уровне события
Основой для некоторых статистических данных служат:
Подсчеты на уровне статей (например, объем освещения в СМИ)
Подсчеты на уровне события (например, количество отдельных утечек или инцидентов)
В соответствующих случаях предпочтение отдается метрикам на уровне событий для минимизации дублирования.
Интерпретация количества и частоты
Такие статистические показатели, как «количество инцидентов в день» или «количество утечек в год», отражают зарегистрированные действия или освещенные в СМИ события, а не общемировую активность.
Телеметрия поставщиков, государственные системы рассмотрения жалоб и экономические прогнозы часто показывают значительно более высокие объемы из-за различий в охвате и методологии. Эти различия отмечаются там, где имеют значение.
Ограничения и соображения
Наряду с применением мер для обеспечения точности и согласованности данных следует отметить присущие им ограничения:
Не все инциденты освещаются публично и фиксируются в отчетах
Освещение в СМИ зависит от региона, сектора и масштаба инцидента
Доступ к некоторым источникам ограничен
В крайних случаях возможны ошибки классификации
Показатели экономических потерь по мере продвижения расследований могут изменяться
В связи с этим статистические данные следует интерпретировать как индикаторы направления, а не исчерпывающие измерения.
Индексы источников
Каждый пронумерованный источник ниже соответствует ссылке в виде надстрочного индекса, используемой на странице «Статистика кибербезопасности». Надстрочные индексы ведут непосредственно к соответствующим записям источников на этой странице.
Источник 1 Statista – |
|---|
Источник 2 Identity Theft |
Источник 3 Identity Theft |
Источник 4 Verizon – |
Источник 5 IBM – |
Источник 6 South Korean |
Источник 7 Aflac – June |
Источник 8 HIPAA Journal – |
Источник 9 California Attorney |
Источник 10 Iowa Attorney |
Источник 11 Rhode Island |
Источник 12 Rhode Island |
Источник 13 Aflac Newsroom – |
Источник 14 HIPAA Journal – |
Источник 15 Office of the |
Источник 16 Qantas – Information |
Источник 17 Qantas Newsroom – |
Источник 18 Michigan Attorney |
Источник 19 Maine Attorney |
Источник 20 California Attorney |
Источник 21 University of |
Источник 22 Microsoft Digital |
Источник 23 WIRED – NotPetya |
Источник 24 Reuters – UnitedHealth |
Источник 25 The Guardian – Jaguar |
Источник 26 NBC News – |
Источник 27 Delaware Department |
Источник 28 Cybersecurity |
Источник 29 JumpCloud – Phishing |
Источник 30 Hornetsecurity – Email |
Источник 31 Spearshield – |
Источник 32 APWG – Phishing |
Источник 33 arXiv – Academic |
Источник 34 DeepStrike – Password |
Источник 35 NordPass – Top 200 |
Источник 36 Financial Times – |
Источник 37 SecurityScorecard – |
Источник 38 National Technology & |
Источник 39 Palo Alto Networks – |
Источник 40 IBM – Threat |
Источник 41 Tenable – |
Источник 42 Cybersecurity |
Источник 43 Statista Market |
Источник 44 Statista – Cost of |
Источник 45 FTC – Consumer |
Источник 46 FBI IC3 – 2024 Internet |
Источник 47 Kroll – Data Breach |
Источник 48 IBM – Cost of a Data |
Источник 49 SailPoint – 2024 |
Источник 50 DeepStrike – |
Источник 51 Proofpoint & |
Источник 52 Check Point – |
Источник 53 Thales – 2024 |
Источник 54 Cyfirma – Energy & |
Источник 55 World Economic |
Источник 56 DeepStrike – Cyber |
Источник 57 Devolutions – State of |
Источник 58 TotalAssure – |
Источник 59 Cisco – Cybersecurity |
Источник 60 IANS Research – |
Источник 61 Munich Re – |
Источник 62 Gartner – 2025 |
Источник 63 Forrester – 2024 |
Источник 64 Ivanti – State of |
Источник 65 U.S. Department of |
Источник 66 U.S. Department of |
Источник 67 Google Cloud – |
Источник 68 Gartner – Generative AI |
Источник 69 Splashtop – Top |
Источник 70 ENISA – Threat |