Статистика кібербезпеки:
методологія та джерела

Призначення цієї сторінки

Ця сторінка містить пояснення щодо збору, обробки й інтерпретації даних зі сторінки «Статистика кібербезпеки», і щодо джерел даних, на які ми посилаємося. На головній сторінці «Статистика кібербезпеки» наведено узагальнені результати й висновки досліджень NordVPN.

Джерела даних і зазначення ​​авторства

Пошук джерел здійснюється через інтерфейс системи користувацького пошуку Google (GCS) з використанням декількох настроюваних пошукових систем (CSE), налаштованих на пошук:

  • ЗМІ: 44 провідні ЗМІ й технологічні видання (зокрема BBC, CNN, The New York Times, WSJ, FT, Reuters, Bloomberg, TechCrunch, Wired, Ars Technica, Time, Forbes).

  • авторитетних/довідкових сайтів: 25 галузевих і експертних джерел (зокрема CISA, KrebsOnSecurity, The Hacker News, Dark Reading, BleepingComputer, SecurityWeek, Infosecurity Magazine).

  • місцевих новин: понад 100 регіональних і національних ЗМІ в Азійсько-Тихоокеанському регіоні, Європі, Близькому Сході й Африці, а також в Північній і Південній Америці (зокрема Channel NewsAsia, CSA.gov.sg, Zaobao; HK01, unwire.hk; Japan Times, NISC, JPCERT, ITMedia).

  • вмісту загального характеру/без обмежень.

Запити формуються на основі ключових слів зі списку, що постійно оновлюється й групує терміни за категоріями.

В усіх записах чітко зазначене авторство:

  • Посилання на оригінальну статтю

  • ЗМІ (домен, виділений з URL-адреси)

  • Дата публікації й дата збору

Для статистичних розрахунків і агрегування подій ми узагальнюємо інформацію з багатьох джерел; кожна статистична величина розраховується з урахуванням даних з окремих статей із посиланнями на першоджерело.

Частота вибирання й збору вмісту

Повнотекстовий вміст із виявлених посилань отримується за допомогою:

  • NewsPlease (основний варіант)

  • прямого завантаження HTML з укріпленою сесією запитів і вилучення за допомогою Trafilatura (резервний варіант).

Для зменшення кількості тимчасових збоїв застосовуються таймаути, повторні спроби, резервні варіанти TLS і заголовки Referer.

Дата публікації й назва беруться з екстрактора, якщо вони доступні; аналіз дати доводиться до формату, що містить лише дату.

Щоденні запити стосуються вмісту за 1 останній день.

Вилучення ознак

Вилученими полями зокрема є:

  • ЗМІ (з URL)

  • Перший абзац (перші 3–5 речень)

  • Характеристики ключових слів: загальна кількість у тексті, наявність у заголовку, речення з базовими ключовими словами й наявність будь-яких ключових слів із підтримуваного списку

  • Кількість слів

Оцінка релевантності LLM

Кожна стаття оцінюється LLM з детермінованим налаштуванням (температура 0) і обмеженим промптом, що потребує чітких структурованих результатів:

1. Чи стосується стаття кіберподії

2. Якщо стосується, призначається тип події високого рівня:

  • Інцидент: підтверджена кібератака чи витік даних, що вже відбулися (наприклад, запуск програми-вимагача, крадіжка даних, DDoS-атака, компрометація системи).

  • Уразливість: виявлення чи розкриття недоліку безпеки у програмному забезпеченні/обладнанні/системах, що може бути використаний (потенційний ризик, а не підтверджене використання).

  • Розвідка загроз: звітність про суб'єктів загроз, інструменти, тактику, методи й стратегії (TTP) та кампанії (фокус на визначенні «хто та як», а не на конкретному інциденті з жертвою).

  • Нормативно-правова база: закони, нормативні акти, правозастосовні дії, судові рішення чи важливі зміни політик, що впливають на зобов'язання у сфері кібербезпеки.

Типи й категоризація статей

Релевантні статті класифікуються за допомогою структурованих таксономічних промптів (основні: статус атаки, тип події, нормативні/правові аспекти; другорядні: метрики/клас впливу, технічні відомості, сектори, географія, масштаб, приблизні збитки).

Кластеризація подій (агрегація статей за подіями)

Мета: згрупувати статті, що описують один і той самий вихідний інцидент, в одну «подію».

Метод:

  • Вибрати з бази даних наявні події для надання контексту (назви, відомі уражені організації, суб'єкти загроз, посилання).

  • Для кожної статті-кандидата (де тип статті = окремий інцидент) LLM порівнює деталі статті з наборами наявних подій і:

1. або надає ідентифікатор наявної події за наявності збігу з високим ступенем достовірності,

2. або створює нову подію.

  • Промпти підкреслюють високу точність: посилання на наявну подію ставиться тільки за умови високого рівня впевненості. Уражені організації й сигнали суб'єктів загроз вважаються надійними індикаторами.

Події містять агреговані поля: дати першого/останнього перегляду, кількість статей, уражені організації, суб'єкти загроз, заголовки, посилання.

Забезпечення точності та якості

Детермінізм і обмеження:

  • Температура LLM встановлена ​​на 0, щоб максимізувати детермінізм і знизити галюцинації.

  • Обмежені промпти вимагають конкретних полів і виведення у форматі JSON; парсинг здійснюється з дотриманням схеми.

  • Статті без вмісту (без заголовка/тексту) відхиляються на ранньому етапі.

Метрики, що керуються LLM і перевіряються на відповідність схемі:

  • Усі поля метрик створюються за допомогою детермінованих прогонів LLM (температура 0) відповідно до строгих задокументованих інструкцій і схем JSON; враховуються лише результати, що відповідають схемі, з періодичним контролем якості фахівцями для калібрування й запобігання дрейфу.

Класифікація подій/статей для точного фільтрування:

  • Класифікація за типом події й тематикою статті слугує суворим фільтром релевантності, що відсіює неактуальний, малоінформативний або оглядовий вміст. Така орієнтація на звітність про окремі інциденти знижує рівень шуму і помітно підвищує точність і достовірність набору даних.

Перевірка з використанням кількох джерел:

  • Кластеризація подій посилається на раніше збережений контекст; невідповідності знижують імовірність неправильного об'єднання.

  • Агрегації містять список вихідних посилань щодо кожної події для ручної перевірки.

Залучення людини:

  • Випадки з високим рівнем впливу чи неоднозначністю можуть позначатися для редакційного огляду й перевірки фактів.

  • Регулярні перевірки якості: відібрані статті й події перевіряються щомісяця зі застосуванням точного аналізу; будь-яке відхилення призводить до коригування промптів/моделей або ключових слів.

Простежуваність:

  • Для забезпечення можливості аудиту кожен статистичний показник може бути простежений до статей і посилань, що містяться у базі даних.

Обмеження

Обмеження покриття:

  • Виявлення на основі GCS залежить від ключових слів і конфігурацій CSE; фіксуються не всі інциденти, особливо якщо йдеться про мови, не включені в налаштування, або платний вміст.

  • Деякі сайти блокують автоматичне вибирання; такі статті можуть бути частково чи повністю відсутні.

Ризики, пов'язані з LLM:

  • Застосування детермінованих налаштувань і структурованих промптів не виключає ймовірності помилок класифікації, особливо під час роботи з невеликими текстами чи неоднозначними формулюваннями.

  • При кластеризації подій один і той самий інцидент може бути розбитий на кілька подій або, у крайніх випадках, об'єднаний зі схожими, але окремими інцидентами.

Як обчислюються статистичні дані

Поля на рівні статті отримують шляхом прямого вилучення і з результатів LLM (зберігаються для кожного запису).

Метрики на рівні подій агрегують складові статті за event_id:

  • кількість статей, дати першого/останнього перегляду

  • уражені організації й суб'єкти загроз після видалення дублікатів

  • репрезентативні заголовки й списки канонічних посилань

Статистика звітів отримується з цих збережених таблиць; кожен показник може бути простежений до рядків подій і відповідних записів статей.

Обсяг даних

Статистичні й аналітичні дані, згадані в наших матеріалах із кібербезпеки, отримуються з наступних джерел:

  • Загальнодоступні звіти про інциденти у сфері кібербезпеки

  • Висвітлення підтверджених кіберінцидентів у ЗМІ

  • Галузеві звіти й опитування

  • Інформація, розкрита відповідно до нормативних вимог

Ці дані відображають загальнодоступні відомості й зареєстровані дії, а не повну сукупність усіх кіберінцидентів у світі. Багато кіберподій ніколи не розкриваються й не висвітлюються ЗМІ.

Джерела й виявлення даних

Типи джерел

Статті та звіти з кібербезпеки збираються з різних джерел включно з наступними:

  • Провідні й технологічні ЗМІ.
    До них належать великі міжнародні новинні організації й технологічні видання.

  • Авторитетні та експертні джерела з кібербезпеки,
    зокрема державні установи, дослідницькі організації в галузі кібербезпеки й авторитетні галузеві видання.

  • Регіональні й місцеві новинні агентства,
    що висвітлюють інциденти у сфері кібербезпеки у Північній Америці, Європі, Азійсько-Тихоокеанському й інших регіонах.

  • Галузеві й дослідницькі звіти,
    зокрема щорічні звіти про витоки, звіти про ландшафт загроз, опитування й дані економічного аналізу.

Кожне джерело зазначається на рівні статті чи звіту зі збереженням дати публікації, назви видання й вихідної URL-адреси.

Процес виявлення

Виявлення вмісту здійснюється за допомогою автоматизованих пошукових запитів на основі оновлюваного списку ключових слів щодо кібербезпеки. Ключові слова згруповані за темами (витоки даних, програми-вимагачі, фішинг, вразливості, регулювання тощо).

Пошук здійснюється щодня для охоплення щойно опублікованого вмісту. Під час кожного запуску запитуються лише останні дані, щоб набір даних відображав поточну звітність.

Збір і обробка вмісту

Вибирання статей

Після виявлення джерела повний текст статті вибирається за допомогою засобів автоматичного вилучення. Там, де не вдається здійснити первинне вилучення, застосовуються резервні методи для забезпечення надійного охоплення.

Дедуплікація

Для уникнення подвійного підрахунку застосовується:

  • Однакові URL-адреси обробляються лише один раз

  • Повторно опублікований або синдикований вміст дедуплікується на рівні статті

  • Агрегація на рівні подій (описана нижче) ще більше скорочує дублювання джерел

Фільтрування й класифікація за релевантністю

Оцінка актуальності для кібербезпеки

Кожна стаття оцінюється на релевантність для статистики кібербезпеки. Статті мають змістовно описувати чи аналізувати подію, загрозу, вразливість чи регуляторні заходи у сфері кібербезпеки.

Класифікація типів подій

Релевантні статті класифікуються за основними категоріями включно з наступними:

  • Інцидент — підтверджена кібератака чи порушення безпеки, що вже відбулося

  • Уразливість — розкриття слабкого місця в системі безпеки, яке може бути використане

  • Розвідка загроз — звітність про суб'єктів, інструменти, кампанії й методи загроз

  • Нормативно-правове регулювання — закони, правозастосовні заходи, зміни в політиках і судові розгляди, пов'язані з кібербезпекою

Така класифікація гарантує, що статистика, яка стосується «інцидентів», «витоків» чи «атак», не буде поєднана з розкриттям уразливостей чи загальними коментарями.

Кластеризація подій (агрегація статей за подіями)

Один і той самий кіберінцидент часто висвітлюється у кількох статтях. Щоб уникнути подвійного підрахунку:

  • Статті, що описують один і той самий інцидент, групуються в одну подію

  • Подіям присвоюються стабільні внутрішні ідентифікатори

  • Статті пов'язуються з наявними подіями лише за наявності високої впевненості у тому, що вони описують одну й ту саму подію

До індикаторів, що використовуються для кластеризації, включено уражені організації, суб'єкти загроз, часові рамки й описи інцидентів.

Записи на рівні подій містять наступне:

  • Дати першої й останньої появи

  • Кількість пов'язаних статей

  • Уражені організації

  • Згадані суб'єкти загроз

  • Посилання на джерела для перевірки

Використання автоматизованого аналізу й контролю якості

Автоматизована класифікація

Для класифікації, вилучення й агрегації застосовується структурований детермінований аналіз мовних моделей. Усі автоматизовані результати відповідають попередньо визначеним схемам, що забезпечує їхню узгодженість.

Моделі працюють із детермінованими налаштуваннями для зниження варіативності й ризику галюцинацій.

Контроль якості

Для забезпечення точності:

  • Валідація схеми гарантує розгляд лише належним чином структурованих результатів

  • Для виявлення дрейфу класифікації здійснюються регулярні щомісячні вибірки й перевірки, зокрема перевірка точності. Вона виявляє зміни у класифікації, що слугують підставою для подальшого коригування моделі.

  • Випадки з високим рівнем впливу чи неоднозначністю позначаються для перевірки фахівцем

  • Агреговані статистичні дані зберігають можливість простежування до окремих статей і подій

Як розраховуються статистичні дані

Метрики на рівні статті й на рівні події

Основою для деяких статистичних даних є:

  • Підрахунки на рівні статей (наприклад, обсяг висвітлення у ЗМІ)

  • Підрахунки на рівні події (наприклад, кількість окремих витоків або інцидентів)

У відповідних випадках для зменшення дублювання перевага надається метрикам на рівні події.

Інтерпретація кількості й частоти

Такі статистичні показники, як «кількість інцидентів на день» або «кількість витоків на рік», відображають зареєстровані дії чи висвітлені в ЗМІ події, а не загальносвітову активність.

Телеметрія постачальників, державні системи розгляду скарг і економічні прогнози часто демонструють значно більші обсяги через відмінності в охопленні й методології. Ці відмінності зазначаються там, де мають значення.

Обмеження й застереження

Не зважаючи на застосування заходів для забезпечення точності й узгодженості, дані мають характерні для них обмеження:

  • Не всі інциденти висвітлюються публічно й фіксуються у звітах

  • Висвітлення у ЗМІ залежить від регіону, сектору й масштабу інциденту

  • Доступ до деяких джерел є обмеженим

  • У крайніх випадках можуть виникати помилки класифікації

  • Показники економічних збитків у ході розслідувань можуть змінюватися

У зв'язку з цим статистичні дані слід інтерпретувати як індикатори напряму, а не вичерпні виміри.

Індекси джерел

Кожне пронумероване джерело нижче відповідає посиланню у вигляді надрядкового індексу, що використовується на сторінці «Статистика кібербезпеки». Надрядкові індекси ведуть безпосередньо до відповідних записів на цій сторінці.

Джерело 1

Statista –
Cybercrime worldwide

Джерело 2

Identity Theft
Resource Center
(ITRC) – Weekly
Breach
Breakdown
Q3 2025

Джерело 3

Identity Theft
Resource Center
(ITRC) – H1 2025
Data Breach Analysis

Джерело 4

Verizon –
Data Breach
Investigations
Report (DBIR) 2025

Джерело 5

IBM –
Cost of a Data
Breach Report 2025

Джерело 6

South Korean
Ministry of
Science and
ICT – SK Telecom data
exfiltration
incident

Джерело 7

Aflac – June
2025 security
incident
regulatory filing

Джерело 8

HIPAA Journal –
Largest healthcare
data breaches of 2025

Джерело 9

California Attorney
General – Aflac
breach report
(SB24-616010)

Джерело 10

Iowa Attorney
General – Aflac
data breach notification

Джерело 11

Rhode Island
Attorney General –
Data‑breach
notifications

Джерело 12

Rhode Island
AG –
Data‑breach
notification

Джерело 13

Aflac Newsroom –
June 2025
security incident
update

Джерело 14

HIPAA Journal –
Aflac data
breach article

Джерело 15

Office of the
Australian Information
Commissioner –
Statement on Qantas
cyber incident

Джерело 16

Qantas – Information
for customers on
cyber incident

Джерело 17

Qantas Newsroom –
Update on Qantas
cyber incident
(9 July 2025)

Джерело 18

Michigan Attorney
General – Consumer
alert on data breaches
(TransUnion)

Джерело 19

Maine Attorney
General – Allianz Life
cyber incident notice

Джерело 20

California Attorney
General – Allianz data
breach report
(SB24-612078)

Джерело 21

University of
Maryland – Cyber
Security Statistics

Джерело 22

Microsoft Digital
Defense Report 2023

Джерело 23

WIRED – NotPetya
cyberattack article

Джерело 24

Reuters – UnitedHealth
tech unit hack article

Джерело 25

The Guardian – Jaguar
Land Rover hack article

Джерело 26

NBC News –
MGM Resorts
cyberattack cost article

Джерело 27

Delaware Department
of Technology &
Information –
eSecurityNews
(Oct 2023)

Джерело 28

Cybersecurity
Ventures – Global
ransomware damage
cost projection

Джерело 29

JumpCloud – Phishing
attack statistics

Джерело 30

Hornetsecurity – Email
threats in 2024

Джерело 31

Spearshield –
Click‑to‑credential
phishing study

Джерело 32

APWG – Phishing
Activity Trends Reports

Джерело 33

arXiv – Academic
password/credential
research (2025)

Джерело 34

DeepStrike – Password
statistics 2025

Джерело 35

NordPass – Top 200
Most Common
Passwords

Джерело 36

Financial Times –
Supply‑chain
cybersecurity article

Джерело 37

SecurityScorecard –
2025 Supply Chain
Cybersecurity Trends

Джерело 38

National Technology &
Security Coalition –
2025 Software Supply
Chain Security Report

Джерело 39

Palo Alto Networks –
State of Cloud
Native Security

Джерело 40

IBM – Threat
Intelligence Report

Джерело 41

Tenable –
Cloud Security
Risk Report 2025

Джерело 42

Cybersecurity
Ventures –
Cybersecurity Cost
Report

Джерело 43

Statista Market
Insights – Estimated
cost of cybercrime
worldwide 2018‑2029
(ResearchGate)

Джерело 44

Statista – Cost of
cybercrime worldwide
forecast

Джерело 45

FTC – Consumer
Sentinel Network Data
Book 2024

Джерело 46

FBI IC3 – 2024 Internet
Crime Report

Джерело 47

Kroll – Data Breach
Outlook 2025

Джерело 48

IBM – Cost of a Data
Breach 2024: Financial
Industry

Джерело 49

SailPoint – 2024
State of Identity
Security in Financial
Services

Джерело 50

DeepStrike –
Healthcare data
breach statistics 2025

Джерело 51

Proofpoint &
Ponemon – Healthcare
Cybersecurity Report

Джерело 52

Check Point –
Cyber Security
Report 2025

Джерело 53

Thales – 2024
Data Threat Report:
Critical Infrastructure
Edition

Джерело 54

Cyfirma – Energy &
Utilities industry report

Джерело 55

World Economic
Forum – Global
Cybersecurity Outlook
2025

Джерело 56

DeepStrike – Cyber
attacks on small
businesses

Джерело 57

Devolutions – State of
IT Security Report 2025

Джерело 58

TotalAssure –
Small business
cybersecurity statistics
2025

Джерело 59

Cisco – Cybersecurity
Readiness Index 2025

Джерело 60

IANS Research –
Security budgets
press release (2024)

Джерело 61

Munich Re –
Cyber insurance risks
and trends 2025

Джерело 62

Gartner – 2025
information security
spending forecast

Джерело 63

Forrester – 2024
Cybersecurity
Benchmarks (Global)

Джерело 64

Ivanti – State of
Cybersecurity Report

Джерело 65

U.S. Department of
Homeland Security –
FY 2025 Budget in Brief

Джерело 66

U.S. Department of
Defense – CYBERCOM
Budget Justification

Джерело 67

Google Cloud –
Cybersecurity forecast

Джерело 68

Gartner – Generative AI
attack survey
(Sep 22 2025)

Джерело 69

Splashtop – Top
cybersecurity trends
and predictions
for 2026

Джерело 70

ENISA – Threat
Landscape 2024