Статистика кібербезпеки:
методологія та джерела

Призначення цієї сторінки

Ця сторінка містить пояснення щодо збору, обробки й інтерпретації даних зі сторінки «Статистика кібербезпеки», і щодо джерел даних, на які ми посилаємося. На головній сторінці «Статистика кібербезпеки» наведено узагальнені результати й висновки досліджень NordVPN.

Джерела даних і зазначення авторства

Пошук джерел здійснюється через інтерфейс системи користувацького пошуку Google (GCS) з використанням декількох настроюваних пошукових систем (CSE), налаштованих на пошук:

ЗМІ: 44 провідні ЗМІ й технологічні видання (зокрема BBC, CNN, The New York Times, WSJ, FT, Reuters, Bloomberg, TechCrunch, Wired, Ars Technica, Time, Forbes).
авторитетних/довідкових сайтів: 25 галузевих і експертних джерел (зокрема CISA, KrebsOnSecurity, The Hacker News, Dark Reading, BleepingComputer, SecurityWeek, Infosecurity Magazine).
місцевих новин: понад 100 регіональних і національних ЗМІ в Азійсько-Тихоокеанському регіоні, Європі, Близькому Сході й Африці, а також в Північній і Південній Америці (зокрема Channel NewsAsia, CSA.gov.sg, Zaobao; HK01, unwire.hk; Japan Times, NISC, JPCERT, ITMedia).
вмісту загального характеру/без обмежень.

Запити формуються на основі ключових слів зі списку, що постійно оновлюється й групує терміни за категоріями.

В усіх записах чітко зазначене авторство:

Посилання на оригінальну статтю
ЗМІ (домен, виділений з URL-адреси)
Дата публікації й дата збору

Для статистичних розрахунків і агрегування подій ми узагальнюємо інформацію з багатьох джерел; кожна статистична величина розраховується з урахуванням даних з окремих статей із посиланнями на першоджерело.

Частота вибирання й збору вмісту

Повнотекстовий вміст із виявлених посилань отримується за допомогою:

NewsPlease (основний варіант)
прямого завантаження HTML з укріпленою сесією запитів і вилучення за допомогою Trafilatura (резервний варіант).

Для зменшення кількості тимчасових збоїв застосовуються таймаути, повторні спроби, резервні варіанти TLS і заголовки Referer.

Дата публікації й назва беруться з екстрактора, якщо вони доступні; аналіз дати доводиться до формату, що містить лише дату.

Щоденні запити стосуються вмісту за 1 останній день.

Вилучення ознак

Вилученими полями зокрема є:

ЗМІ (з URL)
Перший абзац (перші 3–5 речень)
Характеристики ключових слів: загальна кількість у тексті, наявність у заголовку, речення з базовими ключовими словами й наявність будь-яких ключових слів із підтримуваного списку
Кількість слів

Оцінка релевантності LLM

Кожна стаття оцінюється LLM з детермінованим налаштуванням (температура 0) і обмеженим промптом, що потребує чітких структурованих результатів:

1. Чи стосується стаття кіберподії

2. Якщо стосується, призначається тип події високого рівня:

Інцидент: підтверджена кібератака чи витік даних, що вже відбулися (наприклад, запуск програми-вимагача, крадіжка даних, DDoS-атака, компрометація системи).
Уразливість: виявлення чи розкриття недоліку безпеки у програмному забезпеченні/обладнанні/системах, що може бути використаний (потенційний ризик, а не підтверджене використання).
Розвідка загроз: звітність про суб'єктів загроз, інструменти, тактику, методи й стратегії (TTP) та кампанії (фокус на визначенні «хто та як», а не на конкретному інциденті з жертвою).
Нормативно-правова база: закони, нормативні акти, правозастосовні дії, судові рішення чи важливі зміни політик, що впливають на зобов'язання у сфері кібербезпеки.

Типи й категоризація статей

Релевантні статті класифікуються за допомогою структурованих таксономічних промптів (основні: статус атаки, тип події, нормативні/правові аспекти; другорядні: метрики/клас впливу, технічні відомості, сектори, географія, масштаб, приблизні збитки).

Кластеризація подій (агрегація статей за подіями)

Мета: згрупувати статті, що описують один і той самий вихідний інцидент, в одну «подію».

Метод:

Вибрати з бази даних наявні події для надання контексту (назви, відомі уражені організації, суб'єкти загроз, посилання).
Для кожної статті-кандидата (де тип статті = окремий інцидент) LLM порівнює деталі статті з наборами наявних подій і:

1. або надає ідентифікатор наявної події за наявності збігу з високим ступенем достовірності,

2. або створює нову подію.

Промпти підкреслюють високу точність: посилання на наявну подію ставиться тільки за умови високого рівня впевненості. Уражені організації й сигнали суб'єктів загроз вважаються надійними індикаторами.

Події містять агреговані поля: дати першого/останнього перегляду, кількість статей, уражені організації, суб'єкти загроз, заголовки, посилання.

Забезпечення точності та якості

Детермінізм і обмеження:

Температура LLM встановлена на 0, щоб максимізувати детермінізм і знизити галюцинації.
Обмежені промпти вимагають конкретних полів і виведення у форматі JSON; парсинг здійснюється з дотриманням схеми.
Статті без вмісту (без заголовка/тексту) відхиляються на ранньому етапі.

Метрики, що керуються LLM і перевіряються на відповідність схемі:

Усі поля метрик створюються за допомогою детермінованих прогонів LLM (температура 0) відповідно до строгих задокументованих інструкцій і схем JSON; враховуються лише результати, що відповідають схемі, з періодичним контролем якості фахівцями для калібрування й запобігання дрейфу.

Класифікація подій/статей для точного фільтрування:

Класифікація за типом події й тематикою статті слугує суворим фільтром релевантності, що відсіює неактуальний, малоінформативний або оглядовий вміст. Така орієнтація на звітність про окремі інциденти знижує рівень шуму і помітно підвищує точність і достовірність набору даних.

Перевірка з використанням кількох джерел:

Кластеризація подій посилається на раніше збережений контекст; невідповідності знижують імовірність неправильного об'єднання.
Агрегації містять список вихідних посилань щодо кожної події для ручної перевірки.

Залучення людини:

Випадки з високим рівнем впливу чи неоднозначністю можуть позначатися для редакційного огляду й перевірки фактів.
Регулярні перевірки якості: відібрані статті й події перевіряються щомісяця зі застосуванням точного аналізу; будь-яке відхилення призводить до коригування промптів/моделей або ключових слів.

Простежуваність:

Для забезпечення можливості аудиту кожен статистичний показник може бути простежений до статей і посилань, що містяться у базі даних.

Обмеження

Обмеження покриття:

Виявлення на основі GCS залежить від ключових слів і конфігурацій CSE; фіксуються не всі інциденти, особливо якщо йдеться про мови, не включені в налаштування, або платний вміст.
Деякі сайти блокують автоматичне вибирання; такі статті можуть бути частково чи повністю відсутні.

Ризики, пов'язані з LLM:

Застосування детермінованих налаштувань і структурованих промптів не виключає ймовірності помилок класифікації, особливо під час роботи з невеликими текстами чи неоднозначними формулюваннями.
При кластеризації подій один і той самий інцидент може бути розбитий на кілька подій або, у крайніх випадках, об'єднаний зі схожими, але окремими інцидентами.

Як обчислюються статистичні дані

Поля на рівні статті отримують шляхом прямого вилучення і з результатів LLM (зберігаються для кожного запису).

Метрики на рівні подій агрегують складові статті за event_id:

кількість статей, дати першого/останнього перегляду
уражені організації й суб'єкти загроз після видалення дублікатів
репрезентативні заголовки й списки канонічних посилань

Статистика звітів отримується з цих збережених таблиць; кожен показник може бути простежений до рядків подій і відповідних записів статей.

Обсяг даних

Статистичні й аналітичні дані, згадані в наших матеріалах із кібербезпеки, отримуються з наступних джерел:

Загальнодоступні звіти про інциденти у сфері кібербезпеки
Висвітлення підтверджених кіберінцидентів у ЗМІ
Галузеві звіти й опитування
Інформація, розкрита відповідно до нормативних вимог

Ці дані відображають загальнодоступні відомості й зареєстровані дії, а не повну сукупність усіх кіберінцидентів у світі. Багато кіберподій ніколи не розкриваються й не висвітлюються ЗМІ.

Джерела й виявлення даних

Типи джерел

Статті та звіти з кібербезпеки збираються з різних джерел включно з наступними:

Провідні й технологічні ЗМІ.
До них належать великі міжнародні новинні організації й технологічні видання.
Авторитетні та експертні джерела з кібербезпеки,
зокрема державні установи, дослідницькі організації в галузі кібербезпеки й авторитетні галузеві видання.
Регіональні й місцеві новинні агентства,
що висвітлюють інциденти у сфері кібербезпеки у Північній Америці, Європі, Азійсько-Тихоокеанському й інших регіонах.
Галузеві й дослідницькі звіти,
зокрема щорічні звіти про витоки, звіти про ландшафт загроз, опитування й дані економічного аналізу.

Кожне джерело зазначається на рівні статті чи звіту зі збереженням дати публікації, назви видання й вихідної URL-адреси.

Процес виявлення

Виявлення вмісту здійснюється за допомогою автоматизованих пошукових запитів на основі оновлюваного списку ключових слів щодо кібербезпеки. Ключові слова згруповані за темами (витоки даних, програми-вимагачі, фішинг, вразливості, регулювання тощо).

Пошук здійснюється щодня для охоплення щойно опублікованого вмісту. Під час кожного запуску запитуються лише останні дані, щоб набір даних відображав поточну звітність.

Збір і обробка вмісту

Вибирання статей

Після виявлення джерела повний текст статті вибирається за допомогою засобів автоматичного вилучення. Там, де не вдається здійснити первинне вилучення, застосовуються резервні методи для забезпечення надійного охоплення.

Дедуплікація

Для уникнення подвійного підрахунку застосовується:

Однакові URL-адреси обробляються лише один раз
Повторно опублікований або синдикований вміст дедуплікується на рівні статті
Агрегація на рівні подій (описана нижче) ще більше скорочує дублювання джерел

Фільтрування й класифікація за релевантністю

Оцінка актуальності для кібербезпеки

Кожна стаття оцінюється на релевантність для статистики кібербезпеки. Статті мають змістовно описувати чи аналізувати подію, загрозу, вразливість чи регуляторні заходи у сфері кібербезпеки.

Класифікація типів подій

Релевантні статті класифікуються за основними категоріями включно з наступними:

Інцидент — підтверджена кібератака чи порушення безпеки, що вже відбулося
Уразливість — розкриття слабкого місця в системі безпеки, яке може бути використане
Розвідка загроз — звітність про суб'єктів, інструменти, кампанії й методи загроз
Нормативно-правове регулювання — закони, правозастосовні заходи, зміни в політиках і судові розгляди, пов'язані з кібербезпекою

Така класифікація гарантує, що статистика, яка стосується «інцидентів», «витоків» чи «атак», не буде поєднана з розкриттям уразливостей чи загальними коментарями.

Кластеризація подій (агрегація статей за подіями)

Один і той самий кіберінцидент часто висвітлюється у кількох статтях. Щоб уникнути подвійного підрахунку:

Статті, що описують один і той самий інцидент, групуються в одну подію
Подіям присвоюються стабільні внутрішні ідентифікатори
Статті пов'язуються з наявними подіями лише за наявності високої впевненості у тому, що вони описують одну й ту саму подію

До індикаторів, що використовуються для кластеризації, включено уражені організації, суб'єкти загроз, часові рамки й описи інцидентів.

Записи на рівні подій містять наступне:

Дати першої й останньої появи
Кількість пов'язаних статей
Уражені організації
Згадані суб'єкти загроз
Посилання на джерела для перевірки

Використання автоматизованого аналізу й контролю якості

Автоматизована класифікація

Для класифікації, вилучення й агрегації застосовується структурований детермінований аналіз мовних моделей. Усі автоматизовані результати відповідають попередньо визначеним схемам, що забезпечує їхню узгодженість.

Моделі працюють із детермінованими налаштуваннями для зниження варіативності й ризику галюцинацій.

Контроль якості

Для забезпечення точності:

Валідація схеми гарантує розгляд лише належним чином структурованих результатів
Для виявлення дрейфу класифікації здійснюються регулярні щомісячні вибірки й перевірки, зокрема перевірка точності. Вона виявляє зміни у класифікації, що слугують підставою для подальшого коригування моделі.
Випадки з високим рівнем впливу чи неоднозначністю позначаються для перевірки фахівцем
Агреговані статистичні дані зберігають можливість простежування до окремих статей і подій

Як розраховуються статистичні дані

Метрики на рівні статті й на рівні події

Основою для деяких статистичних даних є:

Підрахунки на рівні статей (наприклад, обсяг висвітлення у ЗМІ)
Підрахунки на рівні події (наприклад, кількість окремих витоків або інцидентів)

У відповідних випадках для зменшення дублювання перевага надається метрикам на рівні події.

Інтерпретація кількості й частоти

Такі статистичні показники, як «кількість інцидентів на день» або «кількість витоків на рік», відображають зареєстровані дії чи висвітлені в ЗМІ події, а не загальносвітову активність.

Телеметрія постачальників, державні системи розгляду скарг і економічні прогнози часто демонструють значно більші обсяги через відмінності в охопленні й методології. Ці відмінності зазначаються там, де мають значення.

Обмеження й застереження

Не зважаючи на застосування заходів для забезпечення точності й узгодженості, дані мають характерні для них обмеження:

Не всі інциденти висвітлюються публічно й фіксуються у звітах
Висвітлення у ЗМІ залежить від регіону, сектору й масштабу інциденту
Доступ до деяких джерел є обмеженим
У крайніх випадках можуть виникати помилки класифікації
Показники економічних збитків у ході розслідувань можуть змінюватися

У зв'язку з цим статистичні дані слід інтерпретувати як індикатори напряму, а не вичерпні виміри.

Індекси джерел

Кожне пронумероване джерело нижче відповідає посиланню у вигляді надрядкового індексу, що використовується на сторінці «Статистика кібербезпеки». Надрядкові індекси ведуть безпосередньо до відповідних записів на цій сторінці.

Джерело ¹ Statista – Cybercrime worldwide Посилання⁠‌
Джерело ² Identity Theft Resource Center (ITRC) – Weekly Breach Breakdown Q3 2025 Посилання⁠‌
Джерело ³ Identity Theft Resource Center (ITRC) – H1 2025 Data Breach Analysis Посилання⁠‌
Джерело ⁴ Verizon – Data Breach Investigations Report (DBIR) 2025 Посилання⁠‌
Джерело ⁵ IBM – Cost of a Data Breach Report 2025 Посилання⁠‌
Джерело ⁶ South Korean Ministry of Science and ICT – SK Telecom data exfiltration incident Посилання⁠‌
Джерело ⁷ Aflac – June 2025 security incident regulatory filing Посилання⁠‌
Джерело ⁸ HIPAA Journal – Largest healthcare data breaches of 2025 Посилання⁠‌
Джерело ⁹ California Attorney General – Aflac breach report (SB24-616010) Посилання⁠‌
Джерело ¹⁰ Iowa Attorney General – Aflac data breach notification Посилання⁠‌
Джерело ¹¹ Rhode Island Attorney General – Data‑breach notifications Посилання⁠‌
Джерело ¹² Rhode Island AG – Data‑breach notification Посилання⁠‌
Джерело ¹³ Aflac Newsroom – June 2025 security incident update Посилання⁠‌
Джерело ¹⁴ HIPAA Journal – Aflac data breach article Посилання⁠‌
Джерело ¹⁵ Office of the Australian Information Commissioner – Statement on Qantas cyber incident Посилання⁠‌
Джерело ¹⁶ Qantas – Information for customers on cyber incident Посилання⁠‌
Джерело ¹⁷ Qantas Newsroom – Update on Qantas cyber incident (9 July 2025) Посилання⁠‌
Джерело ¹⁸ Michigan Attorney General – Consumer alert on data breaches (TransUnion) Посилання⁠‌
Джерело ¹⁹ Maine Attorney General – Allianz Life cyber incident notice Посилання⁠‌
Джерело ²⁰ California Attorney General – Allianz data breach report (SB24-612078) Посилання⁠‌
Джерело ²¹ University of Maryland – Cyber Security Statistics Посилання⁠‌
Джерело ²² Microsoft Digital Defense Report 2023 Посилання⁠‌
Джерело ²³ WIRED – NotPetya cyberattack article Посилання⁠‌
Джерело ²⁴ Reuters – UnitedHealth tech unit hack article Посилання⁠‌
Джерело ²⁵ The Guardian – Jaguar Land Rover hack article Посилання⁠‌
Джерело ²⁶ NBC News – MGM Resorts cyberattack cost article Посилання⁠‌
Джерело ²⁷ Delaware Department of Technology & Information – eSecurityNews (Oct 2023) Посилання⁠‌
Джерело ²⁸ Cybersecurity Ventures – Global ransomware damage cost projection Посилання⁠‌
Джерело ²⁹ JumpCloud – Phishing attack statistics Посилання⁠‌
Джерело ³⁰ Hornetsecurity – Email threats in 2024 Посилання⁠‌
Джерело ³¹ Spearshield – Click‑to‑credential phishing study Посилання⁠‌
Джерело ³² APWG – Phishing Activity Trends Reports Посилання⁠‌
Джерело ³³ arXiv – Academic password/credential research (2025) Посилання⁠‌
Джерело ³⁴ DeepStrike – Password statistics 2025 Посилання⁠‌
Джерело ³⁵ NordPass – Top 200 Most Common Passwords Посилання⁠‌
Джерело ³⁶ Financial Times – Supply‑chain cybersecurity article Посилання⁠‌
Джерело ³⁷ SecurityScorecard – 2025 Supply Chain Cybersecurity Trends Посилання⁠‌
Джерело ³⁸ National Technology & Security Coalition – 2025 Software Supply Chain Security Report Посилання⁠‌
Джерело ³⁹ Palo Alto Networks – State of Cloud Native Security Посилання⁠‌
Джерело ⁴⁰ IBM – Threat Intelligence Report Посилання⁠‌
Джерело ⁴¹ Tenable – Cloud Security Risk Report 2025 Посилання⁠‌
Джерело ⁴² Cybersecurity Ventures – Cybersecurity Cost Report Посилання⁠‌
Джерело ⁴³ Statista Market Insights – Estimated cost of cybercrime worldwide 2018‑2029 (ResearchGate) Посилання⁠‌
Джерело ⁴⁴ Statista – Cost of cybercrime worldwide forecast Посилання⁠‌
Джерело ⁴⁵ FTC – Consumer Sentinel Network Data Book 2024 Посилання⁠‌
Джерело ⁴⁶ FBI IC3 – 2024 Internet Crime Report Посилання⁠‌
Джерело ⁴⁷ Kroll – Data Breach Outlook 2025 Посилання⁠‌
Джерело ⁴⁸ IBM – Cost of a Data Breach 2024: Financial Industry Посилання⁠‌
Джерело ⁴⁹ SailPoint – 2024 State of Identity Security in Financial Services Посилання⁠‌
Джерело ⁵⁰ DeepStrike – Healthcare data breach statistics 2025 Посилання⁠‌
Джерело ⁵¹ Proofpoint & Ponemon – Healthcare Cybersecurity Report Посилання⁠‌
Джерело ⁵² Check Point – Cyber Security Report 2025 Посилання⁠‌
Джерело ⁵³ Thales – 2024 Data Threat Report: Critical Infrastructure Edition Посилання⁠‌
Джерело ⁵⁴ Cyfirma – Energy & Utilities industry report Посилання⁠‌
Джерело ⁵⁵ World Economic Forum – Global Cybersecurity Outlook 2025 Посилання⁠‌
Джерело ⁵⁶ DeepStrike – Cyber attacks on small businesses Посилання⁠‌
Джерело ⁵⁷ Devolutions – State of IT Security Report 2025 Посилання⁠‌
Джерело ⁵⁸ TotalAssure – Small business cybersecurity statistics 2025 Посилання⁠‌
Джерело ⁵⁹ Cisco – Cybersecurity Readiness Index 2025 Посилання⁠‌
Джерело ⁶⁰ IANS Research – Security budgets press release (2024) Посилання⁠‌
Джерело ⁶¹ Munich Re – Cyber insurance risks and trends 2025 Посилання⁠‌
Джерело ⁶² Gartner – 2025 information security spending forecast Посилання⁠‌
Джерело ⁶³ Forrester – 2024 Cybersecurity Benchmarks (Global) Посилання⁠‌
Джерело ⁶⁴ Ivanti – State of Cybersecurity Report Посилання⁠‌
Джерело ⁶⁵ U.S. Department of Homeland Security – FY 2025 Budget in Brief Посилання⁠‌
Джерело ⁶⁶ U.S. Department of Defense – CYBERCOM Budget Justification Посилання⁠‌
Джерело ⁶⁷ Google Cloud – Cybersecurity forecast Посилання⁠‌
Джерело ⁶⁸ Gartner – Generative AI attack survey (Sep 22 2025) Посилання⁠‌
Джерело ⁶⁹ Splashtop – Top cybersecurity trends and predictions for 2026 Посилання⁠‌
Джерело ⁷⁰ ENISA – Threat Landscape 2024 Посилання⁠‌

Статистика кібербезпеки: методологія та джерела

Призначення цієї сторінки

Обсяг даних

Джерела й виявлення даних

Типи джерел

Процес виявлення

Збір і обробка вмісту

Вибирання статей

Дедуплікація

Фільтрування й класифікація за релевантністю

Оцінка актуальності для кібербезпеки

Класифікація типів подій

Кластеризація подій (агрегація статей за подіями)

Використання автоматизованого аналізу й контролю якості

Автоматизована класифікація

Контроль якості

Як розраховуються статистичні дані

Метрики на рівні статті й на рівні події

Інтерпретація кількості й частоти

Обмеження й застереження

Індекси джерел

Статистика кібербезпеки:
методологія та джерела