Statystyki cyber­bezpieczeństwa: Metodologia i źródła

Cel tej strony

Na tej stronie wyjaśniamy, jak gromadzimy, przetwarzamy i interpretujemy statystyki dotyczące cyberbezpieczeństwa prezentowane na naszej stronie „Statystyki cyberbezpieczeństwa”, a także zapewniamy pełną przejrzystość w zakresie źródeł danych, do których się odnosimy. Główna strona poświęcona statystykom cyberbezpieczeństwa zawiera podsumowanie wyników oraz wnioski z badań i analiz przeprowadzonych przez NordVPN.

Źródła danych i informacje o autorstwie

Wyszukiwanie źródeł odbywa się za pośrednictwem interfejsu API Google Custom Search (GCS) przy użyciu wielu niestandardowych wyszukiwarek (CSE) skonfigurowanych dla:

  • mediów: 44 popularne i technologiczne serwisy informacyjne (np. BBC, CNN, The New York Times, WSJ, FT, Reuters, Bloomberg, TechCrunch, Wired, Ars Technica, Time, Forbes).

  • zaufanych stron / stron referencyjnych: 25 źródeł branżowych i eksperckich (np. CISA, KrebsOnSecurity, The Hacker News, Dark Reading, BleepingComputer, SecurityWeek, Infosecurity Magazine).

  • wiadomości lokalnych: ponad 100 regionalnych i krajowych mediów w regionach APAC, EMEA i obu Amerykach (np. Channel NewsAsia, CSA.gov.sg, Zaobao; HK01, unwire.hk; Japan Times, NISC, JPCERT, ITMedia).

  • ogólnych / bez ograniczeń.

Zapytania opierają się na słowach kluczowych z aktualizowanej listy, która grupuje terminy według kategorii.

Wszystkie zapisy zawierają wyraźne wskazanie źródła:

  • link do oryginalnego artykułu

  • serwis medialny (domena wyodrębniona z adresu URL)

  • data publikacji i data zebrania.

Zbieramy informacje z wielu źródeł, żeby tworzyć statystyki i zestawienia wydarzeń. Każda statystyka opiera się na dowodach z artykułów, które przechowujemy wraz z linkami.

Częstotliwość pobierania i gromadzenia treści

Pobiera treść pełnotekstową z wykrytych linków za pomocą:

  • głównie: NewsPlease

  • metody rezerwowej: bezpośrednie pobieranie HTML z sesją wzmocnionych żądań i ekstrakcją trafilatury.

Limity czasu, ponowne próby, rezerwowe protokoły TLS i nagłówki typu referer są używane, aby ograniczyć przejściowe awarie.

Data publikacji i tytuł są pobierane z ekstraktora, jeśli są dostępne; analiza daty jest normalizowana do samej daty.

Codzienne zapytania sprawdzają treści z ostatniego dnia.

Wyodrębnianie funkcji

Wyodrębnione pola obejmują:

  • serwis medialny (z adresu URL)

  • pierwszy akapit (pierwsze 3–5 zdań)

  • cechy słów kluczowych: łączna liczba w tekście, obecność w tytule, zdania zawierające słowo kluczowe źródłowe oraz obecność dowolnych słów kluczowych z aktualizowanej listy

  • liczbę słów.

Ocena trafności LLM

Każdy artykuł jest oceniany przez LLM z ustawieniem deterministycznym (temperatura 0) i ograniczonym promptem, który wymaga wyraźnych, ustrukturyzowanych wyników:

1. Czy artykuł jest istotny z punktu widzenia cyberzdarzeń

2. W razie potrzeby przypisywany jest ogólny typ zdarzenia:

  • Incydent: potwierdzono, że doszło już do cyberataku lub naruszenia bezpieczeństwa (np. użycie oprogramowania ransomware, wyciek danych, atak DDoS, przejęcie kontroli nad systemem).

  • Luka w zabezpieczeniach: odkrycie lub ujawnienie luki w zabezpieczeniach oprogramowania/sprzętu/systemów, którą można wykorzystać (potencjalne ryzyko, a nie potwierdzone wykorzystanie).

  • Inteligentne wykrywanie zagrożeń: raportowanie o podmiotach stwarzających zagrożenie, narzędziach, TTP i kampaniach – koncentruje się na „kto/jak” zamiast na konkretnym incydencie ofiary.

  • Przepisy i prawo: ustawy, rozporządzenia, działania egzekucyjne, orzeczenia sądowe lub istotne zmiany w prawie, które mają wpływ na obowiązki w zakresie cyberbezpieczeństwa.

Rodzaj artykułu i kategoryzacja

Odpowiednie artykuły są kategoryzowane za pomocą ustrukturyzowanych podpowiedzi taksonomicznych (główne: status ataku, typ zdarzenia, regulacje/prawo; dodatkowe: wskaźniki wpływu, szczegóły techniczne, sektory, lokalizacja, skala, przybliżone szkody).

Grupowanie zdarzeń (agregacja artykułów do zdarzeń)

Cel: pogrupowanie artykułów opisujących ten sam incydent leżący u podstaw w jedno „zdarzenie”.

Metoda:

  • Pobranie istniejących zdarzeń z bazy danych, aby uzyskać kontekst (tytuły, znane organizacje, których to dotyczy, sprawcy zagrożeń, linki).

  • Dla każdego artykułu kandydującego (gdzie typ artykułu = pojedyncze zdarzenie) model LLM porównuje szczegóły artykułu z partiami istniejących zdarzeń i albo:

1. przypisuje istniejący identyfikator zdarzenia, gdy występuje dopasowanie o wysokim prawdopodobieństwie, lub

2. tworzy nowe zdarzenie.

  • Podpowiedzi kładą nacisk na wysoką precyzję: link do istniejącego zdarzenia należy umieszczać tylko wtedy, gdy istnieje wysoki poziom prawdopodobieństwa. Organizacje, których to dotyczy, oraz sygnały wskazujące na podmioty stanowiące zagrożenie są traktowane jako mocne wskaźniki.

Zdarzenia zawierają zagregowane pola: daty pierwszego/ostatniego zauważenia, liczbę artykułów, dotknięte organizacje, agresorów, tytuły, linki.

Dokładność i zapewnienie jakości

Determinizm i ograniczenia:

  • Temperatura LLM ustawiona na 0, żeby zmaksymalizować determinizm i ograniczyć halucynacje.

  • Ograniczone podpowiedzi wymagają wyraźnych pól i wyników w formacie JSON; parsowanie wymusza schemat.

  • Artykuły bez treści (brak tytułu/tekstu) są odrzucane na wczesnym etapie.

Wskaźniki zarządzane przez LLM i zweryfikowane pod kątem schematu:

  • Wszystkie pola metryk są generowane przez deterministyczne uruchomienia LLM (temperatura 0) zgodnie ze ścisłymi, udokumentowanymi wytycznymi i schematami JSON; uwzględniane są tylko wyniki zgodne ze schematem, a okresowa kontrola jakości przez człowieka służy kalibracji i zapobieganiu dryfowi.

Klasyfikacja wydarzeń/artykułów do precyzyjnego filtrowania:

  • Klasyfikacja według typu zdarzenia i tematu artykułu służy jako ścisły filtr trafności, odrzucający treści niezwiązane z tematem, o niskim sygnale lub w stylu podsumowania. Skupienie się na zgłaszaniu pojedynczych zdarzeń ogranicza szum i wyraźnie poprawia precyzję oraz dokładność zbioru danych.

Weryfikacja z wielu źródeł:

  • Grupowanie zdarzeń odwołuje się do wcześniej zapisanych kontekstów zdarzeń; niedopasowania zmniejszają ryzyko nieprawidłowego scalania.

  • Agregacje zawierają listę linków źródłowych dla każdego zdarzenia do ręcznej weryfikacji.

Weryfikacja przez człowieka:

  • Przypadki szczególnie ważne lub niejednoznaczne mogą być zgłaszane do przeglądu i sprawdzania faktów.

  • Regularne przeglądy jakości: wybrane artykuły i wydarzenia są sprawdzane co miesiąc w ramach szczegółowej kontroli; każde odchylenie powoduje natychmiastowe dostosowanie modelu lub słów kluczowych.

Identyfikowalność:

  • Każdą statystykę można powiązać z artykułami i linkami zawartymi w bazie danych, co pozwala na weryfikację.

Ograniczenia

Limity zakresu:

  • Wykrywanie oparte na GCS zależy od słów kluczowych i konfiguracji CSE; nie wszystkie incydenty są rejestrowane, zwłaszcza poza skonfigurowanymi językami lub treściami objętymi płatnym dostępem.

  • Niektóre witryny blokują automatyczne pobieranie; takie artykuły mogą częściowo lub całkowicie nie być dostępne.

Ryzyko związane z LLM:

  • Mimo deterministycznych ustawień i ustrukturyzowanych podpowiedzi mogą zdarzyć się błędy klasyfikacji, zwłaszcza w przypadku tekstów rzadkich lub niejednoznacznych.

  • W skrajnych przypadkach grupowanie zdarzeń może podzielić ten sam incydent na wiele zdarzeń lub połączyć podobne, ale odrębne incydenty.

Jak obliczane są statystyki

Pola na poziomie artykułu pochodzą z bezpośredniej ekstrakcji i wyników modelu LLM (przechowywane dla każdego zapisu).

Metryki na poziomie wydarzenia agregują poszczególne artykuły według identyfikatorów wydarzenia (event_id):

  • liczby artykułów, daty pierwszego/ostatniego wyświetlenia

  • liczby zduplikowanych organizacji, które ucierpiały, oraz podmiotów stanowiących zagrożenie

  • reprezentatywnych tytułów i listy linków kanonicznych

Statystyki raportów pochodzą z tych tabel; każdą liczbę można prześledzić aż do wierszy zdarzeń i powiązanych zapisów artykułów.

Zakres danych

Statystyki i spostrzeżenia, do których odwołujemy się w naszych treściach dotyczących cyberbezpieczeństwa, pochodzą z połączenia:

  • publicznie dostępnych raportów o incydentach związanych z cyberbezpieczeństwem,

  • relacji medialnych na temat potwierdzonych incydentów cybernetycznych,

  • raportów i badań branżowych,

  • informacji rządowych i prawnych.

Dane odzwierciedlają działania, które można zaobserwować i które są zgłaszane publicznie, a nie wszystkie cyberincydenty, które mają miejsce na całym świecie. Wiele cyberincydentów nigdy nie jest ujawnianych, zgłaszanych ani opisywanych przez media.

Źródła danych i ich wyszukiwanie

Typy źródeł

Artykuły i raporty dotyczące cyberbezpieczeństwa są zbierane z wielu różnych źródeł, w tym z poniższych:

  • Media głównego nurtu i media technologiczne.
    Przykłady obejmują główne międzynarodowe organizacje informacyjne i publikacje technologiczne.

  • Wiarygodne i eksperckie źródła dotyczące cyberbezpieczeństwa.
    W tym agencje rządowe, organizacje badawcze zajmujące się cyberbezpieczeństwem i uznane publikacje branżowe.

  • Regionalne i lokalne serwisy informacyjne.
    Informacje o incydentach związanych z cyberbezpieczeństwem w Ameryce Północnej, Europie, regionie Azji i Pacyfiku i innych regionach.

  • Raporty branżowe i badawcze.
    W tym roczne raporty o naruszeniach, raporty o zagrożeniach, ankiety i analizy ekonomiczne.

Każde źródło jest podane na poziomie artykułu lub raportu, z zachowaniem daty publikacji, nazwy wydawcy i oryginalnego adresu URL.

Proces wyszukiwania

Wyszukiwanie treści odbywa się za pomocą automatycznych zapytań opartych na aktualizowanej liście słów kluczowych z zakresu cyberbezpieczeństwa. Słowa kluczowe są pogrupowane według tematów (na przykład: naruszenia danych, ransomware, phishing, luki w zabezpieczeniach, regulacje).

Wyszukiwania są przeprowadzane codziennie, aby zebrać nowo opublikowane treści. Każde uruchomienie sprawdza tylko najnowsze dane, dzięki czemu zbiór danych odzwierciedla aktualne raporty.

Gromadzenie i przetwarzanie treści

Pobieranie artykułu

Po wykryciu źródła pełny tekst artykułu jest pobierany za pomocą automatycznych narzędzi do ekstrakcji. Gdy podstawowe pozyskiwanie danych zawodzi, stosuje się metody rezerwowe, aby zapewnić solidny zasięg.

Deduplikacja

Aby uniknąć podwójnego liczenia:

  • identyczne adresy URL są przetwarzane tylko raz,

  • powielane lub syndykowane treści są deduplikowane na poziomie artykułu.

  • agregacja na poziomie zdarzeń (opisana poniżej) jeszcze bardziej ogranicza powtórzenia między kanałami.

Filtrowanie i klasyfikacja według trafności

Ocena istotności dla cyberbezpieczeństwa

Każdy artykuł jest oceniany pod kątem tego, czy jest istotny dla statystyk dotyczących cyberbezpieczeństwa. Artykuły muszą w znaczący sposób opisywać lub analizować zdarzenie związane z cyberbezpieczeństwem, zagrożenie, lukę w zabezpieczeniach lub działanie regulacyjne.

Klasyfikacja typu zdarzenia

Odpowiednie artykuły są podzielone na ogólne kategorie, w tym:

  • Incydent – potwierdzony cyberatak lub naruszenie, które już miało miejsce

  • Luka w zabezpieczeniach – ujawnienie słabego punktu w zabezpieczeniach, który może zostać wykorzystany

  • Inteligentne wykrywanie zagrożeń – raportowanie o podmiotach, narzędziach, kampaniach lub technikach związanych z zagrożeniami

  • Przepisy / kwestie prawne – przepisy, działania egzekucyjne, zmiany w polityce lub postępowania prawne związane z cyberbezpieczeństwem

Ta klasyfikacja gwarantuje, że statystyki dotyczące „incydentów”, „naruszeń” lub „ataków” nie są mylone z ujawnieniami luk w zabezpieczeniach czy ogólnymi komentarzami.

Grupowanie zdarzeń (agregacja artykułów do zdarzeń)

Wiele artykułów często informuje o tym samym incydencie cybernetycznym. Aby zapobiec nadmiernemu liczeniu:

  • Artykuły opisujące ten sam incydent są zgrupowane w jedno zdarzenie

  • Zdarzeniom przypisuje się stałe identyfikatory wewnętrzne

  • Artykuły są powiązane z istniejącymi zdarzeniami tylko wtedy, gdy istnieje wysokie prawdopodobieństwo, że opisują one to samo wydarzenie

Wskaźniki używane do grupowania obejmują organizacje, których to dotyczy, sprawców zagrożeń, osie czasu i opisy incydentów.

Zapisy na poziomie zdarzenia zawierają:

  • Data pierwszego i ostatniego pojawienia się

  • Liczba powiązanych artykułów

  • Organizacje, których to dotyczy

  • Wspomniani sprawcy zagrożeń

  • Linki źródłowe do weryfikacji

Wykorzystanie zautomatyzowanej analizy i kontroli jakości

Zautomatyzowana klasyfikacja

Do klasyfikacji, ekstrakcji i agregacji wykorzystywana jest ustrukturyzowana, deterministyczna analiza modelu językowego. Wszystkie zautomatyzowane dane wyjściowe są zgodne ze zdefiniowanymi schematami, co zapewnia spójność.

Modele działają z ustawieniami deterministycznymi, aby zmniejszyć zmienność i ryzyko halucynacji.

Zapewnienie jakości

Aby zachować dokładność:

  • walidacja schematu zapewnia, że liczone są tylko prawidłowo ustrukturyzowane dane wyjściowe

  • co miesiąc przeprowadzane są regularne procedury pobierania próbek i przeglądu, w tym przegląd dokładności, żeby wykryć ewentualne odchylenia w klasyfikacji. Ten przegląd identyfikuje zmiany w klasyfikacji, które następnie dostarczają informacji i wymagają dostosowania modelu;

  • niejasne lub szczególnie istotne przypadki są oznaczane do sprawdzenia przez człowieka

  • zagregowane statystyki zachowują możliwość prześledzenia poszczególnych artykułów i wydarzeń.

Jak obliczane są statystyki

Wskaźniki na poziomie artykułów a wskaźniki na poziomie wydarzeń

Niektóre statystyki opierają się na:

  • liczbie na poziomie artykułu (np. zakres relacji w mediach)

  • liczbie na poziomie zdarzenia (np. liczba odrębnych naruszeń lub incydentów).

Tam, gdzie ma to zastosowanie, preferowane są wskaźniki na poziomie zdarzenia, aby ograniczyć powielanie.

Interpretacja liczb i częstotliwości

Statystyki takie jak „dzienna liczba incydentów” czy „roczna liczba naruszeń” odzwierciedlają zgłoszone lub nagłośnione w mediach przypadki, a nie całkowitą skalę zjawiska na świecie.

Dane telemetryczne dostawców, rządowe systemy zgłaszania skarg oraz prognozy ekonomiczne często wskazują na znacznie wyższe wartości ze względu na różnice w zakresie i metodologii. Różnice te są odnotowywane w stosownych przypadkach.

Ograniczenia i uwagi

Chociaż dokładamy wszelkich starań, aby zapewnić dokładność i spójność danych, mają one pewne ograniczenia:

  • Nie wszystkie zdarzenia są upubliczniane lub zgłaszane

  • Relacje mediów różnią się w zależności od regionu, sektora i skali zdarzenia

  • Niektóre źródła ograniczają dostęp

  • W skrajnych przypadkach mogą wystąpić błędy klasyfikacji

  • Dane dotyczące strat ekonomicznych mogą ulec zmianie z czasem

Statystyki należy zatem interpretować jako wskaźniki kierunkowe, a nie wyczerpujące pomiary.

Indeks źródeł

Każde poniższe źródło oznaczone numerem odpowiada odnośnikowi w indeksie górnym używanemu na stronie Statystyk cyberbezpieczeństwa. Indeksy górne prowadzą bezpośrednio do odpowiedniego wpisu źródłowego na tej stronie.

Źródło 1

Statista –
Cybercrime worldwide

Źródło 2

Identity Theft
Resource Center
(ITRC) – Weekly
Breach
Breakdown
Q3 2025

Źródło 3

Identity Theft
Resource Center
(ITRC) – H1 2025
Data Breach Analysis

Źródło 4

Verizon –
Data Breach
Investigations
Report (DBIR) 2025

Źródło 5

IBM –
Cost of a Data
Breach Report 2025

Źródło 6

South Korean
Ministry of
Science and
ICT – SK Telecom data
exfiltration
incident

Źródło 7

Aflac – June
2025 security
incident
regulatory filing

Źródło 8

HIPAA Journal –
Largest healthcare
data breaches of 2025

Źródło 9

California Attorney
General – Aflac
breach report
(SB24-616010)

Źródło 10

Iowa Attorney
General – Aflac
data breach notification

Źródło 11

Rhode Island
Attorney General –
Data‑breach
notifications

Źródło 12

Rhode Island
AG –
Data‑breach
notification

Źródło 13

Aflac Newsroom –
June 2025
security incident
update

Źródło 14

HIPAA Journal –
Aflac data
breach article

Źródło 15

Office of the
Australian Information
Commissioner –
Statement on Qantas
cyber incident

Źródło 16

Qantas – Information
for customers on
cyber incident

Źródło 17

Qantas Newsroom –
Update on Qantas
cyber incident
(9 July 2025)

Źródło 18

Michigan Attorney
General – Consumer
alert on data breaches
(TransUnion)

Źródło 19

Maine Attorney
General – Allianz Life
cyber incident notice

Źródło 20

California Attorney
General – Allianz data
breach report
(SB24-612078)

Źródło 21

University of
Maryland – Cyber
Security Statistics

Źródło 22

Microsoft Digital
Defense Report 2023

Źródło 23

WIRED – NotPetya
cyberattack article

Źródło 24

Reuters – UnitedHealth
tech unit hack article

Źródło 25

The Guardian – Jaguar
Land Rover hack article

Źródło 26

NBC News –
MGM Resorts
cyberattack cost article

Źródło 27

Delaware Department
of Technology &
Information –
eSecurityNews
(Oct 2023)

Źródło 28

Cybersecurity
Ventures – Global
ransomware damage
cost projection

Źródło 29

JumpCloud – Phishing
attack statistics

Źródło 30

Hornetsecurity – Email
threats in 2024

Źródło 31

Spearshield –
Click‑to‑credential
phishing study

Źródło 32

APWG – Phishing
Activity Trends Reports

Źródło 33

arXiv – Academic
password/credential
research (2025)

Źródło 34

DeepStrike – Password
statistics 2025

Źródło 35

NordPass – Top 200
Most Common
Passwords

Źródło 36

Financial Times –
Supply‑chain
cybersecurity article

Źródło 37

SecurityScorecard –
2025 Supply Chain
Cybersecurity Trends

Źródło 38

National Technology &
Security Coalition –
2025 Software Supply
Chain Security Report

Źródło 39

Palo Alto Networks –
State of Cloud
Native Security

Źródło 40

IBM – Threat
Intelligence Report

Źródło 41

Tenable –
Cloud Security
Risk Report 2025

Źródło 42

Cybersecurity
Ventures –
Cybersecurity Cost
Report

Źródło 43

Statista Market
Insights – Estimated
cost of cybercrime
worldwide 2018‑2029
(ResearchGate)

Źródło 44

Statista – Cost of
cybercrime worldwide
forecast

Źródło 45

FTC – Consumer
Sentinel Network Data
Book 2024

Źródło 46

FBI IC3 – 2024 Internet
Crime Report

Źródło 47

Kroll – Data Breach
Outlook 2025

Źródło 48

IBM – Cost of a Data
Breach 2024: Financial
Industry

Źródło 49

SailPoint – 2024
State of Identity
Security in Financial
Services

Źródło 50

DeepStrike –
Healthcare data
breach statistics 2025

Źródło 51

Proofpoint &
Ponemon – Healthcare
Cybersecurity Report

Źródło 52

Check Point –
Cyber Security
Report 2025

Źródło 53

Thales – 2024
Data Threat Report:
Critical Infrastructure
Edition

Źródło 54

Cyfirma – Energy &
Utilities industry report

Źródło 55

World Economic
Forum – Global
Cybersecurity Outlook
2025

Źródło 56

DeepStrike – Cyber
attacks on small
businesses

Źródło 57

Devolutions – State of
IT Security Report 2025

Źródło 58

TotalAssure –
Small business
cybersecurity statistics
2025

Źródło 59

Cisco – Cybersecurity
Readiness Index 2025

Źródło 60

IANS Research –
Security budgets
press release (2024)

Źródło 61

Munich Re –
Cyber insurance risks
and trends 2025

Źródło 62

Gartner – 2025
information security
spending forecast

Źródło 63

Forrester – 2024
Cybersecurity
Benchmarks (Global)

Źródło 64

Ivanti – State of
Cybersecurity Report

Źródło 65

U.S. Department of
Homeland Security –
FY 2025 Budget in Brief

Źródło 66

U.S. Department of
Defense – CYBERCOM
Budget Justification

Źródło 67

Google Cloud –
Cybersecurity forecast

Źródło 68

Gartner – Generative AI
attack survey
(Sep 22 2025)

Źródło 69

Splashtop – Top
cybersecurity trends
and predictions
for 2026

Źródło 70

ENISA – Threat
Landscape 2024