Statystyki cyberbezpieczeństwa: Metodologia i źródła
Cel tej strony
Na tej stronie wyjaśniamy, jak gromadzimy, przetwarzamy i interpretujemy statystyki dotyczące cyberbezpieczeństwa prezentowane na naszej stronie „Statystyki cyberbezpieczeństwa”, a także zapewniamy pełną przejrzystość w zakresie źródeł danych, do których się odnosimy. Główna strona poświęcona statystykom cyberbezpieczeństwa zawiera podsumowanie wyników oraz wnioski z badań i analiz przeprowadzonych przez NordVPN.
Źródła danych i informacje o autorstwie
Wyszukiwanie źródeł odbywa się za pośrednictwem interfejsu API Google Custom Search (GCS) przy użyciu wielu niestandardowych wyszukiwarek (CSE) skonfigurowanych dla:
mediów: 44 popularne i technologiczne serwisy informacyjne (np. BBC, CNN, The New York Times, WSJ, FT, Reuters, Bloomberg, TechCrunch, Wired, Ars Technica, Time, Forbes).
zaufanych stron / stron referencyjnych: 25 źródeł branżowych i eksperckich (np. CISA, KrebsOnSecurity, The Hacker News, Dark Reading, BleepingComputer, SecurityWeek, Infosecurity Magazine).
wiadomości lokalnych: ponad 100 regionalnych i krajowych mediów w regionach APAC, EMEA i obu Amerykach (np. Channel NewsAsia, CSA.gov.sg, Zaobao; HK01, unwire.hk; Japan Times, NISC, JPCERT, ITMedia).
ogólnych / bez ograniczeń.
Zapytania opierają się na słowach kluczowych z aktualizowanej listy, która grupuje terminy według kategorii.
Wszystkie zapisy zawierają wyraźne wskazanie źródła:
link do oryginalnego artykułu
serwis medialny (domena wyodrębniona z adresu URL)
data publikacji i data zebrania.
Zbieramy informacje z wielu źródeł, żeby tworzyć statystyki i zestawienia wydarzeń. Każda statystyka opiera się na dowodach z artykułów, które przechowujemy wraz z linkami.
Częstotliwość pobierania i gromadzenia treści
Pobiera treść pełnotekstową z wykrytych linków za pomocą:
głównie: NewsPlease
metody rezerwowej: bezpośrednie pobieranie HTML z sesją wzmocnionych żądań i ekstrakcją trafilatury.
Limity czasu, ponowne próby, rezerwowe protokoły TLS i nagłówki typu referer są używane, aby ograniczyć przejściowe awarie.
Data publikacji i tytuł są pobierane z ekstraktora, jeśli są dostępne; analiza daty jest normalizowana do samej daty.
Codzienne zapytania sprawdzają treści z ostatniego dnia.
Wyodrębnianie funkcji
Wyodrębnione pola obejmują:
serwis medialny (z adresu URL)
pierwszy akapit (pierwsze 3–5 zdań)
cechy słów kluczowych: łączna liczba w tekście, obecność w tytule, zdania zawierające słowo kluczowe źródłowe oraz obecność dowolnych słów kluczowych z aktualizowanej listy
liczbę słów.
Ocena trafności LLM
Każdy artykuł jest oceniany przez LLM z ustawieniem deterministycznym (temperatura 0) i ograniczonym promptem, który wymaga wyraźnych, ustrukturyzowanych wyników:
1. Czy artykuł jest istotny z punktu widzenia cyberzdarzeń
2. W razie potrzeby przypisywany jest ogólny typ zdarzenia:
Incydent: potwierdzono, że doszło już do cyberataku lub naruszenia bezpieczeństwa (np. użycie oprogramowania ransomware, wyciek danych, atak DDoS, przejęcie kontroli nad systemem).
Luka w zabezpieczeniach: odkrycie lub ujawnienie luki w zabezpieczeniach oprogramowania/sprzętu/systemów, którą można wykorzystać (potencjalne ryzyko, a nie potwierdzone wykorzystanie).
Inteligentne wykrywanie zagrożeń: raportowanie o podmiotach stwarzających zagrożenie, narzędziach, TTP i kampaniach – koncentruje się na „kto/jak” zamiast na konkretnym incydencie ofiary.
Przepisy i prawo: ustawy, rozporządzenia, działania egzekucyjne, orzeczenia sądowe lub istotne zmiany w prawie, które mają wpływ na obowiązki w zakresie cyberbezpieczeństwa.
Rodzaj artykułu i kategoryzacja
Odpowiednie artykuły są kategoryzowane za pomocą ustrukturyzowanych podpowiedzi taksonomicznych (główne: status ataku, typ zdarzenia, regulacje/prawo; dodatkowe: wskaźniki wpływu, szczegóły techniczne, sektory, lokalizacja, skala, przybliżone szkody).
Grupowanie zdarzeń (agregacja artykułów do zdarzeń)
Cel: pogrupowanie artykułów opisujących ten sam incydent leżący u podstaw w jedno „zdarzenie”.
Metoda:
Pobranie istniejących zdarzeń z bazy danych, aby uzyskać kontekst (tytuły, znane organizacje, których to dotyczy, sprawcy zagrożeń, linki).
Dla każdego artykułu kandydującego (gdzie typ artykułu = pojedyncze zdarzenie) model LLM porównuje szczegóły artykułu z partiami istniejących zdarzeń i albo:
1. przypisuje istniejący identyfikator zdarzenia, gdy występuje dopasowanie o wysokim prawdopodobieństwie, lub
2. tworzy nowe zdarzenie.
Podpowiedzi kładą nacisk na wysoką precyzję: link do istniejącego zdarzenia należy umieszczać tylko wtedy, gdy istnieje wysoki poziom prawdopodobieństwa. Organizacje, których to dotyczy, oraz sygnały wskazujące na podmioty stanowiące zagrożenie są traktowane jako mocne wskaźniki.
Zdarzenia zawierają zagregowane pola: daty pierwszego/ostatniego zauważenia, liczbę artykułów, dotknięte organizacje, agresorów, tytuły, linki.
Dokładność i zapewnienie jakości
Determinizm i ograniczenia:
Temperatura LLM ustawiona na 0, żeby zmaksymalizować determinizm i ograniczyć halucynacje.
Ograniczone podpowiedzi wymagają wyraźnych pól i wyników w formacie JSON; parsowanie wymusza schemat.
Artykuły bez treści (brak tytułu/tekstu) są odrzucane na wczesnym etapie.
Wskaźniki zarządzane przez LLM i zweryfikowane pod kątem schematu:
Wszystkie pola metryk są generowane przez deterministyczne uruchomienia LLM (temperatura 0) zgodnie ze ścisłymi, udokumentowanymi wytycznymi i schematami JSON; uwzględniane są tylko wyniki zgodne ze schematem, a okresowa kontrola jakości przez człowieka służy kalibracji i zapobieganiu dryfowi.
Klasyfikacja wydarzeń/artykułów do precyzyjnego filtrowania:
Klasyfikacja według typu zdarzenia i tematu artykułu służy jako ścisły filtr trafności, odrzucający treści niezwiązane z tematem, o niskim sygnale lub w stylu podsumowania. Skupienie się na zgłaszaniu pojedynczych zdarzeń ogranicza szum i wyraźnie poprawia precyzję oraz dokładność zbioru danych.
Weryfikacja z wielu źródeł:
Grupowanie zdarzeń odwołuje się do wcześniej zapisanych kontekstów zdarzeń; niedopasowania zmniejszają ryzyko nieprawidłowego scalania.
Agregacje zawierają listę linków źródłowych dla każdego zdarzenia do ręcznej weryfikacji.
Weryfikacja przez człowieka:
Przypadki szczególnie ważne lub niejednoznaczne mogą być zgłaszane do przeglądu i sprawdzania faktów.
Regularne przeglądy jakości: wybrane artykuły i wydarzenia są sprawdzane co miesiąc w ramach szczegółowej kontroli; każde odchylenie powoduje natychmiastowe dostosowanie modelu lub słów kluczowych.
Identyfikowalność:
Każdą statystykę można powiązać z artykułami i linkami zawartymi w bazie danych, co pozwala na weryfikację.
Ograniczenia
Limity zakresu:
Wykrywanie oparte na GCS zależy od słów kluczowych i konfiguracji CSE; nie wszystkie incydenty są rejestrowane, zwłaszcza poza skonfigurowanymi językami lub treściami objętymi płatnym dostępem.
Niektóre witryny blokują automatyczne pobieranie; takie artykuły mogą częściowo lub całkowicie nie być dostępne.
Ryzyko związane z LLM:
Mimo deterministycznych ustawień i ustrukturyzowanych podpowiedzi mogą zdarzyć się błędy klasyfikacji, zwłaszcza w przypadku tekstów rzadkich lub niejednoznacznych.
W skrajnych przypadkach grupowanie zdarzeń może podzielić ten sam incydent na wiele zdarzeń lub połączyć podobne, ale odrębne incydenty.
Jak obliczane są statystyki
Pola na poziomie artykułu pochodzą z bezpośredniej ekstrakcji i wyników modelu LLM (przechowywane dla każdego zapisu).
Metryki na poziomie wydarzenia agregują poszczególne artykuły według identyfikatorów wydarzenia (event_id):
liczby artykułów, daty pierwszego/ostatniego wyświetlenia
liczby zduplikowanych organizacji, które ucierpiały, oraz podmiotów stanowiących zagrożenie
reprezentatywnych tytułów i listy linków kanonicznych
Statystyki raportów pochodzą z tych tabel; każdą liczbę można prześledzić aż do wierszy zdarzeń i powiązanych zapisów artykułów.
Zakres danych
Statystyki i spostrzeżenia, do których odwołujemy się w naszych treściach dotyczących cyberbezpieczeństwa, pochodzą z połączenia:
publicznie dostępnych raportów o incydentach związanych z cyberbezpieczeństwem,
relacji medialnych na temat potwierdzonych incydentów cybernetycznych,
raportów i badań branżowych,
informacji rządowych i prawnych.
Dane odzwierciedlają działania, które można zaobserwować i które są zgłaszane publicznie, a nie wszystkie cyberincydenty, które mają miejsce na całym świecie. Wiele cyberincydentów nigdy nie jest ujawnianych, zgłaszanych ani opisywanych przez media.
Źródła danych i ich wyszukiwanie
Typy źródeł
Artykuły i raporty dotyczące cyberbezpieczeństwa są zbierane z wielu różnych źródeł, w tym z poniższych:
Media głównego nurtu i media technologiczne.
Przykłady obejmują główne międzynarodowe organizacje informacyjne i publikacje technologiczne.Wiarygodne i eksperckie źródła dotyczące cyberbezpieczeństwa.
W tym agencje rządowe, organizacje badawcze zajmujące się cyberbezpieczeństwem i uznane publikacje branżowe.Regionalne i lokalne serwisy informacyjne.
Informacje o incydentach związanych z cyberbezpieczeństwem w Ameryce Północnej, Europie, regionie Azji i Pacyfiku i innych regionach.Raporty branżowe i badawcze.
W tym roczne raporty o naruszeniach, raporty o zagrożeniach, ankiety i analizy ekonomiczne.
Każde źródło jest podane na poziomie artykułu lub raportu, z zachowaniem daty publikacji, nazwy wydawcy i oryginalnego adresu URL.
Proces wyszukiwania
Wyszukiwanie treści odbywa się za pomocą automatycznych zapytań opartych na aktualizowanej liście słów kluczowych z zakresu cyberbezpieczeństwa. Słowa kluczowe są pogrupowane według tematów (na przykład: naruszenia danych, ransomware, phishing, luki w zabezpieczeniach, regulacje).
Wyszukiwania są przeprowadzane codziennie, aby zebrać nowo opublikowane treści. Każde uruchomienie sprawdza tylko najnowsze dane, dzięki czemu zbiór danych odzwierciedla aktualne raporty.
Gromadzenie i przetwarzanie treści
Pobieranie artykułu
Po wykryciu źródła pełny tekst artykułu jest pobierany za pomocą automatycznych narzędzi do ekstrakcji. Gdy podstawowe pozyskiwanie danych zawodzi, stosuje się metody rezerwowe, aby zapewnić solidny zasięg.
Deduplikacja
Aby uniknąć podwójnego liczenia:
identyczne adresy URL są przetwarzane tylko raz,
powielane lub syndykowane treści są deduplikowane na poziomie artykułu.
agregacja na poziomie zdarzeń (opisana poniżej) jeszcze bardziej ogranicza powtórzenia między kanałami.
Filtrowanie i klasyfikacja według trafności
Ocena istotności dla cyberbezpieczeństwa
Każdy artykuł jest oceniany pod kątem tego, czy jest istotny dla statystyk dotyczących cyberbezpieczeństwa. Artykuły muszą w znaczący sposób opisywać lub analizować zdarzenie związane z cyberbezpieczeństwem, zagrożenie, lukę w zabezpieczeniach lub działanie regulacyjne.
Klasyfikacja typu zdarzenia
Odpowiednie artykuły są podzielone na ogólne kategorie, w tym:
Incydent – potwierdzony cyberatak lub naruszenie, które już miało miejsce
Luka w zabezpieczeniach – ujawnienie słabego punktu w zabezpieczeniach, który może zostać wykorzystany
Inteligentne wykrywanie zagrożeń – raportowanie o podmiotach, narzędziach, kampaniach lub technikach związanych z zagrożeniami
Przepisy / kwestie prawne – przepisy, działania egzekucyjne, zmiany w polityce lub postępowania prawne związane z cyberbezpieczeństwem
Ta klasyfikacja gwarantuje, że statystyki dotyczące „incydentów”, „naruszeń” lub „ataków” nie są mylone z ujawnieniami luk w zabezpieczeniach czy ogólnymi komentarzami.
Grupowanie zdarzeń (agregacja artykułów do zdarzeń)
Wiele artykułów często informuje o tym samym incydencie cybernetycznym. Aby zapobiec nadmiernemu liczeniu:
Artykuły opisujące ten sam incydent są zgrupowane w jedno zdarzenie
Zdarzeniom przypisuje się stałe identyfikatory wewnętrzne
Artykuły są powiązane z istniejącymi zdarzeniami tylko wtedy, gdy istnieje wysokie prawdopodobieństwo, że opisują one to samo wydarzenie
Wskaźniki używane do grupowania obejmują organizacje, których to dotyczy, sprawców zagrożeń, osie czasu i opisy incydentów.
Zapisy na poziomie zdarzenia zawierają:
Data pierwszego i ostatniego pojawienia się
Liczba powiązanych artykułów
Organizacje, których to dotyczy
Wspomniani sprawcy zagrożeń
Linki źródłowe do weryfikacji
Wykorzystanie zautomatyzowanej analizy i kontroli jakości
Zautomatyzowana klasyfikacja
Do klasyfikacji, ekstrakcji i agregacji wykorzystywana jest ustrukturyzowana, deterministyczna analiza modelu językowego. Wszystkie zautomatyzowane dane wyjściowe są zgodne ze zdefiniowanymi schematami, co zapewnia spójność.
Modele działają z ustawieniami deterministycznymi, aby zmniejszyć zmienność i ryzyko halucynacji.
Zapewnienie jakości
Aby zachować dokładność:
walidacja schematu zapewnia, że liczone są tylko prawidłowo ustrukturyzowane dane wyjściowe
co miesiąc przeprowadzane są regularne procedury pobierania próbek i przeglądu, w tym przegląd dokładności, żeby wykryć ewentualne odchylenia w klasyfikacji. Ten przegląd identyfikuje zmiany w klasyfikacji, które następnie dostarczają informacji i wymagają dostosowania modelu;
niejasne lub szczególnie istotne przypadki są oznaczane do sprawdzenia przez człowieka
zagregowane statystyki zachowują możliwość prześledzenia poszczególnych artykułów i wydarzeń.
Jak obliczane są statystyki
Wskaźniki na poziomie artykułów a wskaźniki na poziomie wydarzeń
Niektóre statystyki opierają się na:
liczbie na poziomie artykułu (np. zakres relacji w mediach)
liczbie na poziomie zdarzenia (np. liczba odrębnych naruszeń lub incydentów).
Tam, gdzie ma to zastosowanie, preferowane są wskaźniki na poziomie zdarzenia, aby ograniczyć powielanie.
Interpretacja liczb i częstotliwości
Statystyki takie jak „dzienna liczba incydentów” czy „roczna liczba naruszeń” odzwierciedlają zgłoszone lub nagłośnione w mediach przypadki, a nie całkowitą skalę zjawiska na świecie.
Dane telemetryczne dostawców, rządowe systemy zgłaszania skarg oraz prognozy ekonomiczne często wskazują na znacznie wyższe wartości ze względu na różnice w zakresie i metodologii. Różnice te są odnotowywane w stosownych przypadkach.
Ograniczenia i uwagi
Chociaż dokładamy wszelkich starań, aby zapewnić dokładność i spójność danych, mają one pewne ograniczenia:
Nie wszystkie zdarzenia są upubliczniane lub zgłaszane
Relacje mediów różnią się w zależności od regionu, sektora i skali zdarzenia
Niektóre źródła ograniczają dostęp
W skrajnych przypadkach mogą wystąpić błędy klasyfikacji
Dane dotyczące strat ekonomicznych mogą ulec zmianie z czasem
Statystyki należy zatem interpretować jako wskaźniki kierunkowe, a nie wyczerpujące pomiary.
Indeks źródeł
Każde poniższe źródło oznaczone numerem odpowiada odnośnikowi w indeksie górnym używanemu na stronie Statystyk cyberbezpieczeństwa. Indeksy górne prowadzą bezpośrednio do odpowiedniego wpisu źródłowego na tej stronie.
Źródło 1 Statista – |
|---|
Źródło 2 Identity Theft |
Źródło 3 Identity Theft |
Źródło 4 Verizon – |
Źródło 5 IBM – |
Źródło 6 South Korean |
Źródło 7 Aflac – June |
Źródło 8 HIPAA Journal – |
Źródło 9 California Attorney |
Źródło 10 Iowa Attorney |
Źródło 11 Rhode Island |
Źródło 12 Rhode Island |
Źródło 13 Aflac Newsroom – |
Źródło 14 HIPAA Journal – |
Źródło 15 Office of the |
Źródło 16 Qantas – Information |
Źródło 17 Qantas Newsroom – |
Źródło 18 Michigan Attorney |
Źródło 19 Maine Attorney |
Źródło 20 California Attorney |
Źródło 21 University of |
Źródło 22 Microsoft Digital |
Źródło 23 WIRED – NotPetya |
Źródło 24 Reuters – UnitedHealth |
Źródło 25 The Guardian – Jaguar |
Źródło 26 NBC News – |
Źródło 27 Delaware Department |
Źródło 28 Cybersecurity |
Źródło 29 JumpCloud – Phishing |
Źródło 30 Hornetsecurity – Email |
Źródło 31 Spearshield – |
Źródło 32 APWG – Phishing |
Źródło 33 arXiv – Academic |
Źródło 34 DeepStrike – Password |
Źródło 35 NordPass – Top 200 |
Źródło 36 Financial Times – |
Źródło 37 SecurityScorecard – |
Źródło 38 National Technology & |
Źródło 39 Palo Alto Networks – |
Źródło 40 IBM – Threat |
Źródło 41 Tenable – |
Źródło 42 Cybersecurity |
Źródło 43 Statista Market |
Źródło 44 Statista – Cost of |
Źródło 45 FTC – Consumer |
Źródło 46 FBI IC3 – 2024 Internet |
Źródło 47 Kroll – Data Breach |
Źródło 48 IBM – Cost of a Data |
Źródło 49 SailPoint – 2024 |
Źródło 50 DeepStrike – |
Źródło 51 Proofpoint & |
Źródło 52 Check Point – |
Źródło 53 Thales – 2024 |
Źródło 54 Cyfirma – Energy & |
Źródło 55 World Economic |
Źródło 56 DeepStrike – Cyber |
Źródło 57 Devolutions – State of |
Źródło 58 TotalAssure – |
Źródło 59 Cisco – Cybersecurity |
Źródło 60 IANS Research – |
Źródło 61 Munich Re – |
Źródło 62 Gartner – 2025 |
Źródło 63 Forrester – 2024 |
Źródło 64 Ivanti – State of |
Źródło 65 U.S. Department of |
Źródło 66 U.S. Department of |
Źródło 67 Google Cloud – |
Źródło 68 Gartner – Generative AI |
Źródło 69 Splashtop – Top |
Źródło 70 ENISA – Threat |