Statistiken zur Cybersicherheit:
Methodik und Quellen

Zweck dieser Seite

Auf dieser Seite wird erklärt, wie die auf unserer Seite „Cybersicherheitsstatistiken“ dargestellten Daten erhoben, verarbeitet und interpretiert werden, und es wird vollständige Transparenz hinsichtlich der verwendeten Datenquellen geboten. Auf der Hauptseite „Cybersicherheitsstatistiken“ findest du zusammengefasste Ergebnisse und Erkenntnisse aus den Untersuchungen von NordVPN.

Datenquellen und Quellenangaben

Die Quellensuche erfolgt über die Google Custom Search API (GCS) unter Verwendung mehrerer Custom Search Engines (CSEs), die für Folgendes konfiguriert sind:

  • Medien: 44 Mainstream- und Tech-Medien (z. B. BBC, CNN, The New York Times, WSJ, FT, Reuters, Bloomberg, TechCrunch, Wired, Ars Technica, Time, Forbes).

  • Autoritative Websites/Referenzseiten: 25 Branchen- und Expertenquellen (z. B. CISA, KrebsOnSecurity, The Hacker News, Dark Reading, BleepingComputer, SecurityWeek, Infosecurity Magazine).

  • Lokale Nachrichten: Über 100 regionale und nationale Medien in den Regionen APAC, EMEA und Amerika (z. B. Channel NewsAsia, CSA.gov.sg, Zaobao; HK01, unwire.hk; Japan Times, NISC, JPCERT, ITMedia).

  • uneingeschränkt/allgemein.

Die Abfragen basieren auf einer gepflegten Stichwortliste, in der die Begriffe nach Kategorien geordnet sind.

Alle Datensätze enthalten eine ausdrückliche Quellenangabe:

  • Link zum Originalartikel

  • Medienunternehmen (aus der URL extrahierte Domain)

  • Veröffentlichungsdatum und Erfassungsdatum

Wir synthetisieren Informationen aus vielen Quellen für Statistiken und die Aggregation von Ereignissen. Jede Statistik wird aus Belegen auf Artikelebene abgeleitet, die mit Links gespeichert sind.

Häufigkeit der Inhaltsabfrage und -erfassung

Ruft Volltextinhalte von gefundenen Links ab mit:

  • Primär: NewsPlease

  • Fallback: direkter HTML-Download mit gehärteter Request-Session und Tafilatura-Extraktion.

Timeouts, Wiederholungsversuche, TLS-Fallbacks und Referer-Header werden verwendet, um vorübergehende Fehler zu reduzieren.

Veröffentlichungsdatum und Titel werden, sofern verfügbar, aus dem Extraktor übernommen; die Datumsanalyse wird auf das reine Datum normiert.

Tägliche Abfragen beziehen sich auf die Inhalte des letzten Tages.

Feature-Extraktion

Zu den extrahierten Feldern gehören:

  • Medienunternehmen (aus URL)

  • Erster Absatz (erste 3 bis 5 Sätze)

  • Keyword-Merkmale: Gesamtanzahl im Text, Vorkommen im Titel, Sätze mit dem Seed-Keyword und Vorkommen von Keywords aus der gepflegten Liste

  • Wortanzahl

LLM-Relevanzbewertung

Jeder Artikel wird von einem LLM mit einer deterministischen Einstellung (Temperatur 0) und einer eingeschränkten Eingabeaufforderung bewertet, die explizite, strukturierte Ausgaben erfordert:

1. Ob der Artikel für ein Cyber-Ereignis relevant ist

2. Falls relevant, wird ein übergeordneter Ereignistyp zugewiesen:

  • Vorfall: Ein bestätigter Cyberangriff oder eine bestätigte Sicherheitsverletzung ist bereits aufgetreten (z. B. Ransomware-Einsatz, Datenexfiltration, DDoS, Systemkompromittierung).

  • Schwachstelle: Entdeckung oder Offenlegung einer Sicherheitslücke in Software/Hardware/Systemen, die ausgenutzt werden könnte (potenzielles Risiko statt bestätigter Ausnutzung).

  • Threat Intelligence: Berichte über Angreifer, Tools, TTPs und Kampagnen – der Fokus liegt auf „wer/wie“, nicht auf einem bestimmten Vorfall mit einem Opfer.

  • Regulatorisch-rechtlich: Gesetze, Vorschriften, Durchsetzungsmaßnahmen, Gerichtsentscheidungen oder wesentliche politische Änderungen, die sich auf die Verpflichtungen im Bereich Cybersicherheit auswirken.

Artikeltyp und Kategorisierung

Relevante Artikel werden anhand strukturierter Taxonomie-Kriterien kategorisiert (primär: Angriffsstatus, Ereignistyp, regulatorisch/rechtlich; sekundär: Auswirkungskennzahlen/Klasse, technische Details, Branchen, Geografie, Größe, geschätzter Schaden).

Ereignis-Clustering (Aggregation von Artikeln zu Ereignissen)

Ziel: Artikel, die denselben zugrunde liegenden Vorfall beschreiben, zu einem einzigen „Ereignis“ zusammenfassen.

Methode:

  • Abrufen vorhandener Ereignisse aus der Datenbank, um Kontextinformationen bereitzustellen (Titel, bekannte betroffene Organisationen, Angreifer, Links).

  • Bei jedem Kandidatenartikel, dessen Artikeltyp „Single Incident“ ist, gleicht das LLM die Details des Artikels mit Gruppen bestehender Ereignisse ab und trifft dann eine Entscheidung:

1. Weist eine vorhandene Ereignis-ID zu, wenn eine Übereinstimmung mit hoher Zuverlässigkeit vorliegt, oder

2. Erstellt andernfalls ein neues Ereignis.

  • Die Prompts legen Wert auf hohe Genauigkeit: Verlinkt nur dann auf ein bestehendes Ereignis, wenn es absolut sicher ist. Betroffene Organisation(en) und Signale von Bedrohungsakteuren werden als starke Indikatoren behandelt.

Ereignisse enthalten aggregierte Felder: Datum des ersten/letzten Auftretens, Anzahl der Artikel, betroffene Organisationen, Bedrohungsakteure, Titel, Links.

Genauigkeit und Qualitätssicherung

Determinismus und Einschränkungen:

  • LLM-Temperatur auf 0 gesetzt, um den Determinismus zu maximieren und Halluzinationen zu reduzieren.

  • Eingeschränkte Eingabeaufforderungen erfordern explizite Felder und JSON-Ausgaben; die Analyse erzwingt das Schema.

  • Artikel ohne Inhalt (fehlender Titel/Text) werden frühzeitig abgelehnt.

LLM-gesteuerte, schemavalidierte Metriken:

  • Alle Metrikfelder werden durch deterministische LLM-Läufe (Temperatur 0) unter strengen, dokumentierten Richtlinien und JSON-Schemas erzeugt; es werden nur schemakonforme Ausgaben gezählt, wobei regelmäßige manuelle Qualitätssicherung zur Kalibrierung und zur Vermeidung von Abweichungen durchgeführt wird.

Ereignis-/Artikelklassifizierung für die präzise Filterung:

  • Die Klassifizierung nach Ereignistyp und Artikelschwerpunkt dient als strenges Relevanzfilter, das themenfremde, wenig aussagekräftige oder zusammenfassende Inhalte aussortiert. Die Konzentration auf Single-Incident-Berichte reduziert irrelevante Treffer und verbessert die Qualität des Datensatzes messbar.

Validierung aus mehreren Quellen:

  • Die Ereignisgruppierung bezieht sich auf den zuvor gespeicherten Ereigniskontext; Nichtübereinstimmungen verringern die Wahrscheinlichkeit falscher Zusammenführungen.

  • Die Aggregationen enthalten die Liste der Quelllinks pro Ereignis zur manuellen Überprüfung.

Menschliche Überprüfung

  • Fälle mit großer Tragweite oder mehrdeutige Fälle können zur redaktionellen Überprüfung und Faktenprüfung markiert werden.

  • Regelmäßige QA-Überprüfungen: Stichproben von Artikeln und Ereignissen werden monatlich einer Präzisionsüberprüfung unterzogen. Jede Abweichung führt zu Anpassungen von Prompts, Modellen oder Schlüsselwörtern.

Rückverfolgbarkeit:

  • Jede Statistik lässt sich zur Nachvollziehbarkeit auf Artikel und Links in der Datenbank zurückverfolgen.

Einschränkungen

Abdeckungseinschränkungen:

  • Die GCS-basierte Erkennung hängt von Schlüsselwörtern und der CSE-Konfiguration ab; nicht alle Vorfälle werden erfasst, insbesondere nicht in konfigurierten Sprachen oder bei Paywall-Inhalten.

  • Einige Websites blockieren den automatischen Abruf; solche Artikel können teilweise oder vollständig fehlen.

LLM-spezifische Risiken:

  • Trotz deterministischer Einstellungen und strukturierter Prompts kann es zu Fehlklassifizierungen kommen, insbesondere bei spärlichen oder mehrdeutigen Texten.

  • Event-Clustering kann denselben Vorfall in mehrere Ereignisse aufteilen oder in Grenzfällen ähnliche, aber unterschiedliche Vorfälle zusammenführen.

Wie Statistiken berechnet werden

Felder auf Artikelebene werden aus direkter Extraktion und LLM-Ausgaben (pro Datensatz gespeichert) abgeleitet.

Metriken auf Ereignisebene aggregieren konstituierende Artikel nach event_id:

  • Artikelanzahl, Datum des ersten/letzten Auftretens

  • deduplizierte betroffene Organisationen und Bedrohungsakteure

  • repräsentative Titel und kanonische Linklisten

Die Berichtsstatistiken werden aus diesen gespeicherten Tabellen abgerufen; jede Zahl lässt sich auf Ereigniszeilen und die zugrunde liegenden Artikeldatensätze zurückführen.

Umfang der Daten

Die Statistiken und Erkenntnisse, auf die in unseren Inhalten zur Cybersicherheit Bezug genommen wird, stammen aus einer Kombination von:

  • Öffentlich zugänglichen Berichten über Cybersicherheitsvorfälle

  • Medienberichterstattungen über bestätigte Cybervorfälle

  • Branchenberichten und Umfragen

  • Offenlegungen von Behörden und Aufsichtsbehörden

Die Daten spiegeln öffentlich beobachtbare und gemeldete Aktivitäten wider, nicht die gesamte Bandbreite aller Cybervorfälle, die weltweit auftreten. Viele Cybervorfälle werden nie offengelegt, gemeldet oder von den Medien behandelt.

Datenquellen und -erfassung

Quellentypen

Artikel und Berichte zum Thema Cybersicherheit werden aus mehreren Quellenkategorien gesammelt, darunter:

  • Mainstream- und Technologiemedien.
    Dazu gehören beispielsweise große internationale Nachrichtenagenturen und Technologiepublikationen.

  • Autoritative und fachkundige Cybersicherheitsquellen.
    Einschließlich Behörden, Cybersicherheits-Forschungsorganisationen und etablierter Branchenpublikationen.

  • Regionale und lokale Nachrichtenmedien.
    Berichte über Cybersicherheitsvorfälle in Nordamerika, Europa, im asiatisch-pazifischen Raum und anderen Regionen.

  • Branchen- und Forschungsberichte.
    Einschließlich jährlicher Berichte zu Sicherheitsverletzungen, Berichten zur Bedrohungslage, Umfragen und wirtschaftlichen Analysen.

Jede Quelle wird auf Artikel- oder Berichtsebene angegeben, wobei das Veröffentlichungsdatum, die Publikationsquelle und die ursprüngliche URL beibehalten werden.

Erfassungsprozess

Die Inhaltserfassung erfolgt mithilfe automatisierter Suchanfragen auf Basis einer gepflegten Liste von Cybersicherheits-Keywords. Die Keywords sind nach Themen gruppiert (zum Beispiel: Datenlecks, Ransomware, Phishing, Sicherheitslücken, Regulierung).

Es werden täglich Suchläufe durchgeführt, um neu veröffentlichte Inhalte zu erfassen. Bei jedem Durchlauf werden nur aktuelle Daten abgefragt, um sicherzustellen, dass der Datensatz den aktuellen Berichten entspricht.

Erhebung und Verarbeitung von Daten

Abrufen eines Artikels

Sobald eine Quelle gefunden wurde, wird der vollständige Artikeltext mithilfe automatisierter Extraktions-Tools abgerufen. Wenn die primäre Extraktion fehlschlägt, werden Fallback-Methoden verwendet, um eine zuverlässige Abdeckung zu gewährleisten.

Deduplizierung

Vermeidung von Doppelzählungen:

  • Identische URLs werden nur einmal verarbeitet

  • Wiederveröffentlichte oder syndizierte Inhalte werden auf Artikelebene dedupliziert

  • Die Aggregation auf Ereignisebene (siehe unten) reduziert Doppelzählungen zwischen den verschiedenen Kanälen noch weiter

Relevanzfilterung und Klassifizierung

Bewertung der Cybersicherheitsrelevanz

Jeder Artikel wird bewertet, um festzustellen, ob er für die Cybersicherheitsstatistik relevant ist. Die Artikel müssen ein Cybersicherheitsereignis, eine Bedrohung, eine Schwachstelle oder eine regulatorische Maßnahme aussagekräftig beschreiben oder analysieren.

Klassifizierung des Ereignistyps

Relevante Artikel werden in übergeordnete Kategorien eingeteilt, darunter:

  • Vorfall – Ein bestätigter Cyberangriff oder eine Sicherheitsverletzung, die bereits stattgefunden hat

  • Sicherheitslücke – Offenlegung einer Sicherheitsschwachstelle, die ausgenutzt werden könnte

  • Threat Intelligence – Berichte über Angreifer, Tools, Kampagnen oder Techniken

  • Regulatorisch / rechtlich – Gesetze, Durchsetzungsmaßnahmen, Richtlinienänderungen oder Gerichtsverfahren im Zusammenhang mit Cybersicherheit

Diese Klassifizierung stellt sicher, dass Statistiken zu „Vorfällen“, „Sicherheitsverletzungen“ oder „Angriffen“ nicht mit der Offenlegung von Sicherheitslücken oder allgemeinen Kommentaren verwechselt werden.

Ereignis-Clustering (Aggregation von Artikeln zu Ereignissen)

Oft berichten mehrere Artikel über denselben zugrunde liegenden Cybervorfall. Um Doppelzählungen zu vermeiden:

  • Artikel, die denselben Vorfall beschreiben, werden zu einem einzigen Ereignis zusammengefasst

  • Ereignissen werden stabile interne Kennungen zugewiesen

  • Artikel werden nur dann mit bestehenden Ereignissen verknüpft, wenn eine hohe Wahrscheinlichkeit besteht, dass sie dasselbe Ereignis beschreiben

Zu den Indikatoren, die für das Clustering verwendet werden, gehören betroffene Organisationen, Bedrohungsakteure, Zeitachsen und Beschreibungen von Vorfällen.

Datensätze auf Ereignisebene enthalten:

  • Datum des ersten und letzten Auftretens

  • Anzahl der zugehörigen Artikel

  • Betroffene Organisationen

  • Referenzierte Bedrohungsakteure

  • Quelllinks zur Verifizierung

Einsatz automatisierter Analysen und Qualitätskontrollen

Automatisierte Klassifizierung

Für die Klassifizierung, Extraktion und Aggregation wird eine strukturierte, deterministische Sprachmodellanalyse verwendet. Alle automatisierten Ausgaben folgen vordefinierten Schemata, um Konsistenz zu gewährleisten.

Die Modelle arbeiten mit deterministischen Einstellungen, um Variabilität und das Risiko von Halluzinationen zu verringern.

Qualitätssicherung

Um die Genauigkeit zu gewährleisten:

  • Die Schema-Validierung stellt sicher, dass nur korrekt strukturierte Ausgaben gezählt werden

  • Es werden regelmäßig monatliche Stichproben- und Überprüfungsverfahren, einschließlich einer Genauigkeitsprüfung, durchgeführt, um Klassifizierungsabweichungen zu erkennen. Diese Überprüfung deckt Verschiebungen in der Klassifizierung auf, die dann als Grundlage für Anpassungen am Modell dienen und diese erforderlich machen.

  • Mehrdeutige oder besonders schwerwiegende Fälle werden zur manuellen Überprüfung markiert

  • Aggregierte Statistiken behalten die Rückverfolgbarkeit zu einzelnen Artikeln und Ereignissen bei

Wie Statistiken berechnet werden

Metriken auf Artikelebene vs. auf Ereignisebene

Einige Statistiken basieren auf:

  • Zahlen auf Artikelebene (z. B. Umfang der Medienberichterstattung)

  • Zahlen auf Ereignisebene (z. B. Anzahl der einzelnen Verstöße oder Vorfälle)

Wo möglich, werden Metriken auf Ereignisebene bevorzugt, um Doppelzählungen zu vermeiden.

Interpretation von Anzahl und Häufigkeiten

Statistiken wie „Vorfälle pro Tag“ oder „Verstöße pro Jahr“ stellen gemeldete oder in den Medien sichtbare Aktivitäten dar, nicht die gesamte globale Aktivität.

Anbieterdaten, behördliche Beschwerdesysteme und wirtschaftliche Prognosen weisen oft deutlich höhere Zahlen aus, was auf Unterschiede im Erfassungsbereich und in der Methodik zurückzuführen ist. Diese Unterschiede werden an den entsprechenden Stellen vermerkt.

Einschränkungen und Einschätzungen

Obwohl wir uns um Genauigkeit und Konsistenz bemühen, weisen die Daten gewisse Einschränkungen auf:

  • Nicht alle Vorfälle werden öffentlich bekannt gegeben oder gemeldet

  • Die Medienberichterstattung variiert je nach Region, Branche und Ausmaß des Vorfalls

  • Einige Quellen beschränken den Zugang

  • In Grenzfällen können Klassifizierungsfehler auftreten

  • Die Zahlen zu den wirtschaftlichen Verlusten können sich im Laufe der Ermittlungen ändern

Statistiken sollten daher als Richtwerte und nicht als erschöpfende Messungen interpretiert werden.

Quellenverzeichnis

Jede der unten aufgeführten nummerierten Quellen entspricht einer Fußnote, die auf der Seite „Cybersicherheitsstatistiken“ verwendet wird. Fußnoten verweisen direkt auf den entsprechenden Eintrag auf dieser Seite.

Quelle 1

Statista –
Cybercrime worldwide

Quelle 2

Identity Theft
Resource Center
(ITRC) – Weekly
Breach
Breakdown
Q3 2025

Quelle 3

Identity Theft
Resource Center
(ITRC) – H1 2025
Data Breach Analysis

Quelle 4

Verizon –
Data Breach
Investigations
Report (DBIR) 2025

Quelle 5

IBM –
Cost of a Data
Breach Report 2025

Quelle 6

South Korean
Ministry of
Science and
ICT – SK Telecom data
exfiltration
incident

Quelle 7

Aflac – June
2025 security
incident
regulatory filing

Quelle 8

HIPAA Journal –
Largest healthcare
data breaches of 2025

Quelle 9

California Attorney
General – Aflac
breach report
(SB24-616010)

Quelle 10

Iowa Attorney
General – Aflac
data breach notification

Quelle 11

Rhode Island
Attorney General –
Data‑breach
notifications

Quelle 12

Rhode Island
AG –
Data‑breach
notification

Quelle 13

Aflac Newsroom –
June 2025
security incident
update

Quelle 14

HIPAA Journal –
Aflac data
breach article

Quelle 15

Office of the
Australian Information
Commissioner –
Statement on Qantas
cyber incident

Quelle 16

Qantas – Information
for customers on
cyber incident

Quelle 17

Qantas Newsroom –
Update on Qantas
cyber incident
(9 July 2025)

Quelle 18

Michigan Attorney
General – Consumer
alert on data breaches
(TransUnion)

Quelle 19

Maine Attorney
General – Allianz Life
cyber incident notice

Quelle 20

California Attorney
General – Allianz data
breach report
(SB24-612078)

Quelle 21

University of
Maryland – Cyber
Security Statistics

Quelle 22

Microsoft Digital
Defense Report 2023

Quelle 23

WIRED – NotPetya
cyberattack article

Quelle 24

Reuters – UnitedHealth
tech unit hack article

Quelle 25

The Guardian – Jaguar
Land Rover hack article

Quelle 26

NBC News –
MGM Resorts
cyberattack cost article

Quelle 27

Delaware Department
of Technology &
Information –
eSecurityNews
(Oct 2023)

Quelle 28

Cybersecurity
Ventures – Global
ransomware damage
cost projection

Quelle 29

JumpCloud – Phishing
attack statistics

Quelle 30

Hornetsecurity – Email
threats in 2024

Quelle 31

Spearshield –
Click‑to‑credential
phishing study

Quelle 32

APWG – Phishing
Activity Trends Reports

Quelle 33

arXiv – Academic
password/credential
research (2025)

Quelle 34

DeepStrike – Password
statistics 2025

Quelle 35

NordPass – Top 200
Most Common
Passwords

Quelle 36

Financial Times –
Supply‑chain
cybersecurity article

Quelle 37

SecurityScorecard –
2025 Supply Chain
Cybersecurity Trends

Quelle 38

National Technology &
Security Coalition –
2025 Software Supply
Chain Security Report

Quelle 39

Palo Alto Networks –
State of Cloud
Native Security

Quelle 40

IBM – Threat
Intelligence Report

Quelle 41

Tenable –
Cloud Security
Risk Report 2025

Quelle 42

Cybersecurity
Ventures –
Cybersecurity Cost
Report

Quelle 43

Statista Market
Insights – Estimated
cost of cybercrime
worldwide 2018‑2029
(ResearchGate)

Quelle 44

Statista – Cost of
cybercrime worldwide
forecast

Quelle 45

FTC – Consumer
Sentinel Network Data
Book 2024

Quelle 46

FBI IC3 – 2024 Internet
Crime Report

Quelle 47

Kroll – Data Breach
Outlook 2025

Quelle 48

IBM – Cost of a Data
Breach 2024: Financial
Industry

Quelle 49

SailPoint – 2024
State of Identity
Security in Financial
Services

Quelle 50

DeepStrike –
Healthcare data
breach statistics 2025

Quelle 51

Proofpoint &
Ponemon – Healthcare
Cybersecurity Report

Quelle 52

Check Point –
Cyber Security
Report 2025

Quelle 53

Thales – 2024
Data Threat Report:
Critical Infrastructure
Edition

Quelle 54

Cyfirma – Energy &
Utilities industry report

Quelle 55

World Economic
Forum – Global
Cybersecurity Outlook
2025

Quelle 56

DeepStrike – Cyber
attacks on small
businesses

Quelle 57

Devolutions – State of
IT Security Report 2025

Quelle 58

TotalAssure –
Small business
cybersecurity statistics
2025

Quelle 59

Cisco – Cybersecurity
Readiness Index 2025

Quelle 60

IANS Research –
Security budgets
press release (2024)

Quelle 61

Munich Re –
Cyber insurance risks
and trends 2025

Quelle 62

Gartner – 2025
information security
spending forecast

Quelle 63

Forrester – 2024
Cybersecurity
Benchmarks (Global)

Quelle 64

Ivanti – State of
Cybersecurity Report

Quelle 65

U.S. Department of
Homeland Security –
FY 2025 Budget in Brief

Quelle 66

U.S. Department of
Defense – CYBERCOM
Budget Justification

Quelle 67

Google Cloud –
Cybersecurity forecast

Quelle 68

Gartner – Generative AI
attack survey
(Sep 22 2025)

Quelle 69

Splashtop – Top
cybersecurity trends
and predictions
for 2026

Quelle 70

ENISA – Threat
Landscape 2024