Statistiken zur Cybersicherheit:
Methodik und Quellen
Zweck dieser Seite
Auf dieser Seite wird erklärt, wie die auf unserer Seite „Cybersicherheitsstatistiken“ dargestellten Daten erhoben, verarbeitet und interpretiert werden, und es wird vollständige Transparenz hinsichtlich der verwendeten Datenquellen geboten. Auf der Hauptseite „Cybersicherheitsstatistiken“ findest du zusammengefasste Ergebnisse und Erkenntnisse aus den Untersuchungen von NordVPN.
Datenquellen und Quellenangaben
Die Quellensuche erfolgt über die Google Custom Search API (GCS) unter Verwendung mehrerer Custom Search Engines (CSEs), die für Folgendes konfiguriert sind:
Medien: 44 Mainstream- und Tech-Medien (z. B. BBC, CNN, The New York Times, WSJ, FT, Reuters, Bloomberg, TechCrunch, Wired, Ars Technica, Time, Forbes).
Autoritative Websites/Referenzseiten: 25 Branchen- und Expertenquellen (z. B. CISA, KrebsOnSecurity, The Hacker News, Dark Reading, BleepingComputer, SecurityWeek, Infosecurity Magazine).
Lokale Nachrichten: Über 100 regionale und nationale Medien in den Regionen APAC, EMEA und Amerika (z. B. Channel NewsAsia, CSA.gov.sg, Zaobao; HK01, unwire.hk; Japan Times, NISC, JPCERT, ITMedia).
uneingeschränkt/allgemein.
Die Abfragen basieren auf einer gepflegten Stichwortliste, in der die Begriffe nach Kategorien geordnet sind.
Alle Datensätze enthalten eine ausdrückliche Quellenangabe:
Link zum Originalartikel
Medienunternehmen (aus der URL extrahierte Domain)
Veröffentlichungsdatum und Erfassungsdatum
Wir synthetisieren Informationen aus vielen Quellen für Statistiken und die Aggregation von Ereignissen. Jede Statistik wird aus Belegen auf Artikelebene abgeleitet, die mit Links gespeichert sind.
Häufigkeit der Inhaltsabfrage und -erfassung
Ruft Volltextinhalte von gefundenen Links ab mit:
Primär: NewsPlease
Fallback: direkter HTML-Download mit gehärteter Request-Session und Tafilatura-Extraktion.
Timeouts, Wiederholungsversuche, TLS-Fallbacks und Referer-Header werden verwendet, um vorübergehende Fehler zu reduzieren.
Veröffentlichungsdatum und Titel werden, sofern verfügbar, aus dem Extraktor übernommen; die Datumsanalyse wird auf das reine Datum normiert.
Tägliche Abfragen beziehen sich auf die Inhalte des letzten Tages.
Feature-Extraktion
Zu den extrahierten Feldern gehören:
Medienunternehmen (aus URL)
Erster Absatz (erste 3 bis 5 Sätze)
Keyword-Merkmale: Gesamtanzahl im Text, Vorkommen im Titel, Sätze mit dem Seed-Keyword und Vorkommen von Keywords aus der gepflegten Liste
Wortanzahl
LLM-Relevanzbewertung
Jeder Artikel wird von einem LLM mit einer deterministischen Einstellung (Temperatur 0) und einer eingeschränkten Eingabeaufforderung bewertet, die explizite, strukturierte Ausgaben erfordert:
1. Ob der Artikel für ein Cyber-Ereignis relevant ist
2. Falls relevant, wird ein übergeordneter Ereignistyp zugewiesen:
Vorfall: Ein bestätigter Cyberangriff oder eine bestätigte Sicherheitsverletzung ist bereits aufgetreten (z. B. Ransomware-Einsatz, Datenexfiltration, DDoS, Systemkompromittierung).
Schwachstelle: Entdeckung oder Offenlegung einer Sicherheitslücke in Software/Hardware/Systemen, die ausgenutzt werden könnte (potenzielles Risiko statt bestätigter Ausnutzung).
Threat Intelligence: Berichte über Angreifer, Tools, TTPs und Kampagnen – der Fokus liegt auf „wer/wie“, nicht auf einem bestimmten Vorfall mit einem Opfer.
Regulatorisch-rechtlich: Gesetze, Vorschriften, Durchsetzungsmaßnahmen, Gerichtsentscheidungen oder wesentliche politische Änderungen, die sich auf die Verpflichtungen im Bereich Cybersicherheit auswirken.
Artikeltyp und Kategorisierung
Relevante Artikel werden anhand strukturierter Taxonomie-Kriterien kategorisiert (primär: Angriffsstatus, Ereignistyp, regulatorisch/rechtlich; sekundär: Auswirkungskennzahlen/Klasse, technische Details, Branchen, Geografie, Größe, geschätzter Schaden).
Ereignis-Clustering (Aggregation von Artikeln zu Ereignissen)
Ziel: Artikel, die denselben zugrunde liegenden Vorfall beschreiben, zu einem einzigen „Ereignis“ zusammenfassen.
Methode:
Abrufen vorhandener Ereignisse aus der Datenbank, um Kontextinformationen bereitzustellen (Titel, bekannte betroffene Organisationen, Angreifer, Links).
Bei jedem Kandidatenartikel, dessen Artikeltyp „Single Incident“ ist, gleicht das LLM die Details des Artikels mit Gruppen bestehender Ereignisse ab und trifft dann eine Entscheidung:
1. Weist eine vorhandene Ereignis-ID zu, wenn eine Übereinstimmung mit hoher Zuverlässigkeit vorliegt, oder
2. Erstellt andernfalls ein neues Ereignis.
Die Prompts legen Wert auf hohe Genauigkeit: Verlinkt nur dann auf ein bestehendes Ereignis, wenn es absolut sicher ist. Betroffene Organisation(en) und Signale von Bedrohungsakteuren werden als starke Indikatoren behandelt.
Ereignisse enthalten aggregierte Felder: Datum des ersten/letzten Auftretens, Anzahl der Artikel, betroffene Organisationen, Bedrohungsakteure, Titel, Links.
Genauigkeit und Qualitätssicherung
Determinismus und Einschränkungen:
LLM-Temperatur auf 0 gesetzt, um den Determinismus zu maximieren und Halluzinationen zu reduzieren.
Eingeschränkte Eingabeaufforderungen erfordern explizite Felder und JSON-Ausgaben; die Analyse erzwingt das Schema.
Artikel ohne Inhalt (fehlender Titel/Text) werden frühzeitig abgelehnt.
LLM-gesteuerte, schemavalidierte Metriken:
Alle Metrikfelder werden durch deterministische LLM-Läufe (Temperatur 0) unter strengen, dokumentierten Richtlinien und JSON-Schemas erzeugt; es werden nur schemakonforme Ausgaben gezählt, wobei regelmäßige manuelle Qualitätssicherung zur Kalibrierung und zur Vermeidung von Abweichungen durchgeführt wird.
Ereignis-/Artikelklassifizierung für die präzise Filterung:
Die Klassifizierung nach Ereignistyp und Artikelschwerpunkt dient als strenges Relevanzfilter, das themenfremde, wenig aussagekräftige oder zusammenfassende Inhalte aussortiert. Die Konzentration auf Single-Incident-Berichte reduziert irrelevante Treffer und verbessert die Qualität des Datensatzes messbar.
Validierung aus mehreren Quellen:
Die Ereignisgruppierung bezieht sich auf den zuvor gespeicherten Ereigniskontext; Nichtübereinstimmungen verringern die Wahrscheinlichkeit falscher Zusammenführungen.
Die Aggregationen enthalten die Liste der Quelllinks pro Ereignis zur manuellen Überprüfung.
Menschliche Überprüfung
Fälle mit großer Tragweite oder mehrdeutige Fälle können zur redaktionellen Überprüfung und Faktenprüfung markiert werden.
Regelmäßige QA-Überprüfungen: Stichproben von Artikeln und Ereignissen werden monatlich einer Präzisionsüberprüfung unterzogen. Jede Abweichung führt zu Anpassungen von Prompts, Modellen oder Schlüsselwörtern.
Rückverfolgbarkeit:
Jede Statistik lässt sich zur Nachvollziehbarkeit auf Artikel und Links in der Datenbank zurückverfolgen.
Einschränkungen
Abdeckungseinschränkungen:
Die GCS-basierte Erkennung hängt von Schlüsselwörtern und der CSE-Konfiguration ab; nicht alle Vorfälle werden erfasst, insbesondere nicht in konfigurierten Sprachen oder bei Paywall-Inhalten.
Einige Websites blockieren den automatischen Abruf; solche Artikel können teilweise oder vollständig fehlen.
LLM-spezifische Risiken:
Trotz deterministischer Einstellungen und strukturierter Prompts kann es zu Fehlklassifizierungen kommen, insbesondere bei spärlichen oder mehrdeutigen Texten.
Event-Clustering kann denselben Vorfall in mehrere Ereignisse aufteilen oder in Grenzfällen ähnliche, aber unterschiedliche Vorfälle zusammenführen.
Wie Statistiken berechnet werden
Felder auf Artikelebene werden aus direkter Extraktion und LLM-Ausgaben (pro Datensatz gespeichert) abgeleitet.
Metriken auf Ereignisebene aggregieren konstituierende Artikel nach event_id:
Artikelanzahl, Datum des ersten/letzten Auftretens
deduplizierte betroffene Organisationen und Bedrohungsakteure
repräsentative Titel und kanonische Linklisten
Die Berichtsstatistiken werden aus diesen gespeicherten Tabellen abgerufen; jede Zahl lässt sich auf Ereigniszeilen und die zugrunde liegenden Artikeldatensätze zurückführen.
Umfang der Daten
Die Statistiken und Erkenntnisse, auf die in unseren Inhalten zur Cybersicherheit Bezug genommen wird, stammen aus einer Kombination von:
Öffentlich zugänglichen Berichten über Cybersicherheitsvorfälle
Medienberichterstattungen über bestätigte Cybervorfälle
Branchenberichten und Umfragen
Offenlegungen von Behörden und Aufsichtsbehörden
Die Daten spiegeln öffentlich beobachtbare und gemeldete Aktivitäten wider, nicht die gesamte Bandbreite aller Cybervorfälle, die weltweit auftreten. Viele Cybervorfälle werden nie offengelegt, gemeldet oder von den Medien behandelt.
Datenquellen und -erfassung
Quellentypen
Artikel und Berichte zum Thema Cybersicherheit werden aus mehreren Quellenkategorien gesammelt, darunter:
Mainstream- und Technologiemedien.
Dazu gehören beispielsweise große internationale Nachrichtenagenturen und Technologiepublikationen.Autoritative und fachkundige Cybersicherheitsquellen.
Einschließlich Behörden, Cybersicherheits-Forschungsorganisationen und etablierter Branchenpublikationen.Regionale und lokale Nachrichtenmedien.
Berichte über Cybersicherheitsvorfälle in Nordamerika, Europa, im asiatisch-pazifischen Raum und anderen Regionen.Branchen- und Forschungsberichte.
Einschließlich jährlicher Berichte zu Sicherheitsverletzungen, Berichten zur Bedrohungslage, Umfragen und wirtschaftlichen Analysen.
Jede Quelle wird auf Artikel- oder Berichtsebene angegeben, wobei das Veröffentlichungsdatum, die Publikationsquelle und die ursprüngliche URL beibehalten werden.
Erfassungsprozess
Die Inhaltserfassung erfolgt mithilfe automatisierter Suchanfragen auf Basis einer gepflegten Liste von Cybersicherheits-Keywords. Die Keywords sind nach Themen gruppiert (zum Beispiel: Datenlecks, Ransomware, Phishing, Sicherheitslücken, Regulierung).
Es werden täglich Suchläufe durchgeführt, um neu veröffentlichte Inhalte zu erfassen. Bei jedem Durchlauf werden nur aktuelle Daten abgefragt, um sicherzustellen, dass der Datensatz den aktuellen Berichten entspricht.
Erhebung und Verarbeitung von Daten
Abrufen eines Artikels
Sobald eine Quelle gefunden wurde, wird der vollständige Artikeltext mithilfe automatisierter Extraktions-Tools abgerufen. Wenn die primäre Extraktion fehlschlägt, werden Fallback-Methoden verwendet, um eine zuverlässige Abdeckung zu gewährleisten.
Deduplizierung
Vermeidung von Doppelzählungen:
Identische URLs werden nur einmal verarbeitet
Wiederveröffentlichte oder syndizierte Inhalte werden auf Artikelebene dedupliziert
Die Aggregation auf Ereignisebene (siehe unten) reduziert Doppelzählungen zwischen den verschiedenen Kanälen noch weiter
Relevanzfilterung und Klassifizierung
Bewertung der Cybersicherheitsrelevanz
Jeder Artikel wird bewertet, um festzustellen, ob er für die Cybersicherheitsstatistik relevant ist. Die Artikel müssen ein Cybersicherheitsereignis, eine Bedrohung, eine Schwachstelle oder eine regulatorische Maßnahme aussagekräftig beschreiben oder analysieren.
Klassifizierung des Ereignistyps
Relevante Artikel werden in übergeordnete Kategorien eingeteilt, darunter:
Vorfall – Ein bestätigter Cyberangriff oder eine Sicherheitsverletzung, die bereits stattgefunden hat
Sicherheitslücke – Offenlegung einer Sicherheitsschwachstelle, die ausgenutzt werden könnte
Threat Intelligence – Berichte über Angreifer, Tools, Kampagnen oder Techniken
Regulatorisch / rechtlich – Gesetze, Durchsetzungsmaßnahmen, Richtlinienänderungen oder Gerichtsverfahren im Zusammenhang mit Cybersicherheit
Diese Klassifizierung stellt sicher, dass Statistiken zu „Vorfällen“, „Sicherheitsverletzungen“ oder „Angriffen“ nicht mit der Offenlegung von Sicherheitslücken oder allgemeinen Kommentaren verwechselt werden.
Ereignis-Clustering (Aggregation von Artikeln zu Ereignissen)
Oft berichten mehrere Artikel über denselben zugrunde liegenden Cybervorfall. Um Doppelzählungen zu vermeiden:
Artikel, die denselben Vorfall beschreiben, werden zu einem einzigen Ereignis zusammengefasst
Ereignissen werden stabile interne Kennungen zugewiesen
Artikel werden nur dann mit bestehenden Ereignissen verknüpft, wenn eine hohe Wahrscheinlichkeit besteht, dass sie dasselbe Ereignis beschreiben
Zu den Indikatoren, die für das Clustering verwendet werden, gehören betroffene Organisationen, Bedrohungsakteure, Zeitachsen und Beschreibungen von Vorfällen.
Datensätze auf Ereignisebene enthalten:
Datum des ersten und letzten Auftretens
Anzahl der zugehörigen Artikel
Betroffene Organisationen
Referenzierte Bedrohungsakteure
Quelllinks zur Verifizierung
Einsatz automatisierter Analysen und Qualitätskontrollen
Automatisierte Klassifizierung
Für die Klassifizierung, Extraktion und Aggregation wird eine strukturierte, deterministische Sprachmodellanalyse verwendet. Alle automatisierten Ausgaben folgen vordefinierten Schemata, um Konsistenz zu gewährleisten.
Die Modelle arbeiten mit deterministischen Einstellungen, um Variabilität und das Risiko von Halluzinationen zu verringern.
Qualitätssicherung
Um die Genauigkeit zu gewährleisten:
Die Schema-Validierung stellt sicher, dass nur korrekt strukturierte Ausgaben gezählt werden
Es werden regelmäßig monatliche Stichproben- und Überprüfungsverfahren, einschließlich einer Genauigkeitsprüfung, durchgeführt, um Klassifizierungsabweichungen zu erkennen. Diese Überprüfung deckt Verschiebungen in der Klassifizierung auf, die dann als Grundlage für Anpassungen am Modell dienen und diese erforderlich machen.
Mehrdeutige oder besonders schwerwiegende Fälle werden zur manuellen Überprüfung markiert
Aggregierte Statistiken behalten die Rückverfolgbarkeit zu einzelnen Artikeln und Ereignissen bei
Wie Statistiken berechnet werden
Metriken auf Artikelebene vs. auf Ereignisebene
Einige Statistiken basieren auf:
Zahlen auf Artikelebene (z. B. Umfang der Medienberichterstattung)
Zahlen auf Ereignisebene (z. B. Anzahl der einzelnen Verstöße oder Vorfälle)
Wo möglich, werden Metriken auf Ereignisebene bevorzugt, um Doppelzählungen zu vermeiden.
Interpretation von Anzahl und Häufigkeiten
Statistiken wie „Vorfälle pro Tag“ oder „Verstöße pro Jahr“ stellen gemeldete oder in den Medien sichtbare Aktivitäten dar, nicht die gesamte globale Aktivität.
Anbieterdaten, behördliche Beschwerdesysteme und wirtschaftliche Prognosen weisen oft deutlich höhere Zahlen aus, was auf Unterschiede im Erfassungsbereich und in der Methodik zurückzuführen ist. Diese Unterschiede werden an den entsprechenden Stellen vermerkt.
Einschränkungen und Einschätzungen
Obwohl wir uns um Genauigkeit und Konsistenz bemühen, weisen die Daten gewisse Einschränkungen auf:
Nicht alle Vorfälle werden öffentlich bekannt gegeben oder gemeldet
Die Medienberichterstattung variiert je nach Region, Branche und Ausmaß des Vorfalls
Einige Quellen beschränken den Zugang
In Grenzfällen können Klassifizierungsfehler auftreten
Die Zahlen zu den wirtschaftlichen Verlusten können sich im Laufe der Ermittlungen ändern
Statistiken sollten daher als Richtwerte und nicht als erschöpfende Messungen interpretiert werden.
Quellenverzeichnis
Jede der unten aufgeführten nummerierten Quellen entspricht einer Fußnote, die auf der Seite „Cybersicherheitsstatistiken“ verwendet wird. Fußnoten verweisen direkt auf den entsprechenden Eintrag auf dieser Seite.
Quelle 1 Statista – |
|---|
Quelle 2 Identity Theft |
Quelle 3 Identity Theft |
Quelle 4 Verizon – |
Quelle 5 IBM – |
Quelle 6 South Korean |
Quelle 7 Aflac – June |
Quelle 8 HIPAA Journal – |
Quelle 9 California Attorney |
Quelle 10 Iowa Attorney |
Quelle 11 Rhode Island |
Quelle 12 Rhode Island |
Quelle 13 Aflac Newsroom – |
Quelle 14 HIPAA Journal – |
Quelle 15 Office of the |
Quelle 16 Qantas – Information |
Quelle 17 Qantas Newsroom – |
Quelle 18 Michigan Attorney |
Quelle 19 Maine Attorney |
Quelle 20 California Attorney |
Quelle 21 University of |
Quelle 22 Microsoft Digital |
Quelle 23 WIRED – NotPetya |
Quelle 24 Reuters – UnitedHealth |
Quelle 25 The Guardian – Jaguar |
Quelle 26 NBC News – |
Quelle 27 Delaware Department |
Quelle 28 Cybersecurity |
Quelle 29 JumpCloud – Phishing |
Quelle 30 Hornetsecurity – Email |
Quelle 31 Spearshield – |
Quelle 32 APWG – Phishing |
Quelle 33 arXiv – Academic |
Quelle 34 DeepStrike – Password |
Quelle 35 NordPass – Top 200 |
Quelle 36 Financial Times – |
Quelle 37 SecurityScorecard – |
Quelle 38 National Technology & |
Quelle 39 Palo Alto Networks – |
Quelle 40 IBM – Threat |
Quelle 41 Tenable – |
Quelle 42 Cybersecurity |
Quelle 43 Statista Market |
Quelle 44 Statista – Cost of |
Quelle 45 FTC – Consumer |
Quelle 46 FBI IC3 – 2024 Internet |
Quelle 47 Kroll – Data Breach |
Quelle 48 IBM – Cost of a Data |
Quelle 49 SailPoint – 2024 |
Quelle 50 DeepStrike – |
Quelle 51 Proofpoint & |
Quelle 52 Check Point – |
Quelle 53 Thales – 2024 |
Quelle 54 Cyfirma – Energy & |
Quelle 55 World Economic |
Quelle 56 DeepStrike – Cyber |
Quelle 57 Devolutions – State of |
Quelle 58 TotalAssure – |
Quelle 59 Cisco – Cybersecurity |
Quelle 60 IANS Research – |
Quelle 61 Munich Re – |
Quelle 62 Gartner – 2025 |
Quelle 63 Forrester – 2024 |
Quelle 64 Ivanti – State of |
Quelle 65 U.S. Department of |
Quelle 66 U.S. Department of |
Quelle 67 Google Cloud – |
Quelle 68 Gartner – Generative AI |
Quelle 69 Splashtop – Top |
Quelle 70 ENISA – Threat |