Statistik keamanan siber:
Metodologi dan sumber

Tujuan halaman ini

Penjelasan bagaimana data pada halaman Statistik Keamanan Siber dikumpulkan, diproses, dan diinterpretasikan, dengan transparansi penuh mengenai sumber data rujukan. Halaman utama Statistik Keamanan Siber menyajikan ringkasan temuan dan wawasan riset NordVPN.

Sumber data dan atribusi

Penemuan sumber dilakukan via Google Custom Search API (GCS), dengan Mesin Pencari Kustom (CSEs) yang dikonfigurasi untuk:

outlet media: 44 media arus utama dan teknologi (misalnya, BBC, CNN, The New York Times, WSJ, FT, Reuters, Bloomberg, TechCrunch, Wired, Ars Technica, Time, Forbes).
situs otoritatif/referensi: 25 sumber industri dan ahli (misalnya, CISA, KrebsOnSecurity, The Hacker News, Dark Reading, BleepingComputer, SecurityWeek, Infosecurity Magazine).
berita lokal: 100+ media regional dan nasional di APAC, EMEA, dan Amerika (misalnya, Channel NewsAsia, CSA.gov.sg, Zaobao; HK01, unwire.hk; Japan Times, NISC, JPCERT, ITMedia).
tanpa batasan/umum.

Kueri menggunakan kata kunci dari daftar kata kunci kelolaan, yang mengelompokkan istilah per kategori.

Semua catatan mencakup atribusi yang jelas:

Tautan artikel asli
Media (domain diekstraksi dari URL)
Tanggal penerbitan dan tanggal pengumpulan

Kami menarik informasi dari berbagai sumber untuk statistik dan agregasi acara; setiap statistik diperoleh dari bukti artikel yang disimpan bersama tautan.

Ritme pengambilan dan pengumpulan konten

Mengambil konten lengkap dari tautan yang ditemukan dengan:

Utama: NewsPlease
Alternatif: unduhan HTML langsung dengan sesi permintaan yang diperkuat dan ekstraksi trafilatura.

Waktu tunggu, upaya ulang, TLS alternatif, dan header referer digunakan untuk mengurangi kegagalan sementara.

Tanggal dan judul publikasi diambil dari ekstraktor jika ada; pemrosesan tanggal dinormalisasi ke tanggal saja.

Kueri harian memeriksa konten 1 hari terakhir.

Ekstraksi fitur

Bidang yang diekstraksi meliputi:

Media (dari URL)
Paragraf awal (3–5 kalimat pertama)
Fitur kata kunci: jumlah total dalam teks, kata kunci dalam judul, kalimat berisi kata kunci utama, dan keberadaan kata kunci apa pun dari daftar kelolaan
Jumlah kata

Penilaian relevansi LLM

Setiap artikel dievaluasi oleh LLM dengan pengaturan deterministik (suhu 0) dan pembatasan prompt yang mengharuskan keluaran eksplisit dan terstruktur:

1. Apakah artikel ini relevan dengan peristiwa siber

2. Jika relevan, jenis peristiwa tingkat tinggi ditetapkan:

Insiden: Serangan siber atau kebocoran terkonfirmasi telah terjadi (misalnya, penyebaran ransomware, eksfiltrasi data, DDoS, kompromi sistem).
Kerentanan: Penemuan atau pengungkapan celah keamanan pada software/hardware/sistem yang dapat dieksploitasi (risiko potensial, bukan eksploitasi terkonfirmasi).
Kecerdasan Ancaman: Pelaporan pelaku ancaman, alat, TTP, dan kampanye—fokus pada “siapa/bagaimana”, bukan insiden korban tertentu.
Peraturan-Hukum: Undang-undang, peraturan, tindakan penegakan, putusan pengadilan, atau perubahan kebijakan utama yang memengaruhi kewajiban keamanan siber.

Jenis artikel dan kategorisasi

Artikel yang relevan dikategorikan via prompt taksonomi terstruktur (utama: status serangan, jenis peristiwa, regulasi/hukum; sekunder: metrik dampak/kelas, spesifikasi teknis, sektor, geografi, ukuran, perkiraan kerugian).

Pengelompokan peristiwa (agregasi artikel ke peristiwa)

Tujuan: mengelompokkan artikel yang menggambarkan insiden yang sama ke dalam satu ‘kejadian’.

Metode:

Mengambil peristiwa yang ada dari basis data untuk konteks (judul, organisasi yang diketahui terdampak, pelaku ancaman, tautan).
Untuk setiap kandidat artikel (dengan Tipe Artikel = Insiden Tunggal), LLM membandingkan detail artikel dengan kumpulan peristiwa yang ada dan:

1. Menetapkan ID kejadian sudah ada jika terdapat kecocokan tinggi, atau

2. Membuat entri kejadian baru.

Prompt menekankan akurasi tinggi: hanya menautkan ke acara yang ada jika sangat yakin. Organisasi yang terdampak dan petunjuk pelaku dianggap sebagai indikator kuat.

Kejadian menyimpan bidang agregat: tanggal pertama/terakhir terlihat, jumlah artikel, organisasi terdampak, pelaku ancaman, judul, tautan.

Akurasi dan jaminan kualitas

Determinisme dan batasan:

Suhu LLM diatur ke 0 untuk memaksimalkan determinisme dan mengurangi halusinasi.
Prompt dengan batasan memerlukan field eksplisit dan output JSON; parsing menuntut skema.
Artikel nonkonten (tanpa judul/teks) ditolak lebih awal.

Diatur LLM, metrik dengan skema terverifikasi:

Semua bidang metrik dihasilkan oleh eksekusi LLM deterministik (suhu 0) dengan pedoman ketat, terdokumentasi dan skema JSON; hanya keluaran sesuai skema yang dihitung, dengan pemeriksaan kualitas (QA) berkala oleh manusia untuk kalibrasi dan mencegah penyimpangan.

Klasifikasi kejadian/artikel untuk penyaringan presisi:

Klasifikasi jenis peristiwa dan fokus artikel sebagai filter relevansi yang ketat, menyaring konten tidak relevan, kurang signifikan, atau ringkasan. Fokus pelaporan insiden tunggal ini mengurangi kebisingan dan secara signifikan meningkatkan ketepatan dan akurasi dataset.

Validasi multi-sumber:

Pengelompokan kejadian merujuk ke konteks peristiwa yang disimpan sebelumnya; ketidaksesuaian mengurangi kemungkinan salah penggabungan.
Agregasi mencakup daftar tautan sumber per peristiwa untuk verifikasi manual.

Manusia dalam proses:

Kasus berdampak tinggi atau ambigu dapat ditandai untuk tinjauan editorial dan pemeriksaan fakta.
Tinjauan QA rutin: sampel artikel dan peristiwa diaudit setiap bulan, ditinjau dengan cermat; setiap penyimpangan akan memicu penyesuaian prompt/model atau kata kunci.

Pelacakan:

Setiap statistik dapat dilacak kembali ke artikel dan tautan yang ada di basis data untuk audit.

Keterbatasan

Batas cakupan:

Penemuan berbasis GCS bergantung pada kata kunci dan konfigurasi CSE; tidak semua insiden terdeteksi, terutama di luar bahasa yang dikonfigurasi atau konten yang harus dibeli dulu.
Beberapa situs memblokir pengambilan otomatis; artikel-artikel tersebut bisa hilang sebagian atau seluruhnya.

Risiko khusus LLM:

Walau menggunakan pengaturan deterministik dan prompt terstruktur, kesalahan klasifikasi bisa terjadi, terutama pada teks yang jarang atau ambigu.
Pengelompokan peristiwa dapat membagi insiden yang sama menjadi beberapa peristiwa atau menggabungkan insiden serupa tapi berbeda pada kasus-kasus khusus.

Komputasi statistik

Kolom tingkat artikel ditarik dari ekstraksi langsung dan keluaran LLM (disimpan per catatan).

Metrik tingkat peristiwa menggabungkan artikel-artikel penyusun berdasarkan event_id:

jumlah artikel, tanggal pertama/terakhir dilihat
duplikasi organisasi terdampak dan pelaku ancaman
daftar judul representatif dan tautan resmi

Laporan statistik berasal dari tabel-tabel tersimpan ini; setiap angka dapat dilacak kembali ke baris peristiwa dan catatan artikel dasarnya.

Cakupan data

Statistik dan wawasan yang dirujuk dalam konten keamanan siber kami berasal dari kombinasi:

Laporan insiden keamanan siber yang tersedia untuk umum
Liputan media mengenai insiden siber yang telah dikonfirmasi
Laporan dan survei industri
Pengungkapan pemerintahan dan regulasi

Data mencerminkan aktivitas yang dapat diamati dan dilaporkan secara publik, bukan keseluruhan insiden siber yang terjadi di seluruh dunia. Banyak insiden siber yang tidak pernah diungkapkan, dilaporkan, atau diberitakan media.

Sumber data dan penemuan

Jenis sumber

Artikel dan laporan terkait keamanan siber dikumpulkan dari berbagai kategori sumber, termasuk:

Media dan teknologi arus utama.
Termasuk organisasi berita internasional besar dan publikasi teknologi.
Sumber keamanan siber yang tepercaya dan ahli.
Termasuk lembaga pemerintah, organisasi riset keamanan siber, dan publikasi industri terkemuka.
Media berita regional dan lokal.
Meliput insiden keamanan siber di seluruh Amerika Utara, Eropa, Asia-Pasifik, dan wilayah lainnya.
Laporan industri dan riset.
Termasuk laporan kebocoran tahunan, lanskap laporan ancaman, survei, dan analisis ekonomi.

Setiap sumber dicantumkan di tingkat artikel atau laporan, dengan tanggal publikasi, media, dan URL asli.

Proses penemuan

Penemuan konten dilakukan menggunakan kueri pencarian otomatis berdasarkan daftar kata kunci keamanan siber terkelola. Kata kunci dikelompokkan per topik (misalnya: pelanggaran data, ransomware, phishing, kerentanan, regulasi).

Pencarian dilakukan setiap hari untuk menangkap konten terbitan baru. Setiap eksekusi hanya mengkueri data terbaru, memastikan dataset mencerminkan pelaporan terkini.

Pengumpulan dan pemrosesan konten

Pengambilan artikel

Begitu sumber ditemukan, teks artikel lengkap diambil menggunakan alat ekstraksi otomatis. Jika ekstraksi utama gagal, metode cadangan digunakan agar cakupan tetap luas.

Penghapusan duplikat

Untuk menghindari penghitungan ganda:

URL yang sama hanya diproses satu kali
Konten terbitan ulang atau tersindikasi dihilangkan duplikatnya di tingkat artikel
Agregasi tingkat peristiwa (dijelaskan di bawah) semakin mengurangi duplikasi di seluruh outlet

Penyaringan dan klasifikasi relevansi

Penilaian relevansi keamanan siber

Setiap artikel dievaluasi untuk menentukan relevansinya dengan statistik keamanan siber. Artikel harus benar-benar mendeskripsikan atau menganalisis satu peristiwa keamanan siber, ancaman, kerentanan, atau regulasi.

Klasifikasi jenis peristiwa

Artikel yang relevan diklasifikasikan ke kategori tingkat atas, termasuk:

Insiden – Serangan siber atau kebocoran terkonfirmasi dan telah terjadi
Kerentanan – Pengungkapan kelemahan keamanan yang dapat dieksploitasi
Kecerdasan ancaman – Laporan mengenai pelaku ancaman, alat, kampanye, atau teknik
Peraturan / hukum – Undang-undang, tindakan penegakan, perubahan kebijakan, atau proses hukum terkait keamanan siber

Klasifikasi ini memastikan bahwa statistik merujuk pada “insiden,” “kebocoran,” atau “serangan” tidak dicampuradukkan dengan pengungkapan kerentanan atau komentar umum.

Pengelompokan peristiwa (agregasi artikel ke peristiwa)

Seringkali, beberapa artikel melaporkan insiden siber yang sama. Untuk mencegah penghitungan berlebih:

Artikel yang menggambarkan insiden yang sama dikelompokkan menjadi satu peristiwa
Peristiwa diberi pengenal internal yang stabil
Artikel hanya ditautkan ke peristiwa yang ada jika ada keyakinan tinggi bahwa keduanya menggambarkan kejadian yang sama

Indikator yang digunakan untuk pengelompokan meliputi organisasi terdampak, pelaku ancaman, rentang waktu, dan deskripsi insiden.

Catatan tingkat peristiwa menyimpan:

Tanggal kemunculan pertama dan terakhir
Jumlah artikel terkait
Organisasi terdampak
Pelaku ancaman yang dirujuk
Tautan sumber untuk verifikasi

Penggunaan analisis otomatis dan kontrol kualitas

Klasifikasi otomatis

Analisis model bahasa yang terstruktur dan deterministik digunakan untuk klasifikasi, ekstraksi, dan agregasi. Semua keluaran otomatis mengikuti skema yang telah ditentukan sebelumnya untuk memastikan konsistensi.

Model beroperasi dengan pengaturan deterministik untuk mengurangi variabilitas dan risiko halusinasi.

Jaminan kualitas

Untuk menjaga akurasi:

Validasi skema memastikan hanya keluaran yang terstruktur dengan benar yang dihitung
Prosedur pengambilan sampel dan peninjauan bulanan rutin, termasuk peninjauan presisi, dilakukan untuk mendeteksi penyimpangan klasifikasi. Tinjauan ini mengidentifikasi perubahan dalam klasifikasi, yang lalu menjadi dasar dan memicu penyesuaian pada model.
Kasus yang ambigu atau berdampak besar ditandai untuk ditinjau oleh manusia
Statistik agregat tetap dapat dilacak kembali ke artikel dan peristiwa individu

Perhitungan statistik

Metrik tingkat artikel vs tingkat peristiwa

Beberapa statistik didasarkan pada:

Jumlah tingkat artikel (misalnya, volume liputan media)
Jumlah tingkat peristiwa (misalnya, jumlah kebocoran atau insiden unik)

Jika memungkinkan, metrik tingkat peristiwa lebih disukai untuk mengurangi duplikasi.

Interpretasi jumlah dan frekuensi

Statistik seperti “insiden per hari” atau “kebocoran per tahun” mewakili aktivitas yang dilaporkan atau yang terlihat di media, bukan total aktivitas global.

Telemetri vendor, sistem pengaduan pemerintah, dan proyeksi ekonomi sering melaporkan volume yang jauh lebih tinggi karena perbedaan cakupan dan metodologi. Perbedaan ini dicatat jika relevan.

Keterbatasan dan pertimbangan

Walau telah ada upaya untuk memastikan akurasi dan konsistensi, data ini tetap memiliki keterbatasan:

Tidak semua insiden diungkapkan atau dilaporkan secara publik
Liputan media bervariasi per wilayah, sektor, dan skala insiden
Beberapa sumber membatasi akses
Kesalahan klasifikasi bisa terjadi pada kasus-kasus khusus
Angka kerugian ekonomi bisa berubah seiring penyelidikan

Maka, statistik harus diinterpretasikan sebagai indikator arah, bukan pengukuran yang lengkap.

Indeks Sumber

Setiap sumber bernomor berikut ini sesuai dengan referensi superskrip yang digunakan di halaman Statistik Keamanan Siber. Superskrip tertaut langsung ke entri sumber yang relevan di halaman ini.

Sumber ¹ Statista – Cybercrime worldwide Tautan⁠‌
Sumber ² Identity Theft Resource Center (ITRC) – Weekly Breach Breakdown Q3 2025 Tautan⁠‌
Sumber ³ Identity Theft Resource Center (ITRC) – H1 2025 Data Breach Analysis Tautan⁠‌
Sumber ⁴ Verizon – Data Breach Investigations Report (DBIR) 2025 Tautan⁠‌
Sumber ⁵ IBM – Cost of a Data Breach Report 2025 Tautan⁠‌
Sumber ⁶ South Korean Ministry of Science and ICT – SK Telecom data exfiltration incident Tautan⁠‌
Sumber ⁷ Aflac – June 2025 security incident regulatory filing Tautan⁠‌
Sumber ⁸ HIPAA Journal – Largest healthcare data breaches of 2025 Tautan⁠‌
Sumber ⁹ California Attorney General – Aflac breach report (SB24-616010) Tautan⁠‌
Sumber ¹⁰ Iowa Attorney General – Aflac data breach notification Tautan⁠‌
Sumber ¹¹ Rhode Island Attorney General – Data‑breach notifications Tautan⁠‌
Sumber ¹² Rhode Island AG – Data‑breach notification Tautan⁠‌
Sumber ¹³ Aflac Newsroom – June 2025 security incident update Tautan⁠‌
Sumber ¹⁴ HIPAA Journal – Aflac data breach article Tautan⁠‌
Sumber ¹⁵ Office of the Australian Information Commissioner – Statement on Qantas cyber incident Tautan⁠‌
Sumber ¹⁶ Qantas – Information for customers on cyber incident Tautan⁠‌
Sumber ¹⁷ Qantas Newsroom – Update on Qantas cyber incident (9 July 2025) Tautan⁠‌
Sumber ¹⁸ Michigan Attorney General – Consumer alert on data breaches (TransUnion) Tautan⁠‌
Sumber ¹⁹ Maine Attorney General – Allianz Life cyber incident notice Tautan⁠‌
Sumber ²⁰ California Attorney General – Allianz data breach report (SB24-612078) Tautan⁠‌
Sumber ²¹ University of Maryland – Cyber Security Statistics Tautan⁠‌
Sumber ²² Microsoft Digital Defense Report 2023 Tautan⁠‌
Sumber ²³ WIRED – NotPetya cyberattack article Tautan⁠‌
Sumber ²⁴ Reuters – UnitedHealth tech unit hack article Tautan⁠‌
Sumber ²⁵ The Guardian – Jaguar Land Rover hack article Tautan⁠‌
Sumber ²⁶ NBC News – MGM Resorts cyberattack cost article Tautan⁠‌
Sumber ²⁷ Delaware Department of Technology & Information – eSecurityNews (Oct 2023) Tautan⁠‌
Sumber ²⁸ Cybersecurity Ventures – Global ransomware damage cost projection Tautan⁠‌
Sumber ²⁹ JumpCloud – Phishing attack statistics Tautan⁠‌
Sumber ³⁰ Hornetsecurity – Email threats in 2024 Tautan⁠‌
Sumber ³¹ Spearshield – Click‑to‑credential phishing study Tautan⁠‌
Sumber ³² APWG – Phishing Activity Trends Reports Tautan⁠‌
Sumber ³³ arXiv – Academic password/credential research (2025) Tautan⁠‌
Sumber ³⁴ DeepStrike – Password statistics 2025 Tautan⁠‌
Sumber ³⁵ NordPass – Top 200 Most Common Passwords Tautan⁠‌
Sumber ³⁶ Financial Times – Supply‑chain cybersecurity article Tautan⁠‌
Sumber ³⁷ SecurityScorecard – 2025 Supply Chain Cybersecurity Trends Tautan⁠‌
Sumber ³⁸ National Technology & Security Coalition – 2025 Software Supply Chain Security Report Tautan⁠‌
Sumber ³⁹ Palo Alto Networks – State of Cloud Native Security Tautan⁠‌
Sumber ⁴⁰ IBM – Threat Intelligence Report Tautan⁠‌
Sumber ⁴¹ Tenable – Cloud Security Risk Report 2025 Tautan⁠‌
Sumber ⁴² Cybersecurity Ventures – Cybersecurity Cost Report Tautan⁠‌
Sumber ⁴³ Statista Market Insights – Estimated cost of cybercrime worldwide 2018‑2029 (ResearchGate) Tautan⁠‌
Sumber ⁴⁴ Statista – Cost of cybercrime worldwide forecast Tautan⁠‌
Sumber ⁴⁵ FTC – Consumer Sentinel Network Data Book 2024 Tautan⁠‌
Sumber ⁴⁶ FBI IC3 – 2024 Internet Crime Report Tautan⁠‌
Sumber ⁴⁷ Kroll – Data Breach Outlook 2025 Tautan⁠‌
Sumber ⁴⁸ IBM – Cost of a Data Breach 2024: Financial Industry Tautan⁠‌
Sumber ⁴⁹ SailPoint – 2024 State of Identity Security in Financial Services Tautan⁠‌
Sumber ⁵⁰ DeepStrike – Healthcare data breach statistics 2025 Tautan⁠‌
Sumber ⁵¹ Proofpoint & Ponemon – Healthcare Cybersecurity Report Tautan⁠‌
Sumber ⁵² Check Point – Cyber Security Report 2025 Tautan⁠‌
Sumber ⁵³ Thales – 2024 Data Threat Report: Critical Infrastructure Edition Tautan⁠‌
Sumber ⁵⁴ Cyfirma – Energy & Utilities industry report Tautan⁠‌
Sumber ⁵⁵ World Economic Forum – Global Cybersecurity Outlook 2025 Tautan⁠‌
Sumber ⁵⁶ DeepStrike – Cyber attacks on small businesses Tautan⁠‌
Sumber ⁵⁷ Devolutions – State of IT Security Report 2025 Tautan⁠‌
Sumber ⁵⁸ TotalAssure – Small business cybersecurity statistics 2025 Tautan⁠‌
Sumber ⁵⁹ Cisco – Cybersecurity Readiness Index 2025 Tautan⁠‌
Sumber ⁶⁰ IANS Research – Security budgets press release (2024) Tautan⁠‌
Sumber ⁶¹ Munich Re – Cyber insurance risks and trends 2025 Tautan⁠‌
Sumber ⁶² Gartner – 2025 information security spending forecast Tautan⁠‌
Sumber ⁶³ Forrester – 2024 Cybersecurity Benchmarks (Global) Tautan⁠‌
Sumber ⁶⁴ Ivanti – State of Cybersecurity Report Tautan⁠‌
Sumber ⁶⁵ U.S. Department of Homeland Security – FY 2025 Budget in Brief Tautan⁠‌
Sumber ⁶⁶ U.S. Department of Defense – CYBERCOM Budget Justification Tautan⁠‌
Sumber ⁶⁷ Google Cloud – Cybersecurity forecast Tautan⁠‌
Sumber ⁶⁸ Gartner – Generative AI attack survey (Sep 22 2025) Tautan⁠‌
Sumber ⁶⁹ Splashtop – Top cybersecurity trends and predictions for 2026 Tautan⁠‌
Sumber ⁷⁰ ENISA – Threat Landscape 2024 Tautan⁠‌

Statistik keamanan siber: Metodologi dan sumber

Tujuan halaman ini

Cakupan data

Sumber data dan penemuan

Jenis sumber

Proses penemuan

Pengumpulan dan pemrosesan konten

Pengambilan artikel

Penghapusan duplikat

Penyaringan dan klasifikasi relevansi

Penilaian relevansi keamanan siber

Klasifikasi jenis peristiwa

Pengelompokan peristiwa (agregasi artikel ke peristiwa)

Penggunaan analisis otomatis dan kontrol kualitas

Klasifikasi otomatis

Jaminan kualitas

Perhitungan statistik

Metrik tingkat artikel vs tingkat peristiwa

Interpretasi jumlah dan frekuensi

Keterbatasan dan pertimbangan

Indeks Sumber

Statistik keamanan siber:
Metodologi dan sumber