Statistik keamanan siber:
Metodologi dan sumber
Tujuan halaman ini
Penjelasan bagaimana data pada halaman Statistik Keamanan Siber dikumpulkan, diproses, dan diinterpretasikan, dengan transparansi penuh mengenai sumber data rujukan. Halaman utama Statistik Keamanan Siber menyajikan ringkasan temuan dan wawasan riset NordVPN.
Sumber data dan atribusi
Penemuan sumber dilakukan via Google Custom Search API (GCS), dengan Mesin Pencari Kustom (CSEs) yang dikonfigurasi untuk:
outlet media: 44 media arus utama dan teknologi (misalnya, BBC, CNN, The New York Times, WSJ, FT, Reuters, Bloomberg, TechCrunch, Wired, Ars Technica, Time, Forbes).
situs otoritatif/referensi: 25 sumber industri dan ahli (misalnya, CISA, KrebsOnSecurity, The Hacker News, Dark Reading, BleepingComputer, SecurityWeek, Infosecurity Magazine).
berita lokal: 100+ media regional dan nasional di APAC, EMEA, dan Amerika (misalnya, Channel NewsAsia, CSA.gov.sg, Zaobao; HK01, unwire.hk; Japan Times, NISC, JPCERT, ITMedia).
tanpa batasan/umum.
Kueri menggunakan kata kunci dari daftar kata kunci kelolaan, yang mengelompokkan istilah per kategori.
Semua catatan mencakup atribusi yang jelas:
Tautan artikel asli
Media (domain diekstraksi dari URL)
Tanggal penerbitan dan tanggal pengumpulan
Kami menarik informasi dari berbagai sumber untuk statistik dan agregasi acara; setiap statistik diperoleh dari bukti artikel yang disimpan bersama tautan.
Ritme pengambilan dan pengumpulan konten
Mengambil konten lengkap dari tautan yang ditemukan dengan:
Utama: NewsPlease
Alternatif: unduhan HTML langsung dengan sesi permintaan yang diperkuat dan ekstraksi trafilatura.
Waktu tunggu, upaya ulang, TLS alternatif, dan header referer digunakan untuk mengurangi kegagalan sementara.
Tanggal dan judul publikasi diambil dari ekstraktor jika ada; pemrosesan tanggal dinormalisasi ke tanggal saja.
Kueri harian memeriksa konten 1 hari terakhir.
Ekstraksi fitur
Bidang yang diekstraksi meliputi:
Media (dari URL)
Paragraf awal (3–5 kalimat pertama)
Fitur kata kunci: jumlah total dalam teks, kata kunci dalam judul, kalimat berisi kata kunci utama, dan keberadaan kata kunci apa pun dari daftar kelolaan
Jumlah kata
Penilaian relevansi LLM
Setiap artikel dievaluasi oleh LLM dengan pengaturan deterministik (suhu 0) dan pembatasan prompt yang mengharuskan keluaran eksplisit dan terstruktur:
1. Apakah artikel ini relevan dengan peristiwa siber
2. Jika relevan, jenis peristiwa tingkat tinggi ditetapkan:
Insiden: Serangan siber atau kebocoran terkonfirmasi telah terjadi (misalnya, penyebaran ransomware, eksfiltrasi data, DDoS, kompromi sistem).
Kerentanan: Penemuan atau pengungkapan celah keamanan pada software/hardware/sistem yang dapat dieksploitasi (risiko potensial, bukan eksploitasi terkonfirmasi).
Kecerdasan Ancaman: Pelaporan pelaku ancaman, alat, TTP, dan kampanye—fokus pada “siapa/bagaimana”, bukan insiden korban tertentu.
Peraturan-Hukum: Undang-undang, peraturan, tindakan penegakan, putusan pengadilan, atau perubahan kebijakan utama yang memengaruhi kewajiban keamanan siber.
Jenis artikel dan kategorisasi
Artikel yang relevan dikategorikan via prompt taksonomi terstruktur (utama: status serangan, jenis peristiwa, regulasi/hukum; sekunder: metrik dampak/kelas, spesifikasi teknis, sektor, geografi, ukuran, perkiraan kerugian).
Pengelompokan peristiwa (agregasi artikel ke peristiwa)
Tujuan: mengelompokkan artikel yang menggambarkan insiden yang sama ke dalam satu ‘kejadian’.
Metode:
Mengambil peristiwa yang ada dari basis data untuk konteks (judul, organisasi yang diketahui terdampak, pelaku ancaman, tautan).
Untuk setiap kandidat artikel (dengan Tipe Artikel = Insiden Tunggal), LLM membandingkan detail artikel dengan kumpulan peristiwa yang ada dan:
1. Menetapkan ID kejadian sudah ada jika terdapat kecocokan tinggi, atau
2. Membuat entri kejadian baru.
Prompt menekankan akurasi tinggi: hanya menautkan ke acara yang ada jika sangat yakin. Organisasi yang terdampak dan petunjuk pelaku dianggap sebagai indikator kuat.
Kejadian menyimpan bidang agregat: tanggal pertama/terakhir terlihat, jumlah artikel, organisasi terdampak, pelaku ancaman, judul, tautan.
Akurasi dan jaminan kualitas
Determinisme dan batasan:
Suhu LLM diatur ke 0 untuk memaksimalkan determinisme dan mengurangi halusinasi.
Prompt dengan batasan memerlukan field eksplisit dan output JSON; parsing menuntut skema.
Artikel nonkonten (tanpa judul/teks) ditolak lebih awal.
Diatur LLM, metrik dengan skema terverifikasi:
Semua bidang metrik dihasilkan oleh eksekusi LLM deterministik (suhu 0) dengan pedoman ketat, terdokumentasi dan skema JSON; hanya keluaran sesuai skema yang dihitung, dengan pemeriksaan kualitas (QA) berkala oleh manusia untuk kalibrasi dan mencegah penyimpangan.
Klasifikasi kejadian/artikel untuk penyaringan presisi:
Klasifikasi jenis peristiwa dan fokus artikel sebagai filter relevansi yang ketat, menyaring konten tidak relevan, kurang signifikan, atau ringkasan. Fokus pelaporan insiden tunggal ini mengurangi kebisingan dan secara signifikan meningkatkan ketepatan dan akurasi dataset.
Validasi multi-sumber:
Pengelompokan kejadian merujuk ke konteks peristiwa yang disimpan sebelumnya; ketidaksesuaian mengurangi kemungkinan salah penggabungan.
Agregasi mencakup daftar tautan sumber per peristiwa untuk verifikasi manual.
Manusia dalam proses:
Kasus berdampak tinggi atau ambigu dapat ditandai untuk tinjauan editorial dan pemeriksaan fakta.
Tinjauan QA rutin: sampel artikel dan peristiwa diaudit setiap bulan, ditinjau dengan cermat; setiap penyimpangan akan memicu penyesuaian prompt/model atau kata kunci.
Pelacakan:
Setiap statistik dapat dilacak kembali ke artikel dan tautan yang ada di basis data untuk audit.
Keterbatasan
Batas cakupan:
Penemuan berbasis GCS bergantung pada kata kunci dan konfigurasi CSE; tidak semua insiden terdeteksi, terutama di luar bahasa yang dikonfigurasi atau konten yang harus dibeli dulu.
Beberapa situs memblokir pengambilan otomatis; artikel-artikel tersebut bisa hilang sebagian atau seluruhnya.
Risiko khusus LLM:
Walau menggunakan pengaturan deterministik dan prompt terstruktur, kesalahan klasifikasi bisa terjadi, terutama pada teks yang jarang atau ambigu.
Pengelompokan peristiwa dapat membagi insiden yang sama menjadi beberapa peristiwa atau menggabungkan insiden serupa tapi berbeda pada kasus-kasus khusus.
Komputasi statistik
Kolom tingkat artikel ditarik dari ekstraksi langsung dan keluaran LLM (disimpan per catatan).
Metrik tingkat peristiwa menggabungkan artikel-artikel penyusun berdasarkan event_id:
jumlah artikel, tanggal pertama/terakhir dilihat
duplikasi organisasi terdampak dan pelaku ancaman
daftar judul representatif dan tautan resmi
Laporan statistik berasal dari tabel-tabel tersimpan ini; setiap angka dapat dilacak kembali ke baris peristiwa dan catatan artikel dasarnya.
Cakupan data
Statistik dan wawasan yang dirujuk dalam konten keamanan siber kami berasal dari kombinasi:
Laporan insiden keamanan siber yang tersedia untuk umum
Liputan media mengenai insiden siber yang telah dikonfirmasi
Laporan dan survei industri
Pengungkapan pemerintahan dan regulasi
Data mencerminkan aktivitas yang dapat diamati dan dilaporkan secara publik, bukan keseluruhan insiden siber yang terjadi di seluruh dunia. Banyak insiden siber yang tidak pernah diungkapkan, dilaporkan, atau diberitakan media.
Sumber data dan penemuan
Jenis sumber
Artikel dan laporan terkait keamanan siber dikumpulkan dari berbagai kategori sumber, termasuk:
Media dan teknologi arus utama.
Termasuk organisasi berita internasional besar dan publikasi teknologi.Sumber keamanan siber yang tepercaya dan ahli.
Termasuk lembaga pemerintah, organisasi riset keamanan siber, dan publikasi industri terkemuka.Media berita regional dan lokal.
Meliput insiden keamanan siber di seluruh Amerika Utara, Eropa, Asia-Pasifik, dan wilayah lainnya.Laporan industri dan riset.
Termasuk laporan kebocoran tahunan, lanskap laporan ancaman, survei, dan analisis ekonomi.
Setiap sumber dicantumkan di tingkat artikel atau laporan, dengan tanggal publikasi, media, dan URL asli.
Proses penemuan
Penemuan konten dilakukan menggunakan kueri pencarian otomatis berdasarkan daftar kata kunci keamanan siber terkelola. Kata kunci dikelompokkan per topik (misalnya: pelanggaran data, ransomware, phishing, kerentanan, regulasi).
Pencarian dilakukan setiap hari untuk menangkap konten terbitan baru. Setiap eksekusi hanya mengkueri data terbaru, memastikan dataset mencerminkan pelaporan terkini.
Pengumpulan dan pemrosesan konten
Pengambilan artikel
Begitu sumber ditemukan, teks artikel lengkap diambil menggunakan alat ekstraksi otomatis. Jika ekstraksi utama gagal, metode cadangan digunakan agar cakupan tetap luas.
Penghapusan duplikat
Untuk menghindari penghitungan ganda:
URL yang sama hanya diproses satu kali
Konten terbitan ulang atau tersindikasi dihilangkan duplikatnya di tingkat artikel
Agregasi tingkat peristiwa (dijelaskan di bawah) semakin mengurangi duplikasi di seluruh outlet
Penyaringan dan klasifikasi relevansi
Penilaian relevansi keamanan siber
Setiap artikel dievaluasi untuk menentukan relevansinya dengan statistik keamanan siber. Artikel harus benar-benar mendeskripsikan atau menganalisis satu peristiwa keamanan siber, ancaman, kerentanan, atau regulasi.
Klasifikasi jenis peristiwa
Artikel yang relevan diklasifikasikan ke kategori tingkat atas, termasuk:
Insiden – Serangan siber atau kebocoran terkonfirmasi dan telah terjadi
Kerentanan – Pengungkapan kelemahan keamanan yang dapat dieksploitasi
Kecerdasan ancaman – Laporan mengenai pelaku ancaman, alat, kampanye, atau teknik
Peraturan / hukum – Undang-undang, tindakan penegakan, perubahan kebijakan, atau proses hukum terkait keamanan siber
Klasifikasi ini memastikan bahwa statistik merujuk pada “insiden,” “kebocoran,” atau “serangan” tidak dicampuradukkan dengan pengungkapan kerentanan atau komentar umum.
Pengelompokan peristiwa (agregasi artikel ke peristiwa)
Seringkali, beberapa artikel melaporkan insiden siber yang sama. Untuk mencegah penghitungan berlebih:
Artikel yang menggambarkan insiden yang sama dikelompokkan menjadi satu peristiwa
Peristiwa diberi pengenal internal yang stabil
Artikel hanya ditautkan ke peristiwa yang ada jika ada keyakinan tinggi bahwa keduanya menggambarkan kejadian yang sama
Indikator yang digunakan untuk pengelompokan meliputi organisasi terdampak, pelaku ancaman, rentang waktu, dan deskripsi insiden.
Catatan tingkat peristiwa menyimpan:
Tanggal kemunculan pertama dan terakhir
Jumlah artikel terkait
Organisasi terdampak
Pelaku ancaman yang dirujuk
Tautan sumber untuk verifikasi
Penggunaan analisis otomatis dan kontrol kualitas
Klasifikasi otomatis
Analisis model bahasa yang terstruktur dan deterministik digunakan untuk klasifikasi, ekstraksi, dan agregasi. Semua keluaran otomatis mengikuti skema yang telah ditentukan sebelumnya untuk memastikan konsistensi.
Model beroperasi dengan pengaturan deterministik untuk mengurangi variabilitas dan risiko halusinasi.
Jaminan kualitas
Untuk menjaga akurasi:
Validasi skema memastikan hanya keluaran yang terstruktur dengan benar yang dihitung
Prosedur pengambilan sampel dan peninjauan bulanan rutin, termasuk peninjauan presisi, dilakukan untuk mendeteksi penyimpangan klasifikasi. Tinjauan ini mengidentifikasi perubahan dalam klasifikasi, yang lalu menjadi dasar dan memicu penyesuaian pada model.
Kasus yang ambigu atau berdampak besar ditandai untuk ditinjau oleh manusia
Statistik agregat tetap dapat dilacak kembali ke artikel dan peristiwa individu
Perhitungan statistik
Metrik tingkat artikel vs tingkat peristiwa
Beberapa statistik didasarkan pada:
Jumlah tingkat artikel (misalnya, volume liputan media)
Jumlah tingkat peristiwa (misalnya, jumlah kebocoran atau insiden unik)
Jika memungkinkan, metrik tingkat peristiwa lebih disukai untuk mengurangi duplikasi.
Interpretasi jumlah dan frekuensi
Statistik seperti “insiden per hari” atau “kebocoran per tahun” mewakili aktivitas yang dilaporkan atau yang terlihat di media, bukan total aktivitas global.
Telemetri vendor, sistem pengaduan pemerintah, dan proyeksi ekonomi sering melaporkan volume yang jauh lebih tinggi karena perbedaan cakupan dan metodologi. Perbedaan ini dicatat jika relevan.
Keterbatasan dan pertimbangan
Walau telah ada upaya untuk memastikan akurasi dan konsistensi, data ini tetap memiliki keterbatasan:
Tidak semua insiden diungkapkan atau dilaporkan secara publik
Liputan media bervariasi per wilayah, sektor, dan skala insiden
Beberapa sumber membatasi akses
Kesalahan klasifikasi bisa terjadi pada kasus-kasus khusus
Angka kerugian ekonomi bisa berubah seiring penyelidikan
Maka, statistik harus diinterpretasikan sebagai indikator arah, bukan pengukuran yang lengkap.
Indeks Sumber
Setiap sumber bernomor berikut ini sesuai dengan referensi superskrip yang digunakan di halaman Statistik Keamanan Siber. Superskrip tertaut langsung ke entri sumber yang relevan di halaman ini.
Sumber 1 Statista – |
|---|
Sumber 2 Identity Theft |
Sumber 3 Identity Theft |
Sumber 4 Verizon – |
Sumber 5 IBM – |
Sumber 6 South Korean |
Sumber 7 Aflac – June |
Sumber 8 HIPAA Journal – |
Sumber 9 California Attorney |
Sumber 10 Iowa Attorney |
Sumber 11 Rhode Island |
Sumber 12 Rhode Island |
Sumber 13 Aflac Newsroom – |
Sumber 14 HIPAA Journal – |
Sumber 15 Office of the |
Sumber 16 Qantas – Information |
Sumber 17 Qantas Newsroom – |
Sumber 18 Michigan Attorney |
Sumber 19 Maine Attorney |
Sumber 20 California Attorney |
Sumber 21 University of |
Sumber 22 Microsoft Digital |
Sumber 23 WIRED – NotPetya |
Sumber 24 Reuters – UnitedHealth |
Sumber 25 The Guardian – Jaguar |
Sumber 26 NBC News – |
Sumber 27 Delaware Department |
Sumber 28 Cybersecurity |
Sumber 29 JumpCloud – Phishing |
Sumber 30 Hornetsecurity – Email |
Sumber 31 Spearshield – |
Sumber 32 APWG – Phishing |
Sumber 33 arXiv – Academic |
Sumber 34 DeepStrike – Password |
Sumber 35 NordPass – Top 200 |
Sumber 36 Financial Times – |
Sumber 37 SecurityScorecard – |
Sumber 38 National Technology & |
Sumber 39 Palo Alto Networks – |
Sumber 40 IBM – Threat |
Sumber 41 Tenable – |
Sumber 42 Cybersecurity |
Sumber 43 Statista Market |
Sumber 44 Statista – Cost of |
Sumber 45 FTC – Consumer |
Sumber 46 FBI IC3 – 2024 Internet |
Sumber 47 Kroll – Data Breach |
Sumber 48 IBM – Cost of a Data |
Sumber 49 SailPoint – 2024 |
Sumber 50 DeepStrike – |
Sumber 51 Proofpoint & |
Sumber 52 Check Point – |
Sumber 53 Thales – 2024 |
Sumber 54 Cyfirma – Energy & |
Sumber 55 World Economic |
Sumber 56 DeepStrike – Cyber |
Sumber 57 Devolutions – State of |
Sumber 58 TotalAssure – |
Sumber 59 Cisco – Cybersecurity |
Sumber 60 IANS Research – |
Sumber 61 Munich Re – |
Sumber 62 Gartner – 2025 |
Sumber 63 Forrester – 2024 |
Sumber 64 Ivanti – State of |
Sumber 65 U.S. Department of |
Sumber 66 U.S. Department of |
Sumber 67 Google Cloud – |
Sumber 68 Gartner – Generative AI |
Sumber 69 Splashtop – Top |
Sumber 70 ENISA – Threat |