Statistik keamanan siber:
Metodologi dan sumber

Tujuan halaman ini

Penjelasan bagaimana data pada halaman Statistik Keamanan Siber dikumpulkan, diproses, dan diinterpretasikan, dengan transparansi penuh mengenai sumber data rujukan. Halaman utama Statistik Keamanan Siber menyajikan ringkasan temuan dan wawasan riset NordVPN.

Sumber data dan atribusi

Penemuan sumber dilakukan via Google Custom Search API (GCS), dengan Mesin Pencari Kustom (CSEs) yang dikonfigurasi untuk:

  • outlet media: 44 media arus utama dan teknologi (misalnya, BBC, CNN, The New York Times, WSJ, FT, Reuters, Bloomberg, TechCrunch, Wired, Ars Technica, Time, Forbes).

  • situs otoritatif/referensi: 25 sumber industri dan ahli (misalnya, CISA, KrebsOnSecurity, The Hacker News, Dark Reading, BleepingComputer, SecurityWeek, Infosecurity Magazine).

  • berita lokal: 100+ media regional dan nasional di APAC, EMEA, dan Amerika (misalnya, Channel NewsAsia, CSA.gov.sg, Zaobao; HK01, unwire.hk; Japan Times, NISC, JPCERT, ITMedia).

  • tanpa batasan/umum.

Kueri menggunakan kata kunci dari daftar kata kunci kelolaan, yang mengelompokkan istilah per kategori.

Semua catatan mencakup atribusi yang jelas:

  • Tautan artikel asli

  • Media (domain diekstraksi dari URL)

  • Tanggal penerbitan dan tanggal pengumpulan

Kami menarik informasi dari berbagai sumber untuk statistik dan agregasi acara; setiap statistik diperoleh dari bukti artikel yang disimpan bersama tautan.

Ritme pengambilan dan pengumpulan konten

Mengambil konten lengkap dari tautan yang ditemukan dengan:

  • Utama: NewsPlease

  • Alternatif: unduhan HTML langsung dengan sesi permintaan yang diperkuat dan ekstraksi trafilatura.

Waktu tunggu, upaya ulang, TLS alternatif, dan header referer digunakan untuk mengurangi kegagalan sementara.

Tanggal dan judul publikasi diambil dari ekstraktor jika ada; pemrosesan tanggal dinormalisasi ke tanggal saja.

Kueri harian memeriksa konten 1 hari terakhir.

Ekstraksi fitur

Bidang yang diekstraksi meliputi:

  • Media (dari URL)

  • Paragraf awal (3–5 kalimat pertama)

  • Fitur kata kunci: jumlah total dalam teks, kata kunci dalam judul, kalimat berisi kata kunci utama, dan keberadaan kata kunci apa pun dari daftar kelolaan

  • Jumlah kata

Penilaian relevansi LLM

Setiap artikel dievaluasi oleh LLM dengan pengaturan deterministik (suhu 0) dan pembatasan prompt yang mengharuskan keluaran eksplisit dan terstruktur:

1. Apakah artikel ini relevan dengan peristiwa siber

2. Jika relevan, jenis peristiwa tingkat tinggi ditetapkan:

  • Insiden: Serangan siber atau kebocoran terkonfirmasi telah terjadi (misalnya, penyebaran ransomware, eksfiltrasi data, DDoS, kompromi sistem).

  • Kerentanan: Penemuan atau pengungkapan celah keamanan pada software/hardware/sistem yang dapat dieksploitasi (risiko potensial, bukan eksploitasi terkonfirmasi).

  • Kecerdasan Ancaman: Pelaporan pelaku ancaman, alat, TTP, dan kampanye—fokus pada “siapa/bagaimana”, bukan insiden korban tertentu.

  • Peraturan-Hukum: Undang-undang, peraturan, tindakan penegakan, putusan pengadilan, atau perubahan kebijakan utama yang memengaruhi kewajiban keamanan siber.

Jenis artikel dan kategorisasi

Artikel yang relevan dikategorikan via prompt taksonomi terstruktur (utama: status serangan, jenis peristiwa, regulasi/hukum; sekunder: metrik dampak/kelas, spesifikasi teknis, sektor, geografi, ukuran, perkiraan kerugian).

Pengelompokan peristiwa (agregasi artikel ke peristiwa)

Tujuan: mengelompokkan artikel yang menggambarkan insiden yang sama ke dalam satu ‘kejadian’.

Metode:

  • Mengambil peristiwa yang ada dari basis data untuk konteks (judul, organisasi yang diketahui terdampak, pelaku ancaman, tautan).

  • Untuk setiap kandidat artikel (dengan Tipe Artikel = Insiden Tunggal), LLM membandingkan detail artikel dengan kumpulan peristiwa yang ada dan:

1. Menetapkan ID kejadian sudah ada jika terdapat kecocokan tinggi, atau

2. Membuat entri kejadian baru.

  • Prompt menekankan akurasi tinggi: hanya menautkan ke acara yang ada jika sangat yakin. Organisasi yang terdampak dan petunjuk pelaku dianggap sebagai indikator kuat.

Kejadian menyimpan bidang agregat: tanggal pertama/terakhir terlihat, jumlah artikel, organisasi terdampak, pelaku ancaman, judul, tautan.

Akurasi dan jaminan kualitas

Determinisme dan batasan:

  • Suhu LLM diatur ke 0 untuk memaksimalkan determinisme dan mengurangi halusinasi.

  • Prompt dengan batasan memerlukan field eksplisit dan output JSON; parsing menuntut skema.

  • Artikel nonkonten (tanpa judul/teks) ditolak lebih awal.

Diatur LLM, metrik dengan skema terverifikasi:

  • Semua bidang metrik dihasilkan oleh eksekusi LLM deterministik (suhu 0) dengan pedoman ketat, terdokumentasi dan skema JSON; hanya keluaran sesuai skema yang dihitung, dengan pemeriksaan kualitas (QA) berkala oleh manusia untuk kalibrasi dan mencegah penyimpangan.

Klasifikasi kejadian/artikel untuk penyaringan presisi:

  • Klasifikasi jenis peristiwa dan fokus artikel sebagai filter relevansi yang ketat, menyaring konten tidak relevan, kurang signifikan, atau ringkasan. Fokus pelaporan insiden tunggal ini mengurangi kebisingan dan secara signifikan meningkatkan ketepatan dan akurasi dataset.

Validasi multi-sumber:

  • Pengelompokan kejadian merujuk ke konteks peristiwa yang disimpan sebelumnya; ketidaksesuaian mengurangi kemungkinan salah penggabungan.

  • Agregasi mencakup daftar tautan sumber per peristiwa untuk verifikasi manual.

Manusia dalam proses:

  • Kasus berdampak tinggi atau ambigu dapat ditandai untuk tinjauan editorial dan pemeriksaan fakta.

  • Tinjauan QA rutin: sampel artikel dan peristiwa diaudit setiap bulan, ditinjau dengan cermat; setiap penyimpangan akan memicu penyesuaian prompt/model atau kata kunci.

Pelacakan:

  • Setiap statistik dapat dilacak kembali ke artikel dan tautan yang ada di basis data untuk audit.

Keterbatasan

Batas cakupan:

  • Penemuan berbasis GCS bergantung pada kata kunci dan konfigurasi CSE; tidak semua insiden terdeteksi, terutama di luar bahasa yang dikonfigurasi atau konten yang harus dibeli dulu.

  • Beberapa situs memblokir pengambilan otomatis; artikel-artikel tersebut bisa hilang sebagian atau seluruhnya.

Risiko khusus LLM:

  • Walau menggunakan pengaturan deterministik dan prompt terstruktur, kesalahan klasifikasi bisa terjadi, terutama pada teks yang jarang atau ambigu.

  • Pengelompokan peristiwa dapat membagi insiden yang sama menjadi beberapa peristiwa atau menggabungkan insiden serupa tapi berbeda pada kasus-kasus khusus.

Komputasi statistik

Kolom tingkat artikel ditarik dari ekstraksi langsung dan keluaran LLM (disimpan per catatan).

Metrik tingkat peristiwa menggabungkan artikel-artikel penyusun berdasarkan event_id:

  • jumlah artikel, tanggal pertama/terakhir dilihat

  • duplikasi organisasi terdampak dan pelaku ancaman

  • daftar judul representatif dan tautan resmi

Laporan statistik berasal dari tabel-tabel tersimpan ini; setiap angka dapat dilacak kembali ke baris peristiwa dan catatan artikel dasarnya.

Cakupan data

Statistik dan wawasan yang dirujuk dalam konten keamanan siber kami berasal dari kombinasi:

  • Laporan insiden keamanan siber yang tersedia untuk umum

  • Liputan media mengenai insiden siber yang telah dikonfirmasi

  • Laporan dan survei industri

  • Pengungkapan pemerintahan dan regulasi

Data mencerminkan aktivitas yang dapat diamati dan dilaporkan secara publik, bukan keseluruhan insiden siber yang terjadi di seluruh dunia. Banyak insiden siber yang tidak pernah diungkapkan, dilaporkan, atau diberitakan media.

Sumber data dan penemuan

Jenis sumber

Artikel dan laporan terkait keamanan siber dikumpulkan dari berbagai kategori sumber, termasuk:

  • Media dan teknologi arus utama.
    Termasuk organisasi berita internasional besar dan publikasi teknologi.

  • Sumber keamanan siber yang tepercaya dan ahli.
    Termasuk lembaga pemerintah, organisasi riset keamanan siber, dan publikasi industri terkemuka.

  • Media berita regional dan lokal.
    Meliput insiden keamanan siber di seluruh Amerika Utara, Eropa, Asia-Pasifik, dan wilayah lainnya.

  • Laporan industri dan riset.
    Termasuk laporan kebocoran tahunan, lanskap laporan ancaman, survei, dan analisis ekonomi.

Setiap sumber dicantumkan di tingkat artikel atau laporan, dengan tanggal publikasi, media, dan URL asli.

Proses penemuan

Penemuan konten dilakukan menggunakan kueri pencarian otomatis berdasarkan daftar kata kunci keamanan siber terkelola. Kata kunci dikelompokkan per topik (misalnya: pelanggaran data, ransomware, phishing, kerentanan, regulasi).

Pencarian dilakukan setiap hari untuk menangkap konten terbitan baru. Setiap eksekusi hanya mengkueri data terbaru, memastikan dataset mencerminkan pelaporan terkini.

Pengumpulan dan pemrosesan konten

Pengambilan artikel

Begitu sumber ditemukan, teks artikel lengkap diambil menggunakan alat ekstraksi otomatis. Jika ekstraksi utama gagal, metode cadangan digunakan agar cakupan tetap luas.

Penghapusan duplikat

Untuk menghindari penghitungan ganda:

  • URL yang sama hanya diproses satu kali

  • Konten terbitan ulang atau tersindikasi dihilangkan duplikatnya di tingkat artikel

  • Agregasi tingkat peristiwa (dijelaskan di bawah) semakin mengurangi duplikasi di seluruh outlet

Penyaringan dan klasifikasi relevansi

Penilaian relevansi keamanan siber

Setiap artikel dievaluasi untuk menentukan relevansinya dengan statistik keamanan siber. Artikel harus benar-benar mendeskripsikan atau menganalisis satu peristiwa keamanan siber, ancaman, kerentanan, atau regulasi.

Klasifikasi jenis peristiwa

Artikel yang relevan diklasifikasikan ke kategori tingkat atas, termasuk:

  • Insiden – Serangan siber atau kebocoran terkonfirmasi dan telah terjadi

  • Kerentanan – Pengungkapan kelemahan keamanan yang dapat dieksploitasi

  • Kecerdasan ancaman – Laporan mengenai pelaku ancaman, alat, kampanye, atau teknik

  • Peraturan / hukum – Undang-undang, tindakan penegakan, perubahan kebijakan, atau proses hukum terkait keamanan siber

Klasifikasi ini memastikan bahwa statistik merujuk pada “insiden,” “kebocoran,” atau “serangan” tidak dicampuradukkan dengan pengungkapan kerentanan atau komentar umum.

Pengelompokan peristiwa (agregasi artikel ke peristiwa)

Seringkali, beberapa artikel melaporkan insiden siber yang sama. Untuk mencegah penghitungan berlebih:

  • Artikel yang menggambarkan insiden yang sama dikelompokkan menjadi satu peristiwa

  • Peristiwa diberi pengenal internal yang stabil

  • Artikel hanya ditautkan ke peristiwa yang ada jika ada keyakinan tinggi bahwa keduanya menggambarkan kejadian yang sama

Indikator yang digunakan untuk pengelompokan meliputi organisasi terdampak, pelaku ancaman, rentang waktu, dan deskripsi insiden.

Catatan tingkat peristiwa menyimpan:

  • Tanggal kemunculan pertama dan terakhir

  • Jumlah artikel terkait

  • Organisasi terdampak

  • Pelaku ancaman yang dirujuk

  • Tautan sumber untuk verifikasi

Penggunaan analisis otomatis dan kontrol kualitas

Klasifikasi otomatis

Analisis model bahasa yang terstruktur dan deterministik digunakan untuk klasifikasi, ekstraksi, dan agregasi. Semua keluaran otomatis mengikuti skema yang telah ditentukan sebelumnya untuk memastikan konsistensi.

Model beroperasi dengan pengaturan deterministik untuk mengurangi variabilitas dan risiko halusinasi.

Jaminan kualitas

Untuk menjaga akurasi:

  • Validasi skema memastikan hanya keluaran yang terstruktur dengan benar yang dihitung

  • Prosedur pengambilan sampel dan peninjauan bulanan rutin, termasuk peninjauan presisi, dilakukan untuk mendeteksi penyimpangan klasifikasi. Tinjauan ini mengidentifikasi perubahan dalam klasifikasi, yang lalu menjadi dasar dan memicu penyesuaian pada model.

  • Kasus yang ambigu atau berdampak besar ditandai untuk ditinjau oleh manusia

  • Statistik agregat tetap dapat dilacak kembali ke artikel dan peristiwa individu

Perhitungan statistik

Metrik tingkat artikel vs tingkat peristiwa

Beberapa statistik didasarkan pada:

  • Jumlah tingkat artikel (misalnya, volume liputan media)

  • Jumlah tingkat peristiwa (misalnya, jumlah kebocoran atau insiden unik)

Jika memungkinkan, metrik tingkat peristiwa lebih disukai untuk mengurangi duplikasi.

Interpretasi jumlah dan frekuensi

Statistik seperti “insiden per hari” atau “kebocoran per tahun” mewakili aktivitas yang dilaporkan atau yang terlihat di media, bukan total aktivitas global.

Telemetri vendor, sistem pengaduan pemerintah, dan proyeksi ekonomi sering melaporkan volume yang jauh lebih tinggi karena perbedaan cakupan dan metodologi. Perbedaan ini dicatat jika relevan.

Keterbatasan dan pertimbangan

Walau telah ada upaya untuk memastikan akurasi dan konsistensi, data ini tetap memiliki keterbatasan:

  • Tidak semua insiden diungkapkan atau dilaporkan secara publik

  • Liputan media bervariasi per wilayah, sektor, dan skala insiden

  • Beberapa sumber membatasi akses

  • Kesalahan klasifikasi bisa terjadi pada kasus-kasus khusus

  • Angka kerugian ekonomi bisa berubah seiring penyelidikan

Maka, statistik harus diinterpretasikan sebagai indikator arah, bukan pengukuran yang lengkap.

Indeks Sumber

Setiap sumber bernomor berikut ini sesuai dengan referensi superskrip yang digunakan di halaman Statistik Keamanan Siber. Superskrip tertaut langsung ke entri sumber yang relevan di halaman ini.

Sumber 1

Statista –
Cybercrime worldwide

Sumber 2

Identity Theft
Resource Center
(ITRC) – Weekly
Breach
Breakdown
Q3 2025

Sumber 3

Identity Theft
Resource Center
(ITRC) – H1 2025
Data Breach Analysis

Sumber 4

Verizon –
Data Breach
Investigations
Report (DBIR) 2025

Sumber 5

IBM –
Cost of a Data
Breach Report 2025

Sumber 6

South Korean
Ministry of
Science and
ICT – SK Telecom data
exfiltration
incident

Sumber 7

Aflac – June
2025 security
incident
regulatory filing

Sumber 8

HIPAA Journal –
Largest healthcare
data breaches of 2025

Sumber 9

California Attorney
General – Aflac
breach report
(SB24-616010)

Sumber 10

Iowa Attorney
General – Aflac
data breach notification

Sumber 11

Rhode Island
Attorney General –
Data‑breach
notifications

Sumber 12

Rhode Island
AG –
Data‑breach
notification

Sumber 13

Aflac Newsroom –
June 2025
security incident
update

Sumber 14

HIPAA Journal –
Aflac data
breach article

Sumber 15

Office of the
Australian Information
Commissioner –
Statement on Qantas
cyber incident

Sumber 16

Qantas – Information
for customers on
cyber incident

Sumber 17

Qantas Newsroom –
Update on Qantas
cyber incident
(9 July 2025)

Sumber 18

Michigan Attorney
General – Consumer
alert on data breaches
(TransUnion)

Sumber 19

Maine Attorney
General – Allianz Life
cyber incident notice

Sumber 20

California Attorney
General – Allianz data
breach report
(SB24-612078)

Sumber 21

University of
Maryland – Cyber
Security Statistics

Sumber 22

Microsoft Digital
Defense Report 2023

Sumber 23

WIRED – NotPetya
cyberattack article

Sumber 24

Reuters – UnitedHealth
tech unit hack article

Sumber 25

The Guardian – Jaguar
Land Rover hack article

Sumber 26

NBC News –
MGM Resorts
cyberattack cost article

Sumber 27

Delaware Department
of Technology &
Information –
eSecurityNews
(Oct 2023)

Sumber 28

Cybersecurity
Ventures – Global
ransomware damage
cost projection

Sumber 29

JumpCloud – Phishing
attack statistics

Sumber 30

Hornetsecurity – Email
threats in 2024

Sumber 31

Spearshield –
Click‑to‑credential
phishing study

Sumber 32

APWG – Phishing
Activity Trends Reports

Sumber 33

arXiv – Academic
password/credential
research (2025)

Sumber 34

DeepStrike – Password
statistics 2025

Sumber 35

NordPass – Top 200
Most Common
Passwords

Sumber 36

Financial Times –
Supply‑chain
cybersecurity article

Sumber 37

SecurityScorecard –
2025 Supply Chain
Cybersecurity Trends

Sumber 38

National Technology &
Security Coalition –
2025 Software Supply
Chain Security Report

Sumber 39

Palo Alto Networks –
State of Cloud
Native Security

Sumber 40

IBM – Threat
Intelligence Report

Sumber 41

Tenable –
Cloud Security
Risk Report 2025

Sumber 42

Cybersecurity
Ventures –
Cybersecurity Cost
Report

Sumber 43

Statista Market
Insights – Estimated
cost of cybercrime
worldwide 2018‑2029
(ResearchGate)

Sumber 44

Statista – Cost of
cybercrime worldwide
forecast

Sumber 45

FTC – Consumer
Sentinel Network Data
Book 2024

Sumber 46

FBI IC3 – 2024 Internet
Crime Report

Sumber 47

Kroll – Data Breach
Outlook 2025

Sumber 48

IBM – Cost of a Data
Breach 2024: Financial
Industry

Sumber 49

SailPoint – 2024
State of Identity
Security in Financial
Services

Sumber 50

DeepStrike –
Healthcare data
breach statistics 2025

Sumber 51

Proofpoint &
Ponemon – Healthcare
Cybersecurity Report

Sumber 52

Check Point –
Cyber Security
Report 2025

Sumber 53

Thales – 2024
Data Threat Report:
Critical Infrastructure
Edition

Sumber 54

Cyfirma – Energy &
Utilities industry report

Sumber 55

World Economic
Forum – Global
Cybersecurity Outlook
2025

Sumber 56

DeepStrike – Cyber
attacks on small
businesses

Sumber 57

Devolutions – State of
IT Security Report 2025

Sumber 58

TotalAssure –
Small business
cybersecurity statistics
2025

Sumber 59

Cisco – Cybersecurity
Readiness Index 2025

Sumber 60

IANS Research –
Security budgets
press release (2024)

Sumber 61

Munich Re –
Cyber insurance risks
and trends 2025

Sumber 62

Gartner – 2025
information security
spending forecast

Sumber 63

Forrester – 2024
Cybersecurity
Benchmarks (Global)

Sumber 64

Ivanti – State of
Cybersecurity Report

Sumber 65

U.S. Department of
Homeland Security –
FY 2025 Budget in Brief

Sumber 66

U.S. Department of
Defense – CYBERCOM
Budget Justification

Sumber 67

Google Cloud –
Cybersecurity forecast

Sumber 68

Gartner – Generative AI
attack survey
(Sep 22 2025)

Sumber 69

Splashtop – Top
cybersecurity trends
and predictions
for 2026

Sumber 70

ENISA – Threat
Landscape 2024