사이버 보안 통계:
방법론 및 출처

본 페이지의 목적

본 페이지에서는 사이버 보안 통계 페이지에 제시된 사이버 보안 통계를 수집, 처리 및 해석하는 방식을 설명하고, 참조된 데이터 출처를 투명하게 공개합니다. 사이버 보안 통계 메인 페이지에서는 요약된 조사 결과와 NordVPN의 연구 인사이트를 확인할 수 있습니다.

데이터 출처 및 참고 자료

출처 검색은 Google Custom Search API(GCS)를 사용해 수행되며, 아래 범주에 맞게 구성된 여러 Custom Search Engine(CSE)을 활용합니다.

  • 언론사: 주류 언론 및 기술 매체 44곳(BBC, CNN, The New York Times, WSJ, FT, Reuters, Bloomberg, TechCrunch, Wired, Ars Technica, Time, Forbes 등)

  • 권위 있는 사이트/참고 사이트: 업계 및 전문가 소스 25곳(예: CISA, KrebsOnSecurity, The Hacker News, Dark Reading, BleepingComputer, SecurityWeek, Infosecurity Magazine 등)

  • 지역 뉴스: APAC, EMEA 및 미주 지역의 지역 및 전국 단위 언론사 100여 곳(예: Channel NewsAsia, CSA.gov.sg, Zaobao, HK01, unwire.hk, Japan Times, NISC, JPCERT, ITMedia)

  • 무제한/일반

쿼리는 범주별로 용어를 분류한 관리 키워드 목록을 기반으로, 키워드 중심 방식으로 수행됩니다.

모든 기록에는 다음과 같은 출처 정보가 명시적으로 포함됩니다.

  • 원문 링크

  • 언론사(URL에서 추출한 도메인)

  • 게시일 및 수집일

당사는 통계 및 이벤트 집계를 위해 여러 출처의 정보를 종합하며, 각 통계는 링크와 함께 저장된 문서 수준의 근거를 기반으로 도출됩니다.

콘텐츠 검색 및 수집 주기

검색된 링크에서 다음과 같은 방식으로 전체 텍스트 콘텐츠를 가져옵니다.

  • 기본 방식: NewsPlease

  • 대체 방식: 보안이 강화된 requests 세션과 trafilatura 추출을 통한 직접 HTML 다운로드

일시적인 오류를 줄이기 위해 타임아웃, 재시도, TLS 폴백 및 referer 헤더를 사용합니다.

게시일과 제목은 가능한 경우 추출기에서 가져오며, 날짜 파싱은 날짜 전용 형식으로 정규화됩니다.

매일 최근 1일 기준의 콘텐츠를 쿼리합니다.

특징 추출

다음과 같은 항목을 추출합니다.

  • 언론사(URL)

  • 첫 문단(첫 3~5개 문장)

  • 키워드 특징: 텍스트 내 총 등장 횟수, 제목 내 포함 여부, 시드 키워드가 포함된 문장, 관리 목록에 있는 키워드 포함 여부

  • 단어 수

LLM 관련성 평가

각 문서는 결정론적 설정(temperature 0)과 명시적이고 구조화된 출력을 요구하는 제한된 프롬프트를 기반으로 LLM 평가를 거칩니다.

1. 문서가 사이버 이벤트와 관련이 있는지 여부

2. 관련성이 있으면 다음과 같은 상위 수준 이벤트 유형이 할당됩니다.

  • 보안 사고: 랜섬웨어 배포, 데이터 유출, DDoS, 시스템 침해 등 실제 사이버 공격 또는 침해가 이미 발생한 경우

  • 취약점: 악용될 가능성이 있는 소프트웨어/하드웨어/시스템의 보안 결함이 발견되거나 공개된 경우(확인된 악용이 아닌 잠재적 위험)

  • 위협 인텔리전스: 위협 행위자, 도구, TTP, 캠페인에 대한 분석 및 보고로, 특정 피해 사례보다 '누가, 어떻게'에 중점을 둠

  • 규제-법률: 사이버 보안 의무에 영향을 미치는 법률, 규제, 집행 조치, 법원 판결 또는 주요 정책 변경 사항

문서 유형 및 분류 체계

관련 문서는 구조화된 분류 체계 프롬프트를 기반으로 분류됩니다(1차 분류: 공격 상태, 이벤트 유형, 규제/법률, 2차 분류: 영향 지표/등급, 기술 세부 정보, 산업 분야, 지역, 규모, 대략적인 피해액).

이벤트 클러스터링(문서-이벤트 집계)

목적: 동일한 사건을 다루는 여러 문서를 하나의 ‘이벤트’로 묶기 위한 것입니다.

방법:

  • 데이터베이스에서 기존 이벤트를 검색해 컨텍스트(제목, 영향을 받은 것으로 알려진 조직, 위협 행위자, 링크)를 제공합니다.

  • 각 후보 문서(문서 유형 = 단일 사건)에 대해, LLM은 문서 상세 내용을 기존 이벤트 배치와 비교한 뒤 다음 중 하나를 수행합니다.

1. 높은 신뢰도로 동일 사건이라고 판단되면 기존 이벤트 ID 할당

2. 일치하는 사건이 없으면 새로운 이벤트 생성

  • 프롬프트는 높은 정확도를 강조하며, 신뢰도가 매우 높은 경우에만 기존 이벤트와 연결합니다. 영향을 받은 조직과 위협 행위자 신호는 강력한 지표로 간주됩니다.

이벤트에는 최초/최종 확인 날짜, 문서 수, 영향을 받은 조직, 위협 행위자, 제목, 링크 등의 집계 필드가 유지됩니다.

정확성 및 품질 보증

결정성 및 제약 조건:

  • 결정성을 극대화하고 환각을 줄이기 위해 LLM 온도값을 0으로 설정합니다.

  • 제약 조건이 있는 프롬프트는 명시적인 필드와 JSON 출력을 요구하며, 파싱 과정에서 스키마가 강제 적용됩니다.

  • 내용이 없는 문서(제목/본문 누락)는 초기 단계에서 거부됩니다.

LLM 기반, 스키마 검증 메트릭:

  • 모든 메트릭 필드는 엄격하게 문서화된 가이드라인과 JSON 스키마에 따라 결정론적 LLM 실행(온도값 0)을 통해 생성됩니다. 스키마를 준수하는 출력만 집계되며, 기준 조정과 드리프트 방지를 위해 정기적인 수동 품질 검수를 수행합니다.

정밀 필터링을 위한 이벤트/문서 분류:

  • 이벤트 유형 및 문서 초점 분류는 엄격한 관련성 게이트 역할을 하며, 주제에서 벗어나거나 신호가 약한 콘텐츠 및 요약형 콘텐츠를 걸러냅니다. 단일 사건 보고에 집중함으로써 노이즈를 줄이고 데이터 세트의 정밀도와 정확도를 측정 가능하게 향상시킵니다.

다중 출처 검증:

  • 이벤트 클러스터링은 이전에 저장된 이벤트 컨텍스트를 참조하며, 불일치가 있을 경우 잘못된 병합 가능성을 줄입니다.

  • 집계에는 수동 검증을 위한 이벤트별 출처 링크 목록이 포함됩니다.

휴먼인더루프(Human-in-the-loop):

  • 중대한 영향을 미치거나 모호한 사례는 편집 검토 및 팩트체크 대상으로 표시될 수 있습니다.

  • 정기 QA 검토: 표본 추출된 문서 및 이벤트는 매월 정밀도 검토를 통해 감사를 진행하며, 드리프트가 발생하면 프롬프트/모델 또는 키워드 조정이 이루어집니다.

추적 가능성:

  • 모든 통계는 감사가 가능하도록 데이터베이스에 포함된 문서와 링크를 기반으로 추적할 수 있습니다.

제한 사항

범위의 한계:

  • GCS 기반 검색은 키워드 및 CSE 구성에 의존하기 때문에 모든 사건을 포착하지는 못하며, 특히 설정된 언어 범위를 벗어나거나 유료 구독이 필요한 콘텐츠의 경우 누락될 수 있습니다.

  • 일부 사이트는 자동화된 검색을 차단하므로, 이러한 문서는 일부 또는 전체가 누락될 수 있습니다.

LLM 관련 위험:

  • 결정론적 설정과 구조화된 프롬프트를 사용하더라도, 특히 정보가 부족하거나 모호한 텍스트의 경우 오분류가 발생할 수 있습니다.

  • 이벤트 클러스터링은 동일한 사건을 여러 이벤트로 분할하거나, 드문 경우 유사하지만 서로 다른 사건을 하나로 병합할 수 있습니다.

통계 산출 방식

문서 수준 필드는 직접 추출 및 LLM 출력(기록별로 저장)을 기반으로 도출됩니다.

이벤트 수준 메트릭은 동일 이벤트에 속한 문서들을 event_id 기준으로 집계합니다.

  • 문서 수, 최초/최종 확인 날짜

  • 중복 제거된 영향을 받은 조직 및 위협 행위자

  • 대표 제목 및 표준 링크 목록

보고서 통계는 이러한 저장 테이블에서 가져오는 것이며, 각 수치는 이벤트 행과 기본 문서 기록으로 거슬러 올라갈 수 있습니다.

데이터 범위

당사 사이버 보안 콘텐츠 전반에서 참조된 통계 및 인사이트는 다음 항목의 조합을 통해 도출되었습니다.

  • 공개된 사이버 보안 사고 보고 자료

  • 확인된 사이버 사건에 대한 언론 보도

  • 업계 보고서 및 설문조사

  • 정부 및 규제 기관의 공시 자료

이 데이터는 전 세계에서 발생하는 모든 사이버 사건 전체가 아니라, 공개적으로 관찰 및 보고된 활동을 반영합니다. 많은 사이버 사건은 공개되거나 보고 또는 언론 보도가 이루어지지 않습니다.

데이터 출처 및 검색

출처 유형

사이버 보안 관련 문서와 보고서는 다음과 같은 다양한 출처에서 수집됩니다.

  • 주류 언론 및 기술 매체.
    주요 글로벌 뉴스 기관과 기술 전문 매체 등이 포함됩니다.

  • 권위 있는 전문 사이버 보안 정보 소스.
    정부 기관, 사이버 보안 연구 기관, 주요 업계 간행물 등이 포함됩니다.

  • 지역 및 현지 뉴스 매체.
    북미, 유럽, 아시아 태평양 및 기타 지역에서 발생한 사이버 보안 사건을 다룹니다.

  • 업계 및 연구 보고서.
    연례 침해 사고 보고서, 위협 환경 보고서, 설문조사, 경제 분석 자료 등이 포함됩니다.

각 소스는 문서 또는 보고서 수준으로 출처가 표기되며, 게시일, 매체명, 원본 URL이 그대로 유지됩니다.

검색 프로세스

콘텐츠 검색은 관리 중인 사이버 보안 키워드 목록을 기반으로 한 자동화된 검색 쿼리를 사용해 수행됩니다. 키워드는 주제별로 분류됩니다(예: 데이터 침해, 랜섬웨어, 피싱, 취약점, 규제).

검색은 새로 게시된 콘텐츠를 수집하기 위해 매일 실행됩니다. 각 실행 시 최근 자료만 조회하여 데이터 세트가 최신 보고 내용을 반영하도록 합니다.

콘텐츠 수집 및 처리

문서 검색

출처가 확인되면 자동 추출 도구를 사용해 문서 전문을 가져옵니다. 기본 추출에 실패할 경우 안정적인 수집 범위를 보장하기 위해 대체 방식이 사용됩니다.

중복 제거

이중 집계를 방지하기 위해,

  • 동일한 URL은 한 번만 처리합니다.

  • 재게시되거나 신디케이션된 콘텐츠는 문서 수준에서 중복 제거됩니다.

  • 아래에서 설명하는 이벤트 수준 집계를 통해 매체 간 중복을 추가로 줄입니다.

관련성 필터링 및 분류

사이버 보안 관련성 평가

각 문서는 사이버 보안 통계와 관련이 있는지 판단하기 위해 평가를 거칩니다. 문서는 사이버 보안 사건, 위협, 취약점 또는 규제 조치를 의미 있게 설명하거나 분석해야 합니다.

이벤트 유형 분류

관련 문서는 다음과 같은 상위 범주로 분류됩니다.

  • 보안 사고 – 이미 발생한 것으로 확인된 사이버 공격 또는 침해

  • 취약점 – 악용될 수 있는 보안 취약점 공개

  • 위협 인텔리전스 – 위협 행위자, 도구, 캠페인 또는 기법에 대한 보고

  • 규제/법률 – 사이버 보안과 관련된 법률, 집행 조치, 정책 변경 또는 법적 절차

이러한 분류를 통해 '사건', '침해', '공격' 관련 통계가 취약점 공개나 일반적인 논평과 혼동되지 않도록 합니다.

이벤트 클러스터링(문서-이벤트 집계)

여러 문서가 동일한 사이버 사건을 다루는 경우가 많습니다. 과다 집계를 방지하기 위해,

  • 동일한 사건을 다룬 문서는 하나의 이벤트로 묶입니다.

  • 각 이벤트에는 고정된 내부 식별자가 할당됩니다.

  • 동일한 사건을 기술한다고 높은 신뢰도로 판단되는 경우에만 문서가 기존 이벤트에 연결됩니다.

클러스터링에는 영향을 받은 조직, 위협 행위자, 타임라인, 사건 설명 등의 지표가 활용됩니다.

이벤트 수준 기록에는 다음 정보가 유지됩니다.

  • 최초 및 최종 게시 날짜

  • 관련 문서 수

  • 영향을 받은 조직

  • 언급된 위협 행위자

  • 검증용 출처 링크

자동 분석 및 품질 관리 적용

자동 분류

구조화된 결정론적 언어 모델 분석을 활용해 분류, 추출 및 집계를 수행합니다. 모든 자동화 출력은 일관성을 보장하기 위해 사전 정의된 스키마를 따릅니다.

모델은 변동성과 환각 위험을 줄이기 위해 결정론적 설정으로 운영됩니다.

품질 보증

정확성을 유지하기 위해,

  • 스키마 검증을 통해 올바르게 구조화된 출력만 집계됩니다.

  • 분류 드리프트를 감지하기 위해 정밀도 검토를 포함한 월간 샘플링 및 검토 절차를 수행합니다. 이 검토를 통해 분류상의 변화를 파악하며, 이후 모델 조정에 반영됩니다.

  • 모호하거나 중대한 영향을 미치는 사례는 수동 검토 대상으로 표시됩니다.

  • 집계된 통계는 개별 문서 및 이벤트 단위까지 추적 가능성을 유지합니다.

통계 계산 방식

문서 수준 vs. 이벤트 수준 메트릭

일부 통계는 다음 기준을 기반으로 계산합니다.

  • 문서 수준 집계(예: 언론 보도량)

  • 이벤트 수준 집계(예: 개별 침해 또는 사건 수)

가능한 경우, 중복을 줄이기 위해 이벤트 수준 메트릭을 우선 사용됩니다.

집계 수치 및 빈도 해석

'일일 사건 수' 또는 '연간 침해 건수'와 같은 통계는 전 세계의 총 사례가 아니라, 보고되었거나 언론에 드러난 사례를 바탕으로 합니다.

벤더 텔레메트리, 정부 민원 시스템, 경제 전망 자료 등은 적용 범위와 방법론 차이로 인해 훨씬 높은 수치를 제시하는 경우가 많습니다. 이러한 차이는 관련 있는 경우 명시됩니다.

한계 및 고려 사항

정확성과 일관성을 보장하기 위해 주의를 기울이고 있으나, 데이터에는 다음과 같은 본질적인 한계가 있습니다.

  • 모든 사건이 공개적으로 공시되거나 보고되는 것은 아닙니다.

  • 언론 보도는 지역, 산업 분야, 사건 규모에 따라 차이가 있습니다.

  • 일부 소스는 접근을 제한합니다.

  • 드물게 분류 오류가 발생하는 경우가 있습니다.

  • 경제적 손실 규모는 조사 진행 상황에 따라 변동될 수 있습니다.

따라서 이러한 통계는 완전한 측정값이 아니라 방향성을 보여주는 지표로 해석되어야 합니다.

출처 색인

아래에 번호로 정리된 각 출처는 '사이버 보안 통계' 페이지에 사용된 위 첨자 참조와 연결됩니다. 각 위 첨자는 본 페이지의 관련 출처 항목으로 바로 연결됩니다.

출처1

Statista –
Cybercrime worldwide

출처2

Identity Theft
Resource Center
(ITRC) – Weekly
Breach
Breakdown
Q3 2025

출처3

Identity Theft
Resource Center
(ITRC) – H1 2025
Data Breach Analysis

출처4

Verizon –
Data Breach
Investigations
Report (DBIR) 2025

출처5

IBM –
Cost of a Data
Breach Report 2025

출처6

South Korean
Ministry of
Science and
ICT – SK Telecom data
exfiltration
incident

출처7

Aflac – June
2025 security
incident
regulatory filing

출처8

HIPAA Journal –
Largest healthcare
data breaches of 2025

출처9

California Attorney
General – Aflac
breach report
(SB24-616010)

출처10

Iowa Attorney
General – Aflac
data breach notification

출처11

Rhode Island
Attorney General –
Data‑breach
notifications

출처12

Rhode Island
AG –
Data‑breach
notification

출처13

Aflac Newsroom –
June 2025
security incident
update

출처14

HIPAA Journal –
Aflac data
breach article

출처15

Office of the
Australian Information
Commissioner –
Statement on Qantas
cyber incident

출처16

Qantas – Information
for customers on
cyber incident

출처17

Qantas Newsroom –
Update on Qantas
cyber incident
(9 July 2025)

출처18

Michigan Attorney
General – Consumer
alert on data breaches
(TransUnion)

출처19

Maine Attorney
General – Allianz Life
cyber incident notice

출처20

California Attorney
General – Allianz data
breach report
(SB24-612078)

출처21

University of
Maryland – Cyber
Security Statistics

출처22

Microsoft Digital
Defense Report 2023

출처23

WIRED – NotPetya
cyberattack article

출처24

Reuters – UnitedHealth
tech unit hack article

출처25

The Guardian – Jaguar
Land Rover hack article

출처26

NBC News –
MGM Resorts
cyberattack cost article

출처27

Delaware Department
of Technology &
Information –
eSecurityNews
(Oct 2023)

출처28

Cybersecurity
Ventures – Global
ransomware damage
cost projection

출처29

JumpCloud – Phishing
attack statistics

출처30

Hornetsecurity – Email
threats in 2024

출처31

Spearshield –
Click‑to‑credential
phishing study

출처32

APWG – Phishing
Activity Trends Reports

출처33

arXiv – Academic
password/credential
research (2025)

출처34

DeepStrike – Password
statistics 2025

출처35

NordPass – Top 200
Most Common
Passwords

출처36

Financial Times –
Supply‑chain
cybersecurity article

출처37

SecurityScorecard –
2025 Supply Chain
Cybersecurity Trends

출처38

National Technology &
Security Coalition –
2025 Software Supply
Chain Security Report

출처39

Palo Alto Networks –
State of Cloud
Native Security

출처40

IBM – Threat
Intelligence Report

출처41

Tenable –
Cloud Security
Risk Report 2025

출처42

Cybersecurity
Ventures –
Cybersecurity Cost
Report

출처43

Statista Market
Insights – Estimated
cost of cybercrime
worldwide 2018‑2029
(ResearchGate)

출처44

Statista – Cost of
cybercrime worldwide
forecast

출처45

FTC – Consumer
Sentinel Network Data
Book 2024

출처46

FBI IC3 – 2024 Internet
Crime Report

출처47

Kroll – Data Breach
Outlook 2025

출처48

IBM – Cost of a Data
Breach 2024: Financial
Industry

출처49

SailPoint – 2024
State of Identity
Security in Financial
Services

출처50

DeepStrike –
Healthcare data
breach statistics 2025

출처51

Proofpoint &
Ponemon – Healthcare
Cybersecurity Report

출처52

Check Point –
Cyber Security
Report 2025

출처53

Thales – 2024
Data Threat Report:
Critical Infrastructure
Edition

출처54

Cyfirma – Energy &
Utilities industry report

출처55

World Economic
Forum – Global
Cybersecurity Outlook
2025

출처56

DeepStrike – Cyber
attacks on small
businesses

출처57

Devolutions – State of
IT Security Report 2025

출처58

TotalAssure –
Small business
cybersecurity statistics
2025

출처59

Cisco – Cybersecurity
Readiness Index 2025

출처60

IANS Research –
Security budgets
press release (2024)

출처61

Munich Re –
Cyber insurance risks
and trends 2025

출처62

Gartner – 2025
information security
spending forecast

출처63

Forrester – 2024
Cybersecurity
Benchmarks (Global)

출처64

Ivanti – State of
Cybersecurity Report

출처65

U.S. Department of
Homeland Security –
FY 2025 Budget in Brief

출처66

U.S. Department of
Defense – CYBERCOM
Budget Justification

출처67

Google Cloud –
Cybersecurity forecast

출처68

Gartner – Generative AI
attack survey
(Sep 22 2025)

출처69

Splashtop – Top
cybersecurity trends
and predictions
for 2026

출처70

ENISA – Threat
Landscape 2024