사이버 보안 통계:
방법론 및 출처

본 페이지의 목적

본 페이지에서는 사이버 보안 통계 페이지에 제시된 사이버 보안 통계를 수집, 처리 및 해석하는 방식을 설명하고, 참조된 데이터 출처를 투명하게 공개합니다. 사이버 보안 통계 메인 페이지에서는 요약된 조사 결과와 NordVPN의 연구 인사이트를 확인할 수 있습니다.

데이터 출처 및 참고 자료

출처 검색은 Google Custom Search API(GCS)를 사용해 수행되며, 아래 범주에 맞게 구성된 여러 Custom Search Engine(CSE)을 활용합니다.

언론사: 주류 언론 및 기술 매체 44곳(BBC, CNN, The New York Times, WSJ, FT, Reuters, Bloomberg, TechCrunch, Wired, Ars Technica, Time, Forbes 등)
권위 있는 사이트/참고 사이트: 업계 및 전문가 소스 25곳(예: CISA, KrebsOnSecurity, The Hacker News, Dark Reading, BleepingComputer, SecurityWeek, Infosecurity Magazine 등)
지역 뉴스: APAC, EMEA 및 미주 지역의 지역 및 전국 단위 언론사 100여 곳(예: Channel NewsAsia, CSA.gov.sg, Zaobao, HK01, unwire.hk, Japan Times, NISC, JPCERT, ITMedia)
무제한/일반

쿼리는 범주별로 용어를 분류한 관리 키워드 목록을 기반으로, 키워드 중심 방식으로 수행됩니다.

모든 기록에는 다음과 같은 출처 정보가 명시적으로 포함됩니다.

원문 링크
언론사(URL에서 추출한 도메인)
게시일 및 수집일

당사는 통계 및 이벤트 집계를 위해 여러 출처의 정보를 종합하며, 각 통계는 링크와 함께 저장된 문서 수준의 근거를 기반으로 도출됩니다.

콘텐츠 검색 및 수집 주기

검색된 링크에서 다음과 같은 방식으로 전체 텍스트 콘텐츠를 가져옵니다.

기본 방식: NewsPlease
대체 방식: 보안이 강화된 requests 세션과 trafilatura 추출을 통한 직접 HTML 다운로드

일시적인 오류를 줄이기 위해 타임아웃, 재시도, TLS 폴백 및 referer 헤더를 사용합니다.

게시일과 제목은 가능한 경우 추출기에서 가져오며, 날짜 파싱은 날짜 전용 형식으로 정규화됩니다.

매일 최근 1일 기준의 콘텐츠를 쿼리합니다.

특징 추출

다음과 같은 항목을 추출합니다.

언론사(URL)
첫 문단(첫 3~5개 문장)
키워드 특징: 텍스트 내 총 등장 횟수, 제목 내 포함 여부, 시드 키워드가 포함된 문장, 관리 목록에 있는 키워드 포함 여부
단어 수

LLM 관련성 평가

각 문서는 결정론적 설정(temperature 0)과 명시적이고 구조화된 출력을 요구하는 제한된 프롬프트를 기반으로 LLM 평가를 거칩니다.

1. 문서가 사이버 이벤트와 관련이 있는지 여부

2. 관련성이 있으면 다음과 같은 상위 수준 이벤트 유형이 할당됩니다.

보안 사고: 랜섬웨어 배포, 데이터 유출, DDoS, 시스템 침해 등 실제 사이버 공격 또는 침해가 이미 발생한 경우
취약점: 악용될 가능성이 있는 소프트웨어/하드웨어/시스템의 보안 결함이 발견되거나 공개된 경우(확인된 악용이 아닌 잠재적 위험)
위협 인텔리전스: 위협 행위자, 도구, TTP, 캠페인에 대한 분석 및 보고로, 특정 피해 사례보다 '누가, 어떻게'에 중점을 둠
규제-법률: 사이버 보안 의무에 영향을 미치는 법률, 규제, 집행 조치, 법원 판결 또는 주요 정책 변경 사항

문서 유형 및 분류 체계

관련 문서는 구조화된 분류 체계 프롬프트를 기반으로 분류됩니다(1차 분류: 공격 상태, 이벤트 유형, 규제/법률, 2차 분류: 영향 지표/등급, 기술 세부 정보, 산업 분야, 지역, 규모, 대략적인 피해액).

이벤트 클러스터링(문서-이벤트 집계)

목적: 동일한 사건을 다루는 여러 문서를 하나의 ‘이벤트’로 묶기 위한 것입니다.

방법:

데이터베이스에서 기존 이벤트를 검색해 컨텍스트(제목, 영향을 받은 것으로 알려진 조직, 위협 행위자, 링크)를 제공합니다.
각 후보 문서(문서 유형 = 단일 사건)에 대해, LLM은 문서 상세 내용을 기존 이벤트 배치와 비교한 뒤 다음 중 하나를 수행합니다.

1. 높은 신뢰도로 동일 사건이라고 판단되면 기존 이벤트 ID 할당

2. 일치하는 사건이 없으면 새로운 이벤트 생성

프롬프트는 높은 정확도를 강조하며, 신뢰도가 매우 높은 경우에만 기존 이벤트와 연결합니다. 영향을 받은 조직과 위협 행위자 신호는 강력한 지표로 간주됩니다.

이벤트에는 최초/최종 확인 날짜, 문서 수, 영향을 받은 조직, 위협 행위자, 제목, 링크 등의 집계 필드가 유지됩니다.

정확성 및 품질 보증

결정성 및 제약 조건:

결정성을 극대화하고 환각을 줄이기 위해 LLM 온도값을 0으로 설정합니다.
제약 조건이 있는 프롬프트는 명시적인 필드와 JSON 출력을 요구하며, 파싱 과정에서 스키마가 강제 적용됩니다.
내용이 없는 문서(제목/본문 누락)는 초기 단계에서 거부됩니다.

LLM 기반, 스키마 검증 메트릭:

모든 메트릭 필드는 엄격하게 문서화된 가이드라인과 JSON 스키마에 따라 결정론적 LLM 실행(온도값 0)을 통해 생성됩니다. 스키마를 준수하는 출력만 집계되며, 기준 조정과 드리프트 방지를 위해 정기적인 수동 품질 검수를 수행합니다.

정밀 필터링을 위한 이벤트/문서 분류:

이벤트 유형 및 문서 초점 분류는 엄격한 관련성 게이트 역할을 하며, 주제에서 벗어나거나 신호가 약한 콘텐츠 및 요약형 콘텐츠를 걸러냅니다. 단일 사건 보고에 집중함으로써 노이즈를 줄이고 데이터 세트의 정밀도와 정확도를 측정 가능하게 향상시킵니다.

다중 출처 검증:

이벤트 클러스터링은 이전에 저장된 이벤트 컨텍스트를 참조하며, 불일치가 있을 경우 잘못된 병합 가능성을 줄입니다.
집계에는 수동 검증을 위한 이벤트별 출처 링크 목록이 포함됩니다.

휴먼인더루프(Human-in-the-loop):

중대한 영향을 미치거나 모호한 사례는 편집 검토 및 팩트체크 대상으로 표시될 수 있습니다.
정기 QA 검토: 표본 추출된 문서 및 이벤트는 매월 정밀도 검토를 통해 감사를 진행하며, 드리프트가 발생하면 프롬프트/모델 또는 키워드 조정이 이루어집니다.

추적 가능성:

모든 통계는 감사가 가능하도록 데이터베이스에 포함된 문서와 링크를 기반으로 추적할 수 있습니다.

제한 사항

범위의 한계:

GCS 기반 검색은 키워드 및 CSE 구성에 의존하기 때문에 모든 사건을 포착하지는 못하며, 특히 설정된 언어 범위를 벗어나거나 유료 구독이 필요한 콘텐츠의 경우 누락될 수 있습니다.
일부 사이트는 자동화된 검색을 차단하므로, 이러한 문서는 일부 또는 전체가 누락될 수 있습니다.

LLM 관련 위험:

결정론적 설정과 구조화된 프롬프트를 사용하더라도, 특히 정보가 부족하거나 모호한 텍스트의 경우 오분류가 발생할 수 있습니다.
이벤트 클러스터링은 동일한 사건을 여러 이벤트로 분할하거나, 드문 경우 유사하지만 서로 다른 사건을 하나로 병합할 수 있습니다.

통계 산출 방식

문서 수준 필드는 직접 추출 및 LLM 출력(기록별로 저장)을 기반으로 도출됩니다.

이벤트 수준 메트릭은 동일 이벤트에 속한 문서들을 event_id 기준으로 집계합니다.

문서 수, 최초/최종 확인 날짜
중복 제거된 영향을 받은 조직 및 위협 행위자
대표 제목 및 표준 링크 목록

보고서 통계는 이러한 저장 테이블에서 가져오는 것이며, 각 수치는 이벤트 행과 기본 문서 기록으로 거슬러 올라갈 수 있습니다.

데이터 범위

당사 사이버 보안 콘텐츠 전반에서 참조된 통계 및 인사이트는 다음 항목의 조합을 통해 도출되었습니다.

공개된 사이버 보안 사고 보고 자료
확인된 사이버 사건에 대한 언론 보도
업계 보고서 및 설문조사
정부 및 규제 기관의 공시 자료

이 데이터는 전 세계에서 발생하는 모든 사이버 사건 전체가 아니라, 공개적으로 관찰 및 보고된 활동을 반영합니다. 많은 사이버 사건은 공개되거나 보고 또는 언론 보도가 이루어지지 않습니다.

데이터 출처 및 검색

출처 유형

사이버 보안 관련 문서와 보고서는 다음과 같은 다양한 출처에서 수집됩니다.

주류 언론 및 기술 매체.
주요 글로벌 뉴스 기관과 기술 전문 매체 등이 포함됩니다.
권위 있는 전문 사이버 보안 정보 소스.
정부 기관, 사이버 보안 연구 기관, 주요 업계 간행물 등이 포함됩니다.
지역 및 현지 뉴스 매체.
북미, 유럽, 아시아 태평양 및 기타 지역에서 발생한 사이버 보안 사건을 다룹니다.
업계 및 연구 보고서.
연례 침해 사고 보고서, 위협 환경 보고서, 설문조사, 경제 분석 자료 등이 포함됩니다.

각 소스는 문서 또는 보고서 수준으로 출처가 표기되며, 게시일, 매체명, 원본 URL이 그대로 유지됩니다.

검색 프로세스

콘텐츠 검색은 관리 중인 사이버 보안 키워드 목록을 기반으로 한 자동화된 검색 쿼리를 사용해 수행됩니다. 키워드는 주제별로 분류됩니다(예: 데이터 침해, 랜섬웨어, 피싱, 취약점, 규제).

검색은 새로 게시된 콘텐츠를 수집하기 위해 매일 실행됩니다. 각 실행 시 최근 자료만 조회하여 데이터 세트가 최신 보고 내용을 반영하도록 합니다.

콘텐츠 수집 및 처리

문서 검색

출처가 확인되면 자동 추출 도구를 사용해 문서 전문을 가져옵니다. 기본 추출에 실패할 경우 안정적인 수집 범위를 보장하기 위해 대체 방식이 사용됩니다.

중복 제거

이중 집계를 방지하기 위해,

동일한 URL은 한 번만 처리합니다.
재게시되거나 신디케이션된 콘텐츠는 문서 수준에서 중복 제거됩니다.
아래에서 설명하는 이벤트 수준 집계를 통해 매체 간 중복을 추가로 줄입니다.

이벤트 클러스터링(문서-이벤트 집계)

여러 문서가 동일한 사이버 사건을 다루는 경우가 많습니다. 과다 집계를 방지하기 위해,

동일한 사건을 다룬 문서는 하나의 이벤트로 묶입니다.
각 이벤트에는 고정된 내부 식별자가 할당됩니다.
동일한 사건을 기술한다고 높은 신뢰도로 판단되는 경우에만 문서가 기존 이벤트에 연결됩니다.

클러스터링에는 영향을 받은 조직, 위협 행위자, 타임라인, 사건 설명 등의 지표가 활용됩니다.

이벤트 수준 기록에는 다음 정보가 유지됩니다.

최초 및 최종 게시 날짜
관련 문서 수
영향을 받은 조직
언급된 위협 행위자
검증용 출처 링크

자동 분석 및 품질 관리 적용

자동 분류

구조화된 결정론적 언어 모델 분석을 활용해 분류, 추출 및 집계를 수행합니다. 모든 자동화 출력은 일관성을 보장하기 위해 사전 정의된 스키마를 따릅니다.

모델은 변동성과 환각 위험을 줄이기 위해 결정론적 설정으로 운영됩니다.

품질 보증

정확성을 유지하기 위해,

스키마 검증을 통해 올바르게 구조화된 출력만 집계됩니다.
분류 드리프트를 감지하기 위해 정밀도 검토를 포함한 월간 샘플링 및 검토 절차를 수행합니다. 이 검토를 통해 분류상의 변화를 파악하며, 이후 모델 조정에 반영됩니다.
모호하거나 중대한 영향을 미치는 사례는 수동 검토 대상으로 표시됩니다.
집계된 통계는 개별 문서 및 이벤트 단위까지 추적 가능성을 유지합니다.

통계 계산 방식

문서 수준 vs. 이벤트 수준 메트릭

일부 통계는 다음 기준을 기반으로 계산합니다.

문서 수준 집계(예: 언론 보도량)
이벤트 수준 집계(예: 개별 침해 또는 사건 수)

가능한 경우, 중복을 줄이기 위해 이벤트 수준 메트릭을 우선 사용됩니다.

집계 수치 및 빈도 해석

'일일 사건 수' 또는 '연간 침해 건수'와 같은 통계는 전 세계의 총 사례가 아니라, 보고되었거나 언론에 드러난 사례를 바탕으로 합니다.

벤더 텔레메트리, 정부 민원 시스템, 경제 전망 자료 등은 적용 범위와 방법론 차이로 인해 훨씬 높은 수치를 제시하는 경우가 많습니다. 이러한 차이는 관련 있는 경우 명시됩니다.

한계 및 고려 사항

정확성과 일관성을 보장하기 위해 주의를 기울이고 있으나, 데이터에는 다음과 같은 본질적인 한계가 있습니다.

모든 사건이 공개적으로 공시되거나 보고되는 것은 아닙니다.
언론 보도는 지역, 산업 분야, 사건 규모에 따라 차이가 있습니다.
일부 소스는 접근을 제한합니다.
드물게 분류 오류가 발생하는 경우가 있습니다.
경제적 손실 규모는 조사 진행 상황에 따라 변동될 수 있습니다.

따라서 이러한 통계는 완전한 측정값이 아니라 방향성을 보여주는 지표로 해석되어야 합니다.

출처 색인

아래에 번호로 정리된 각 출처는 '사이버 보안 통계' 페이지에 사용된 위 첨자 참조와 연결됩니다. 각 위 첨자는 본 페이지의 관련 출처 항목으로 바로 연결됩니다.

출처¹ Statista – Cybercrime worldwide 링크⁠‌
출처² Identity Theft Resource Center (ITRC) – Weekly Breach Breakdown Q3 2025 링크⁠‌
출처³ Identity Theft Resource Center (ITRC) – H1 2025 Data Breach Analysis 링크⁠‌
출처⁴ Verizon – Data Breach Investigations Report (DBIR) 2025 링크⁠‌
출처⁵ IBM – Cost of a Data Breach Report 2025 링크⁠‌
출처⁶ South Korean Ministry of Science and ICT – SK Telecom data exfiltration incident 링크⁠‌
출처⁷ Aflac – June 2025 security incident regulatory filing 링크⁠‌
출처⁸ HIPAA Journal – Largest healthcare data breaches of 2025 링크⁠‌
출처⁹ California Attorney General – Aflac breach report (SB24-616010) 링크⁠‌
출처¹⁰ Iowa Attorney General – Aflac data breach notification 링크⁠‌
출처¹¹ Rhode Island Attorney General – Data‑breach notifications 링크⁠‌
출처¹² Rhode Island AG – Data‑breach notification 링크⁠‌
출처¹³ Aflac Newsroom – June 2025 security incident update 링크⁠‌
출처¹⁴ HIPAA Journal – Aflac data breach article 링크⁠‌
출처¹⁵ Office of the Australian Information Commissioner – Statement on Qantas cyber incident 링크⁠‌
출처¹⁶ Qantas – Information for customers on cyber incident 링크⁠‌
출처¹⁷ Qantas Newsroom – Update on Qantas cyber incident (9 July 2025) 링크⁠‌
출처¹⁸ Michigan Attorney General – Consumer alert on data breaches (TransUnion) 링크⁠‌
출처¹⁹ Maine Attorney General – Allianz Life cyber incident notice 링크⁠‌
출처²⁰ California Attorney General – Allianz data breach report (SB24-612078) 링크⁠‌
출처²¹ University of Maryland – Cyber Security Statistics 링크⁠‌
출처²² Microsoft Digital Defense Report 2023 링크⁠‌
출처²³ WIRED – NotPetya cyberattack article 링크⁠‌
출처²⁴ Reuters – UnitedHealth tech unit hack article 링크⁠‌
출처²⁵ The Guardian – Jaguar Land Rover hack article 링크⁠‌
출처²⁶ NBC News – MGM Resorts cyberattack cost article 링크⁠‌
출처²⁷ Delaware Department of Technology & Information – eSecurityNews (Oct 2023) 링크⁠‌
출처²⁸ Cybersecurity Ventures – Global ransomware damage cost projection 링크⁠‌
출처²⁹ JumpCloud – Phishing attack statistics 링크⁠‌
출처³⁰ Hornetsecurity – Email threats in 2024 링크⁠‌
출처³¹ Spearshield – Click‑to‑credential phishing study 링크⁠‌
출처³² APWG – Phishing Activity Trends Reports 링크⁠‌
출처³³ arXiv – Academic password/credential research (2025) 링크⁠‌
출처³⁴ DeepStrike – Password statistics 2025 링크⁠‌
출처³⁵ NordPass – Top 200 Most Common Passwords 링크⁠‌
출처³⁶ Financial Times – Supply‑chain cybersecurity article 링크⁠‌
출처³⁷ SecurityScorecard – 2025 Supply Chain Cybersecurity Trends 링크⁠‌
출처³⁸ National Technology & Security Coalition – 2025 Software Supply Chain Security Report 링크⁠‌
출처³⁹ Palo Alto Networks – State of Cloud Native Security 링크⁠‌
출처⁴⁰ IBM – Threat Intelligence Report 링크⁠‌
출처⁴¹ Tenable – Cloud Security Risk Report 2025 링크⁠‌
출처⁴² Cybersecurity Ventures – Cybersecurity Cost Report 링크⁠‌
출처⁴³ Statista Market Insights – Estimated cost of cybercrime worldwide 2018‑2029 (ResearchGate) 링크⁠‌
출처⁴⁴ Statista – Cost of cybercrime worldwide forecast 링크⁠‌
출처⁴⁵ FTC – Consumer Sentinel Network Data Book 2024 링크⁠‌
출처⁴⁶ FBI IC3 – 2024 Internet Crime Report 링크⁠‌
출처⁴⁷ Kroll – Data Breach Outlook 2025 링크⁠‌
출처⁴⁸ IBM – Cost of a Data Breach 2024: Financial Industry 링크⁠‌
출처⁴⁹ SailPoint – 2024 State of Identity Security in Financial Services 링크⁠‌
출처⁵⁰ DeepStrike – Healthcare data breach statistics 2025 링크⁠‌
출처⁵¹ Proofpoint & Ponemon – Healthcare Cybersecurity Report 링크⁠‌
출처⁵² Check Point – Cyber Security Report 2025 링크⁠‌
출처⁵³ Thales – 2024 Data Threat Report: Critical Infrastructure Edition 링크⁠‌
출처⁵⁴ Cyfirma – Energy & Utilities industry report 링크⁠‌
출처⁵⁵ World Economic Forum – Global Cybersecurity Outlook 2025 링크⁠‌
출처⁵⁶ DeepStrike – Cyber attacks on small businesses 링크⁠‌
출처⁵⁷ Devolutions – State of IT Security Report 2025 링크⁠‌
출처⁵⁸ TotalAssure – Small business cybersecurity statistics 2025 링크⁠‌
출처⁵⁹ Cisco – Cybersecurity Readiness Index 2025 링크⁠‌
출처⁶⁰ IANS Research – Security budgets press release (2024) 링크⁠‌
출처⁶¹ Munich Re – Cyber insurance risks and trends 2025 링크⁠‌
출처⁶² Gartner – 2025 information security spending forecast 링크⁠‌
출처⁶³ Forrester – 2024 Cybersecurity Benchmarks (Global) 링크⁠‌
출처⁶⁴ Ivanti – State of Cybersecurity Report 링크⁠‌
출처⁶⁵ U.S. Department of Homeland Security – FY 2025 Budget in Brief 링크⁠‌
출처⁶⁶ U.S. Department of Defense – CYBERCOM Budget Justification 링크⁠‌
출처⁶⁷ Google Cloud – Cybersecurity forecast 링크⁠‌
출처⁶⁸ Gartner – Generative AI attack survey (Sep 22 2025) 링크⁠‌
출처⁶⁹ Splashtop – Top cybersecurity trends and predictions for 2026 링크⁠‌
출처⁷⁰ ENISA – Threat Landscape 2024 링크⁠‌

사이버 보안 통계:
방법론 및 출처

본 페이지의 목적

데이터 범위

데이터 출처 및 검색

출처 유형

검색 프로세스

콘텐츠 수집 및 처리

문서 검색

중복 제거

관련성 필터링 및 분류

사이버 보안 관련성 평가

이벤트 유형 분류

이벤트 클러스터링(문서-이벤트 집계)

자동 분석 및 품질 관리 적용

자동 분류

품질 보증

통계 계산 방식

문서 수준 vs. 이벤트 수준 메트릭

집계 수치 및 빈도 해석

한계 및 고려 사항

출처 색인

사이버 보안 통계: 방법론 및 출처

본 페이지의 목적

데이터 범위

데이터 출처 및 검색

출처 유형

검색 프로세스

콘텐츠 수집 및 처리

문서 검색

중복 제거

관련성 필터링 및 분류

사이버 보안 관련성 평가

이벤트 유형 분류

이벤트 클러스터링(문서-이벤트 집계)

자동 분석 및 품질 관리 적용

자동 분류

품질 보증

통계 계산 방식

문서 수준 vs. 이벤트 수준 메트릭

집계 수치 및 빈도 해석

한계 및 고려 사항

출처 색인

사이버 보안 통계:
방법론 및 출처