サイバーセキュリティ統計:
調査方法および情報源

本ページの目的

このページでは、「サイバーセキュリティ統計」ページに掲載されているサイバーセキュリティ統計がどのように収集、処理、解釈されているかについて説明し、参照されているデータソースに関する完全な透明性を提供します。「サイバーセキュリティ統計」のメインページには、調査結果の要約とNordVPNの調査に基づく分析が掲載されています。

データソースおよび出典

ソースの検索には、Google Custom Search API(GCS)を用いた複数のカスタム検索エンジン(CSE)を利用しており、以下のカテゴリ別に設定しています。

  • 大手メディア:BBC、CNN、The New York Times、WSJ、FT、Reuters、Bloomberg、TechCrunch、Wired、Ars Technica、Time、Forbesなど、計44媒体

  • 権威ある専門・参考サイト:CISA、KrebsOnSecurity、The Hacker News、Dark Reading、BleepingComputer、SecurityWeek、Infosecurity Magazineなど、業界・専門家による25のソース

  • ローカルニュース:Channel NewsAsia、CSA.gov.sg、Zaobao、HK01、unwire.hk、Japan Times、NISC、JPCERT、ITmedia など、APAC・EMEA・南北アメリカを中心に100以上の媒体

  • 分野を限定しない一般的なソース。

検索クエリは、カテゴリ別にグループ化されたキーワードリストに基づいています。

すべてのレコードには、以下の明確な出典情報が含まれています。

  • 元記事へのリンク

  • 掲載メディア(URLから抽出したドメイン)

  • 公開日および収集日

統計値や事象の集計には複数のソースから得られた情報を統合していますが、いずれの統計も、リンク付きで保存された記事レベルの根拠に基づいています。

コンテンツの取得と収集頻度

検出したリンクから全文コンテンツを取得します。

  • プライマリ:NewsPlease

  • フォールバック:強化されたリクエストセッションによるHTMLの直接ダウンロードと、trafilaturaによる本文抽出

一時的な障害を低減するため、タイムアウト、リトライ、TLSフォールバック、リファラーヘッダーを使用しています。

公開日とタイトルは、可能な場合は抽出ツールから取得し、日付の解析は日単位に正規化しています。

日次実行では、直近1日分のコンテンツを対象としています。

特徴抽出

抽出するフィールドは以下のとおりです。

  • メディア媒体(URLから取得)

  • 冒頭の段落(最初の3〜5文)

  • キーワードに関する特徴量:テキスト内での総出現回数、タイトル内での出現有無、シードキーワードを含む文、メンテナンス中のリスト内の任意のキーワードの出現有無

  • 文字数(ワード数)

LLMによる関連性評価

各記事は、決定論的設定(温度0)および明示的かつ構造化された出力を求める制約付きプロンプトを用いて、LLMによって評価されます。

1. 記事がサイバーイベントに関連しているかどうか

2. 関連がある場合は、ハイレベルなイベントタイプを割り当てます。

  • インシデント:確認済みのサイバー攻撃または侵害がすでに発生した事案(例:ランサムウェアの展開、データ流出、DDoS、システム侵害)。

  • 脆弱性:悪用される可能性のあるソフトウェア、ハードウェア、システムにおけるセキュリティ上の欠陥の発見または開示(確認された悪用ではなく、潜在的リスク)。

  • 脅威インテリジェンス:脅威アクター、ツール、TTP、キャンペーンに関する報告。特定の被害事案ではなく「誰が、どのように」に焦点を当てるもの。

  • 規制・法務:サイバーセキュリティ上の義務に影響を及ぼす法律、規制、執行措置、裁判所の判断、または主要な政策変更。

記事の種類と分類

関連記事は、構造化された分類プロンプトを介して分類されます(一次:攻撃ステータス、イベントタイプ、規制/法務、二次:影響指標/クラス、技術的な詳細、セクター、地理、規模、おおよその損害)。

イベントクラスタリング(記事からイベントへの集約)

目的:同一の根底にあるインシデントを記述した記事を、1つの「イベント」としてグループ化すること。

手法:

  • データベースから既存のイベントを取得し、コンテキスト(タイトル、判明している影響組織、脅威アクター、リンク)として提供します。

  • 各候補記事(記事タイプ=単一インシデント)について、LLMが既存イベントの候補群と記事の詳細を比較し、以下のいずれかを行います。

1. 高い信頼度で一致する場合は、既存のイベントIDを割り当てる

2. それ以外の場合は、新規イベントを作成する

  • プロンプトでは高い精度を重視しており、十分な確信がある場合に限り既存のイベントにリンクします。影響を受けた組織および脅威アクターに関するシグナルは、重要な指標として扱います。

イベントには、初出/最終出現日、記事数、影響を受けた組織、脅威アクター、タイトル、リンクなどの集計フィールドが保持されます。

精度と品質保証

決定論と制約:

  • LLMの温度を0に設定し、決定論性を最大化、ハルシネーションを抑制します。

  • 制約付きプロンプトにより、明示的なフィールドとJSON出力を要求し、パース処理でスキーマを強制します。

  • 非コンテンツ記事(タイトルや本文が欠落しているもの)は、早期に除外します。

LLM主導・スキーマ検証付きの指標:

  • すべての指標フィールドは、厳格に文書化されたガイドラインとJSONスキーマのもと、決定論的なLLM実行(温度0)によって生成されます。スキーマに準拠した出力のみがカウントされ、定期的な人間によるQAにより、調整とドリフトの防止が行われます。

精度フィルタとしてのイベント/記事分類:

  • イベントタイプおよび記事フォーカスの分類は、厳密な関連性ゲートとして機能し、対象外、シグナルの弱い、またはまとめ形式のコンテンツを除外します。単一インシデントの報道に焦点を絞ることで、ノイズを減らし、データセットの精度と正確性を測定可能な形で向上させます。

マルチソース検証:

  • イベントクラスタリングは、過去に保存されたイベントのコンテキストを参照します。不一致がある場合、誤った統合が行われる可能性が低くなります。

  • 集計には、イベントごとのソースリンクのリストが含まれており、手動での検証が可能です。

ヒューマン・イン・ザ・ループ(人による確認):

  • 影響の大きいケースや曖昧なケースは、編集レビューおよびファクトチェックの対象としてフラグ付けすることができます。

  • 定期的なQAレビュー:サンプリングした記事およびイベントを月次で監査し、精度レビューを行います。ドリフトが検出された場合は、プロンプト/モデルまたはキーワードの調整を行います。

トレーサビリティ:

  • すべての統計値は、監査可能性のため、データベースに含まれる記事およびリンクまで遡って追跡できます。

制限事項

カバレッジに関する制限:

  • GCSベースの発見は、キーワードおよびCSEの構成に依存します。すべてのインシデント、特に設定対象外の言語やペイウォール内のコンテンツは捕捉できません。

  • 一部のサイトは自動取得をブロックしており、そのような記事は一部またはすべて表示されない場合があります。

LLM固有のリスク:

  • 決定論的な設定および構造化プロンプトを用いていても、特に情報が乏しい、または曖昧なテキストにおいて、誤分類が発生する可能性があります。

  • イベントのクラスタリングにより、同じインシデントが複数のイベントに分割されたり、極端なケースでは類似しているものの異なるインシデントが統合されたりする場合があります。

統計値の算出方法

記事レベルのフィールドは、直接抽出とLLM出力(レコードごとに保存)から取得されます。

イベントレベルの指標は、event_idによって構成記事を集約します。

  • 記事数、初回/最終閲覧日

  • 重複排除済みの影響組織および脅威アクター

  • 代表タイトルおよび正規化されたリンクのリスト

レポート上の統計値は、これらの保存テーブルから取得されており、各数値はイベントの行および基となる記事レコードまで遡って追跡できます。

データの範囲

当社のサイバーセキュリティコンテンツ全体で参照している統計および知見は、以下の組み合わせから導出されています。

  • 公開されているサイバーセキュリティインシデントの報告

  • 確認済みサイバーインシデントに関するメディア報道

  • 業界レポートおよび調査

  • 政府および規制当局への開示

このデータは、公開・報告された活動を反映しており、世界で発生するすべてのサイバー事案を網羅したものではありません。多くのサイバーイベントは公開されたり、報告されたり、メディアで取り上げられることはありません。

データソースと探索

ソースの種類

サイバーセキュリティ関連の記事およびレポートは、以下を含む複数のソースカテゴリから収集されます。

  • 主流メディアおよびテクノロジーメディア
    例としては、主要な国際的な報道機関やテクノロジー関連の出版物が挙げられます。

  • 信頼できる専門のサイバーセキュリティソース
    これには、政府機関、サイバーセキュリティ研究機関、業界の定評ある出版物が含まれます。

  • 地域および地方の報道機関
    北米、ヨーロッパ、アジア太平洋、その他の地域におけるサイバーセキュリティインシデントを網羅しています。

  • 業界および調査レポート
    年次侵害レポート、脅威状況レポート、調査、経済分析などを含みます。

各ソースは、記事またはレポートレベルで表示され、公開日、発行元、元のURLが保持されます。

発見プロセス

コンテンツの発見は、メンテナンスされたサイバーセキュリティのキーワードリストに基づく自動検索クエリを使用して行います。キーワードはトピック別(例:データ漏えい、ランサムウェア、フィッシング、脆弱性、規制)にグループ化されています。

検索は毎日実行され、新たに公開されたコンテンツを捕捉します。各実行では直近の資料のみを対象とし、データセットが最新の報道を反映するようにしています。

コンテンツの収集と処理

記事の取得

ソースが発見されると、自動抽出ツールを用いて記事全文を取得します。一次抽出に失敗した場合は、堅牢なカバレッジを確保するためにフォールバック手法を使用します。

重複排除

二重計上を避けるために、以下を行います。

  • 同一のURLは一度のみ処理されます

  • 再公開または再掲載されたコンテンツは、記事レベルで重複排除されます

  • イベントレベルの集約(後述)により、媒体間の重複をさらに削減します

関連性フィルタリングと分類

サイバーセキュリティ関連性の評価

各記事は、サイバーセキュリティ統計に関連するかどうかを判断するために評価されます。記事は、サイバーセキュリティのイベント、脅威、脆弱性、または規制措置を有意義に説明または分析するものでなければなりません。

イベントタイプの分類

関連性があると判断された記事は、以下のような大まかなカテゴリに分類されます。

  • インシデント。すでに発生した、確認済みのサイバー攻撃または侵害

  • 脆弱性。悪用される可能性のあるセキュリティ上の弱点の開示

  • 脅威インテリジェンス。脅威アクター、ツール、キャンペーン、または手法に関する報告

  • 規制・法務。サイバーセキュリティに関連する法律、執行措置、政策変更、または法的手続き

この分類により、「インシデント」「侵害」「攻撃」を指す統計値が、脆弱性の開示や一般的な論評と混同されないようにしています。

イベントクラスタリング(記事からイベントへの集約)

同一のサイバー事案について、複数の記事が報じることがよくあります。過大計上を防ぐため、以下を行います。

  • 同一インシデントを記述する記事は、1つのイベントにグループ化されます

  • イベントには、安定した内部識別子が割り当てられます

  • 同一の事案を記述していると高い確信を持って判断できる場合に限り、記事を既存のイベントにリンクします

クラスタリングに使用される指標には、影響を受ける組織、攻撃者、タイムライン、インシデントの説明が含まれます。

イベントレベルの記録には、以下のものが保持されます。

  • 初回および最終出現日

  • 関連記事の数

  • 影響を受けた組織

  • 参照されている脅威アクター

  • 検証用のソースリンク

自動分析と品質管理の活用

自動分類

構造化された決定論的言語モデル分析が、分類、抽出、集計に使用されます。すべての自動出力は、一貫性を確保するために事前定義されたスキーマに従います。

ばらつきとハルシネーションのリスクを低減するため、モデルは決定論的な設定で動作します。

品質保証

正確性を維持するため、以下を行います。

  • スキーマ検証により、適切に構造化された出力のみをカウントします

  • 分類のドリフトを検出するために、精度レビューを含む定期的な月次サンプリングおよびレビュー手順が実施されます。このレビューでは分類の変動を特定し、その結果に基づいてモデルの調整が必要となります

  • 曖昧なケースや影響の大きなケースにはフラグが立てられ、人間によるレビューが行われます

  • 集計済みの統計値は、個別の記事およびイベントへのトレーサビリティを保持します

統計の計算方法

記事レベル指標とイベントレベル指標

一部の統計データは以下に基づいています。

  • 記事レベルのカウント(例:メディア報道の量)

  • イベントレベルのカウント(例:個別の侵害またはインシデントの数)

重複を低減するため、該当する場合はイベントレベルの指標を優先します。

カウントおよび頻度の解釈

「1日あたりのインシデント数」「年間データ漏えい件数」といった統計値は、報告された活動、またはメディア上で可視化された活動を表しており、世界全体の総活動量ではありません。

ベンダーのテレメトリ、政府の苦情システム、経済予測は、対象範囲や方法論の違いにより、大幅に高い数値を報告することがよくあります。これらの違いについては、関連する箇所で言及しています。

制限事項と留意点

当社は正確性と一貫性を確保するよう努めていますが、データには本質的な制限があります。

  • すべてのインシデントが公開・報告されているわけではありません

  • メディア報道は、地域、業種、事案の規模によって異なります

  • 一部のソースではアクセスが制限されています

  • 特殊なケースでは分類エラーが発生することがあります

  • 経済的損失の数値は、調査の進展に伴い変動することがあります

そのため、統計値は網羅的な計測値ではなく、方向性を示す指標として解釈してください。

出典索引

以下の番号付きの各ソースは、「サイバーセキュリティ統計」ページで使用されている上付き文字の参照に対応しています。上付き文字は、本ページ内の該当する出典項目に直接リンクしています。

出典1

Statista –
Cybercrime worldwide

出典2

Identity Theft
Resource Center
(ITRC) – Weekly
Breach
Breakdown
Q3 2025

出典3

Identity Theft
Resource Center
(ITRC) – H1 2025
Data Breach Analysis

出典4

Verizon –
Data Breach
Investigations
Report (DBIR) 2025

出典5

IBM –
Cost of a Data
Breach Report 2025

出典6

South Korean
Ministry of
Science and
ICT – SK Telecom data
exfiltration
incident

出典7

Aflac – June
2025 security
incident
regulatory filing

出典8

HIPAA Journal –
Largest healthcare
data breaches of 2025

出典9

California Attorney
General – Aflac
breach report
(SB24-616010)

出典10

Iowa Attorney
General – Aflac
data breach notification

出典11

Rhode Island
Attorney General –
Data‑breach
notifications

出典12

Rhode Island
AG –
Data‑breach
notification

出典13

Aflac Newsroom –
June 2025
security incident
update

出典14

HIPAA Journal –
Aflac data
breach article

出典15

Office of the
Australian Information
Commissioner –
Statement on Qantas
cyber incident

出典16

Qantas – Information
for customers on
cyber incident

出典17

Qantas Newsroom –
Update on Qantas
cyber incident
(9 July 2025)

出典18

Michigan Attorney
General – Consumer
alert on data breaches
(TransUnion)

出典19

Maine Attorney
General – Allianz Life
cyber incident notice

出典20

California Attorney
General – Allianz data
breach report
(SB24-612078)

出典21

University of
Maryland – Cyber
Security Statistics

出典22

Microsoft Digital
Defense Report 2023

出典23

WIRED – NotPetya
cyberattack article

出典24

Reuters – UnitedHealth
tech unit hack article

出典25

The Guardian – Jaguar
Land Rover hack article

出典26

NBC News –
MGM Resorts
cyberattack cost article

出典27

Delaware Department
of Technology &
Information –
eSecurityNews
(Oct 2023)

出典28

Cybersecurity
Ventures – Global
ransomware damage
cost projection

出典29

JumpCloud – Phishing
attack statistics

出典30

Hornetsecurity – Email
threats in 2024

出典31

Spearshield –
Click‑to‑credential
phishing study

出典32

APWG – Phishing
Activity Trends Reports

出典33

arXiv – Academic
password/credential
research (2025)

出典34

DeepStrike – Password
statistics 2025

出典35

NordPass – Top 200
Most Common
Passwords

出典36

Financial Times –
Supply‑chain
cybersecurity article

出典37

SecurityScorecard –
2025 Supply Chain
Cybersecurity Trends

出典38

National Technology &
Security Coalition –
2025 Software Supply
Chain Security Report

出典39

Palo Alto Networks –
State of Cloud
Native Security

出典40

IBM – Threat
Intelligence Report

出典41

Tenable –
Cloud Security
Risk Report 2025

出典42

Cybersecurity
Ventures –
Cybersecurity Cost
Report

出典43

Statista Market
Insights – Estimated
cost of cybercrime
worldwide 2018‑2029
(ResearchGate)

出典44

Statista – Cost of
cybercrime worldwide
forecast

出典45

FTC – Consumer
Sentinel Network Data
Book 2024

出典46

FBI IC3 – 2024 Internet
Crime Report

出典47

Kroll – Data Breach
Outlook 2025

出典48

IBM – Cost of a Data
Breach 2024: Financial
Industry

出典49

SailPoint – 2024
State of Identity
Security in Financial
Services

出典50

DeepStrike –
Healthcare data
breach statistics 2025

出典51

Proofpoint &
Ponemon – Healthcare
Cybersecurity Report

出典52

Check Point –
Cyber Security
Report 2025

出典53

Thales – 2024
Data Threat Report:
Critical Infrastructure
Edition

出典54

Cyfirma – Energy &
Utilities industry report

出典55

World Economic
Forum – Global
Cybersecurity Outlook
2025

出典56

DeepStrike – Cyber
attacks on small
businesses

出典57

Devolutions – State of
IT Security Report 2025

出典58

TotalAssure –
Small business
cybersecurity statistics
2025

出典59

Cisco – Cybersecurity
Readiness Index 2025

出典60

IANS Research –
Security budgets
press release (2024)

出典61

Munich Re –
Cyber insurance risks
and trends 2025

出典62

Gartner – 2025
information security
spending forecast

出典63

Forrester – 2024
Cybersecurity
Benchmarks (Global)

出典64

Ivanti – State of
Cybersecurity Report

出典65

U.S. Department of
Homeland Security –
FY 2025 Budget in Brief

出典66

U.S. Department of
Defense – CYBERCOM
Budget Justification

出典67

Google Cloud –
Cybersecurity forecast

出典68

Gartner – Generative AI
attack survey
(Sep 22 2025)

出典69

Splashtop – Top
cybersecurity trends
and predictions
for 2026

出典70

ENISA – Threat
Landscape 2024