サイバーセキュリティ統計：
調査方法および情報源

本ページの目的

このページでは、「サイバーセキュリティ統計」ページに掲載されているサイバーセキュリティ統計がどのように収集、処理、解釈されているかについて説明し、参照されているデータソースに関する完全な透明性を提供します。「サイバーセキュリティ統計」のメインページには、調査結果の要約とNordVPNの調査に基づく分析が掲載されています。

データソースおよび出典

ソースの検索には、Google Custom Search API（GCS）を用いた複数のカスタム検索エンジン（CSE）を利用しており、以下のカテゴリ別に設定しています。

大手メディア：BBC、CNN、The New York Times、WSJ、FT、Reuters、Bloomberg、TechCrunch、Wired、Ars Technica、Time、Forbesなど、計44媒体
権威ある専門・参考サイト：CISA、KrebsOnSecurity、The Hacker News、Dark Reading、BleepingComputer、SecurityWeek、Infosecurity Magazineなど、業界・専門家による25のソース
ローカルニュース：Channel NewsAsia、CSA.gov.sg、Zaobao、HK01、unwire.hk、Japan Times、NISC、JPCERT、ITmedia など、APAC・EMEA・南北アメリカを中心に100以上の媒体
分野を限定しない一般的なソース。

検索クエリは、カテゴリ別にグループ化されたキーワードリストに基づいています。

すべてのレコードには、以下の明確な出典情報が含まれています。

元記事へのリンク
掲載メディア（URLから抽出したドメイン）
公開日および収集日

統計値や事象の集計には複数のソースから得られた情報を統合していますが、いずれの統計も、リンク付きで保存された記事レベルの根拠に基づいています。

コンテンツの取得と収集頻度

検出したリンクから全文コンテンツを取得します。

プライマリ：NewsPlease
フォールバック：強化されたリクエストセッションによるHTMLの直接ダウンロードと、trafilaturaによる本文抽出

一時的な障害を低減するため、タイムアウト、リトライ、TLSフォールバック、リファラーヘッダーを使用しています。

公開日とタイトルは、可能な場合は抽出ツールから取得し、日付の解析は日単位に正規化しています。

日次実行では、直近1日分のコンテンツを対象としています。

特徴抽出

抽出するフィールドは以下のとおりです。

メディア媒体（URLから取得）
冒頭の段落（最初の3〜5文）
キーワードに関する特徴量：テキスト内での総出現回数、タイトル内での出現有無、シードキーワードを含む文、メンテナンス中のリスト内の任意のキーワードの出現有無
文字数（ワード数）

LLMによる関連性評価

各記事は、決定論的設定（温度0）および明示的かつ構造化された出力を求める制約付きプロンプトを用いて、LLMによって評価されます。

1. 記事がサイバーイベントに関連しているかどうか

2. 関連がある場合は、ハイレベルなイベントタイプを割り当てます。

インシデント：確認済みのサイバー攻撃または侵害がすでに発生した事案（例：ランサムウェアの展開、データ流出、DDoS、システム侵害）。
脆弱性：悪用される可能性のあるソフトウェア、ハードウェア、システムにおけるセキュリティ上の欠陥の発見または開示（確認された悪用ではなく、潜在的リスク）。
脅威インテリジェンス：脅威アクター、ツール、TTP、キャンペーンに関する報告。特定の被害事案ではなく「誰が、どのように」に焦点を当てるもの。
規制・法務：サイバーセキュリティ上の義務に影響を及ぼす法律、規制、執行措置、裁判所の判断、または主要な政策変更。

記事の種類と分類

関連記事は、構造化された分類プロンプトを介して分類されます（一次：攻撃ステータス、イベントタイプ、規制／法務、二次：影響指標／クラス、技術的な詳細、セクター、地理、規模、おおよその損害）。

イベントクラスタリング（記事からイベントへの集約）

目的：同一の根底にあるインシデントを記述した記事を、1つの「イベント」としてグループ化すること。

手法：

データベースから既存のイベントを取得し、コンテキスト（タイトル、判明している影響組織、脅威アクター、リンク）として提供します。
各候補記事（記事タイプ＝単一インシデント）について、LLMが既存イベントの候補群と記事の詳細を比較し、以下のいずれかを行います。

1. 高い信頼度で一致する場合は、既存のイベントIDを割り当てる

2. それ以外の場合は、新規イベントを作成する

プロンプトでは高い精度を重視しており、十分な確信がある場合に限り既存のイベントにリンクします。影響を受けた組織および脅威アクターに関するシグナルは、重要な指標として扱います。

イベントには、初出/最終出現日、記事数、影響を受けた組織、脅威アクター、タイトル、リンクなどの集計フィールドが保持されます。

精度と品質保証

決定論と制約：

LLMの温度を0に設定し、決定論性を最大化、ハルシネーションを抑制します。
制約付きプロンプトにより、明示的なフィールドとJSON出力を要求し、パース処理でスキーマを強制します。
非コンテンツ記事（タイトルや本文が欠落しているもの）は、早期に除外します。

LLM主導・スキーマ検証付きの指標：

すべての指標フィールドは、厳格に文書化されたガイドラインとJSONスキーマのもと、決定論的なLLM実行（温度0）によって生成されます。スキーマに準拠した出力のみがカウントされ、定期的な人間によるQAにより、調整とドリフトの防止が行われます。

精度フィルタとしてのイベント/記事分類：

イベントタイプおよび記事フォーカスの分類は、厳密な関連性ゲートとして機能し、対象外、シグナルの弱い、またはまとめ形式のコンテンツを除外します。単一インシデントの報道に焦点を絞ることで、ノイズを減らし、データセットの精度と正確性を測定可能な形で向上させます。

マルチソース検証：

イベントクラスタリングは、過去に保存されたイベントのコンテキストを参照します。不一致がある場合、誤った統合が行われる可能性が低くなります。
集計には、イベントごとのソースリンクのリストが含まれており、手動での検証が可能です。

ヒューマン・イン・ザ・ループ（人による確認）：

影響の大きいケースや曖昧なケースは、編集レビューおよびファクトチェックの対象としてフラグ付けすることができます。
定期的なQAレビュー：サンプリングした記事およびイベントを月次で監査し、精度レビューを行います。ドリフトが検出された場合は、プロンプト/モデルまたはキーワードの調整を行います。

トレーサビリティ：

すべての統計値は、監査可能性のため、データベースに含まれる記事およびリンクまで遡って追跡できます。

制限事項

カバレッジに関する制限：

GCSベースの発見は、キーワードおよびCSEの構成に依存します。すべてのインシデント、特に設定対象外の言語やペイウォール内のコンテンツは捕捉できません。
一部のサイトは自動取得をブロックしており、そのような記事は一部またはすべて表示されない場合があります。

LLM固有のリスク：

決定論的な設定および構造化プロンプトを用いていても、特に情報が乏しい、または曖昧なテキストにおいて、誤分類が発生する可能性があります。
イベントのクラスタリングにより、同じインシデントが複数のイベントに分割されたり、極端なケースでは類似しているものの異なるインシデントが統合されたりする場合があります。

統計値の算出方法

記事レベルのフィールドは、直接抽出とLLM出力（レコードごとに保存）から取得されます。

イベントレベルの指標は、event_idによって構成記事を集約します。

記事数、初回/最終閲覧日
重複排除済みの影響組織および脅威アクター
代表タイトルおよび正規化されたリンクのリスト

レポート上の統計値は、これらの保存テーブルから取得されており、各数値はイベントの行および基となる記事レコードまで遡って追跡できます。

データの範囲

当社のサイバーセキュリティコンテンツ全体で参照している統計および知見は、以下の組み合わせから導出されています。

公開されているサイバーセキュリティインシデントの報告
確認済みサイバーインシデントに関するメディア報道
業界レポートおよび調査
政府および規制当局への開示

このデータは、公開・報告された活動を反映しており、世界で発生するすべてのサイバー事案を網羅したものではありません。多くのサイバーイベントは公開されたり、報告されたり、メディアで取り上げられることはありません。

データソースと探索

ソースの種類

サイバーセキュリティ関連の記事およびレポートは、以下を含む複数のソースカテゴリから収集されます。

主流メディアおよびテクノロジーメディア
例としては、主要な国際的な報道機関やテクノロジー関連の出版物が挙げられます。
信頼できる専門のサイバーセキュリティソース
これには、政府機関、サイバーセキュリティ研究機関、業界の定評ある出版物が含まれます。
地域および地方の報道機関
北米、ヨーロッパ、アジア太平洋、その他の地域におけるサイバーセキュリティインシデントを網羅しています。
業界および調査レポート
年次侵害レポート、脅威状況レポート、調査、経済分析などを含みます。

各ソースは、記事またはレポートレベルで表示され、公開日、発行元、元のURLが保持されます。

発見プロセス

コンテンツの発見は、メンテナンスされたサイバーセキュリティのキーワードリストに基づく自動検索クエリを使用して行います。キーワードはトピック別（例：データ漏えい、ランサムウェア、フィッシング、脆弱性、規制）にグループ化されています。

検索は毎日実行され、新たに公開されたコンテンツを捕捉します。各実行では直近の資料のみを対象とし、データセットが最新の報道を反映するようにしています。

コンテンツの収集と処理

記事の取得

ソースが発見されると、自動抽出ツールを用いて記事全文を取得します。一次抽出に失敗した場合は、堅牢なカバレッジを確保するためにフォールバック手法を使用します。

重複排除

二重計上を避けるために、以下を行います。

同一のURLは一度のみ処理されます
再公開または再掲載されたコンテンツは、記事レベルで重複排除されます
イベントレベルの集約（後述）により、媒体間の重複をさらに削減します

イベントクラスタリング（記事からイベントへの集約）

同一のサイバー事案について、複数の記事が報じることがよくあります。過大計上を防ぐため、以下を行います。

同一インシデントを記述する記事は、1つのイベントにグループ化されます
イベントには、安定した内部識別子が割り当てられます
同一の事案を記述していると高い確信を持って判断できる場合に限り、記事を既存のイベントにリンクします

クラスタリングに使用される指標には、影響を受ける組織、攻撃者、タイムライン、インシデントの説明が含まれます。

イベントレベルの記録には、以下のものが保持されます。

初回および最終出現日
関連記事の数
影響を受けた組織
参照されている脅威アクター
検証用のソースリンク

自動分析と品質管理の活用

自動分類

構造化された決定論的言語モデル分析が、分類、抽出、集計に使用されます。すべての自動出力は、一貫性を確保するために事前定義されたスキーマに従います。

ばらつきとハルシネーションのリスクを低減するため、モデルは決定論的な設定で動作します。

品質保証

正確性を維持するため、以下を行います。

スキーマ検証により、適切に構造化された出力のみをカウントします
分類のドリフトを検出するために、精度レビューを含む定期的な月次サンプリングおよびレビュー手順が実施されます。このレビューでは分類の変動を特定し、その結果に基づいてモデルの調整が必要となります
曖昧なケースや影響の大きなケースにはフラグが立てられ、人間によるレビューが行われます
集計済みの統計値は、個別の記事およびイベントへのトレーサビリティを保持します

統計の計算方法

記事レベル指標とイベントレベル指標

一部の統計データは以下に基づいています。

記事レベルのカウント（例：メディア報道の量）
イベントレベルのカウント（例：個別の侵害またはインシデントの数）

重複を低減するため、該当する場合はイベントレベルの指標を優先します。

カウントおよび頻度の解釈

「1日あたりのインシデント数」「年間データ漏えい件数」といった統計値は、報告された活動、またはメディア上で可視化された活動を表しており、世界全体の総活動量ではありません。

ベンダーのテレメトリ、政府の苦情システム、経済予測は、対象範囲や方法論の違いにより、大幅に高い数値を報告することがよくあります。これらの違いについては、関連する箇所で言及しています。

制限事項と留意点

当社は正確性と一貫性を確保するよう努めていますが、データには本質的な制限があります。

すべてのインシデントが公開・報告されているわけではありません
メディア報道は、地域、業種、事案の規模によって異なります
一部のソースではアクセスが制限されています
特殊なケースでは分類エラーが発生することがあります
経済的損失の数値は、調査の進展に伴い変動することがあります

そのため、統計値は網羅的な計測値ではなく、方向性を示す指標として解釈してください。

出典索引

以下の番号付きの各ソースは、「サイバーセキュリティ統計」ページで使用されている上付き文字の参照に対応しています。上付き文字は、本ページ内の該当する出典項目に直接リンクしています。

出典¹ Statista – Cybercrime worldwide リンク⁠‌
出典² Identity Theft Resource Center (ITRC) – Weekly Breach Breakdown Q3 2025 リンク⁠‌
出典³ Identity Theft Resource Center (ITRC) – H1 2025 Data Breach Analysis リンク⁠‌
出典⁴ Verizon – Data Breach Investigations Report (DBIR) 2025 リンク⁠‌
出典⁵ IBM – Cost of a Data Breach Report 2025 リンク⁠‌
出典⁶ South Korean Ministry of Science and ICT – SK Telecom data exfiltration incident リンク⁠‌
出典⁷ Aflac – June 2025 security incident regulatory filing リンク⁠‌
出典⁸ HIPAA Journal – Largest healthcare data breaches of 2025 リンク⁠‌
出典⁹ California Attorney General – Aflac breach report (SB24-616010) リンク⁠‌
出典¹⁰ Iowa Attorney General – Aflac data breach notification リンク⁠‌
出典¹¹ Rhode Island Attorney General – Data‑breach notifications リンク⁠‌
出典¹² Rhode Island AG – Data‑breach notification リンク⁠‌
出典¹³ Aflac Newsroom – June 2025 security incident update リンク⁠‌
出典¹⁴ HIPAA Journal – Aflac data breach article リンク⁠‌
出典¹⁵ Office of the Australian Information Commissioner – Statement on Qantas cyber incident リンク⁠‌
出典¹⁶ Qantas – Information for customers on cyber incident リンク⁠‌
出典¹⁷ Qantas Newsroom – Update on Qantas cyber incident (9 July 2025) リンク⁠‌
出典¹⁸ Michigan Attorney General – Consumer alert on data breaches (TransUnion) リンク⁠‌
出典¹⁹ Maine Attorney General – Allianz Life cyber incident notice リンク⁠‌
出典²⁰ California Attorney General – Allianz data breach report (SB24-612078) リンク⁠‌
出典²¹ University of Maryland – Cyber Security Statistics リンク⁠‌
出典²² Microsoft Digital Defense Report 2023 リンク⁠‌
出典²³ WIRED – NotPetya cyberattack article リンク⁠‌
出典²⁴ Reuters – UnitedHealth tech unit hack article リンク⁠‌
出典²⁵ The Guardian – Jaguar Land Rover hack article リンク⁠‌
出典²⁶ NBC News – MGM Resorts cyberattack cost article リンク⁠‌
出典²⁷ Delaware Department of Technology & Information – eSecurityNews (Oct 2023) リンク⁠‌
出典²⁸ Cybersecurity Ventures – Global ransomware damage cost projection リンク⁠‌
出典²⁹ JumpCloud – Phishing attack statistics リンク⁠‌
出典³⁰ Hornetsecurity – Email threats in 2024 リンク⁠‌
出典³¹ Spearshield – Click‑to‑credential phishing study リンク⁠‌
出典³² APWG – Phishing Activity Trends Reports リンク⁠‌
出典³³ arXiv – Academic password/credential research (2025) リンク⁠‌
出典³⁴ DeepStrike – Password statistics 2025 リンク⁠‌
出典³⁵ NordPass – Top 200 Most Common Passwords リンク⁠‌
出典³⁶ Financial Times – Supply‑chain cybersecurity article リンク⁠‌
出典³⁷ SecurityScorecard – 2025 Supply Chain Cybersecurity Trends リンク⁠‌
出典³⁸ National Technology & Security Coalition – 2025 Software Supply Chain Security Report リンク⁠‌
出典³⁹ Palo Alto Networks – State of Cloud Native Security リンク⁠‌
出典⁴⁰ IBM – Threat Intelligence Report リンク⁠‌
出典⁴¹ Tenable – Cloud Security Risk Report 2025 リンク⁠‌
出典⁴² Cybersecurity Ventures – Cybersecurity Cost Report リンク⁠‌
出典⁴³ Statista Market Insights – Estimated cost of cybercrime worldwide 2018‑2029 (ResearchGate) リンク⁠‌
出典⁴⁴ Statista – Cost of cybercrime worldwide forecast リンク⁠‌
出典⁴⁵ FTC – Consumer Sentinel Network Data Book 2024 リンク⁠‌
出典⁴⁶ FBI IC3 – 2024 Internet Crime Report リンク⁠‌
出典⁴⁷ Kroll – Data Breach Outlook 2025 リンク⁠‌
出典⁴⁸ IBM – Cost of a Data Breach 2024: Financial Industry リンク⁠‌
出典⁴⁹ SailPoint – 2024 State of Identity Security in Financial Services リンク⁠‌
出典⁵⁰ DeepStrike – Healthcare data breach statistics 2025 リンク⁠‌
出典⁵¹ Proofpoint & Ponemon – Healthcare Cybersecurity Report リンク⁠‌
出典⁵² Check Point – Cyber Security Report 2025 リンク⁠‌
出典⁵³ Thales – 2024 Data Threat Report: Critical Infrastructure Edition リンク⁠‌
出典⁵⁴ Cyfirma – Energy & Utilities industry report リンク⁠‌
出典⁵⁵ World Economic Forum – Global Cybersecurity Outlook 2025 リンク⁠‌
出典⁵⁶ DeepStrike – Cyber attacks on small businesses リンク⁠‌
出典⁵⁷ Devolutions – State of IT Security Report 2025 リンク⁠‌
出典⁵⁸ TotalAssure – Small business cybersecurity statistics 2025 リンク⁠‌
出典⁵⁹ Cisco – Cybersecurity Readiness Index 2025 リンク⁠‌
出典⁶⁰ IANS Research – Security budgets press release (2024) リンク⁠‌
出典⁶¹ Munich Re – Cyber insurance risks and trends 2025 リンク⁠‌
出典⁶² Gartner – 2025 information security spending forecast リンク⁠‌
出典⁶³ Forrester – 2024 Cybersecurity Benchmarks (Global) リンク⁠‌
出典⁶⁴ Ivanti – State of Cybersecurity Report リンク⁠‌
出典⁶⁵ U.S. Department of Homeland Security – FY 2025 Budget in Brief リンク⁠‌
出典⁶⁶ U.S. Department of Defense – CYBERCOM Budget Justification リンク⁠‌
出典⁶⁷ Google Cloud – Cybersecurity forecast リンク⁠‌
出典⁶⁸ Gartner – Generative AI attack survey (Sep 22 2025) リンク⁠‌
出典⁶⁹ Splashtop – Top cybersecurity trends and predictions for 2026 リンク⁠‌
出典⁷⁰ ENISA – Threat Landscape 2024 リンク⁠‌

サイバーセキュリティ統計：
調査方法および情報源

本ページの目的

データの範囲

データソースと探索

ソースの種類

発見プロセス

コンテンツの収集と処理

記事の取得

重複排除

関連性フィルタリングと分類

サイバーセキュリティ関連性の評価

イベントタイプの分類

イベントクラスタリング（記事からイベントへの集約）

自動分析と品質管理の活用

自動分類

品質保証

統計の計算方法

記事レベル指標とイベントレベル指標

カウントおよび頻度の解釈

制限事項と留意点

出典索引

サイバーセキュリティ統計：調査方法および情報源

本ページの目的

データの範囲

データソースと探索

ソースの種類

発見プロセス

コンテンツの収集と処理

記事の取得

重複排除

関連性フィルタリングと分類

サイバーセキュリティ関連性の評価

イベントタイプの分類

イベントクラスタリング（記事からイベントへの集約）

自動分析と品質管理の活用

自動分類

品質保証

統計の計算方法

記事レベル指標とイベントレベル指標

カウントおよび頻度の解釈

制限事項と留意点

出典索引

サイバーセキュリティ統計：
調査方法および情報源