サイバーセキュリティ統計:
調査方法および情報源
本ページの目的
このページでは、「サイバーセキュリティ統計」ページに掲載されているサイバーセキュリティ統計がどのように収集、処理、解釈されているかについて説明し、参照されているデータソースに関する完全な透明性を提供します。「サイバーセキュリティ統計」のメインページには、調査結果の要約とNordVPNの調査に基づく分析が掲載されています。
データソースおよび出典
ソースの検索には、Google Custom Search API(GCS)を用いた複数のカスタム検索エンジン(CSE)を利用しており、以下のカテゴリ別に設定しています。
大手メディア:BBC、CNN、The New York Times、WSJ、FT、Reuters、Bloomberg、TechCrunch、Wired、Ars Technica、Time、Forbesなど、計44媒体
権威ある専門・参考サイト:CISA、KrebsOnSecurity、The Hacker News、Dark Reading、BleepingComputer、SecurityWeek、Infosecurity Magazineなど、業界・専門家による25のソース
ローカルニュース:Channel NewsAsia、CSA.gov.sg、Zaobao、HK01、unwire.hk、Japan Times、NISC、JPCERT、ITmedia など、APAC・EMEA・南北アメリカを中心に100以上の媒体
分野を限定しない一般的なソース。
検索クエリは、カテゴリ別にグループ化されたキーワードリストに基づいています。
すべてのレコードには、以下の明確な出典情報が含まれています。
元記事へのリンク
掲載メディア(URLから抽出したドメイン)
公開日および収集日
統計値や事象の集計には複数のソースから得られた情報を統合していますが、いずれの統計も、リンク付きで保存された記事レベルの根拠に基づいています。
コンテンツの取得と収集頻度
検出したリンクから全文コンテンツを取得します。
プライマリ:NewsPlease
フォールバック:強化されたリクエストセッションによるHTMLの直接ダウンロードと、trafilaturaによる本文抽出
一時的な障害を低減するため、タイムアウト、リトライ、TLSフォールバック、リファラーヘッダーを使用しています。
公開日とタイトルは、可能な場合は抽出ツールから取得し、日付の解析は日単位に正規化しています。
日次実行では、直近1日分のコンテンツを対象としています。
特徴抽出
抽出するフィールドは以下のとおりです。
メディア媒体(URLから取得)
冒頭の段落(最初の3〜5文)
キーワードに関する特徴量:テキスト内での総出現回数、タイトル内での出現有無、シードキーワードを含む文、メンテナンス中のリスト内の任意のキーワードの出現有無
文字数(ワード数)
LLMによる関連性評価
各記事は、決定論的設定(温度0)および明示的かつ構造化された出力を求める制約付きプロンプトを用いて、LLMによって評価されます。
1. 記事がサイバーイベントに関連しているかどうか
2. 関連がある場合は、ハイレベルなイベントタイプを割り当てます。
インシデント:確認済みのサイバー攻撃または侵害がすでに発生した事案(例:ランサムウェアの展開、データ流出、DDoS、システム侵害)。
脆弱性:悪用される可能性のあるソフトウェア、ハードウェア、システムにおけるセキュリティ上の欠陥の発見または開示(確認された悪用ではなく、潜在的リスク)。
脅威インテリジェンス:脅威アクター、ツール、TTP、キャンペーンに関する報告。特定の被害事案ではなく「誰が、どのように」に焦点を当てるもの。
規制・法務:サイバーセキュリティ上の義務に影響を及ぼす法律、規制、執行措置、裁判所の判断、または主要な政策変更。
記事の種類と分類
関連記事は、構造化された分類プロンプトを介して分類されます(一次:攻撃ステータス、イベントタイプ、規制/法務、二次:影響指標/クラス、技術的な詳細、セクター、地理、規模、おおよその損害)。
イベントクラスタリング(記事からイベントへの集約)
目的:同一の根底にあるインシデントを記述した記事を、1つの「イベント」としてグループ化すること。
手法:
データベースから既存のイベントを取得し、コンテキスト(タイトル、判明している影響組織、脅威アクター、リンク)として提供します。
各候補記事(記事タイプ=単一インシデント)について、LLMが既存イベントの候補群と記事の詳細を比較し、以下のいずれかを行います。
1. 高い信頼度で一致する場合は、既存のイベントIDを割り当てる
2. それ以外の場合は、新規イベントを作成する
プロンプトでは高い精度を重視しており、十分な確信がある場合に限り既存のイベントにリンクします。影響を受けた組織および脅威アクターに関するシグナルは、重要な指標として扱います。
イベントには、初出/最終出現日、記事数、影響を受けた組織、脅威アクター、タイトル、リンクなどの集計フィールドが保持されます。
精度と品質保証
決定論と制約:
LLMの温度を0に設定し、決定論性を最大化、ハルシネーションを抑制します。
制約付きプロンプトにより、明示的なフィールドとJSON出力を要求し、パース処理でスキーマを強制します。
非コンテンツ記事(タイトルや本文が欠落しているもの)は、早期に除外します。
LLM主導・スキーマ検証付きの指標:
すべての指標フィールドは、厳格に文書化されたガイドラインとJSONスキーマのもと、決定論的なLLM実行(温度0)によって生成されます。スキーマに準拠した出力のみがカウントされ、定期的な人間によるQAにより、調整とドリフトの防止が行われます。
精度フィルタとしてのイベント/記事分類:
イベントタイプおよび記事フォーカスの分類は、厳密な関連性ゲートとして機能し、対象外、シグナルの弱い、またはまとめ形式のコンテンツを除外します。単一インシデントの報道に焦点を絞ることで、ノイズを減らし、データセットの精度と正確性を測定可能な形で向上させます。
マルチソース検証:
イベントクラスタリングは、過去に保存されたイベントのコンテキストを参照します。不一致がある場合、誤った統合が行われる可能性が低くなります。
集計には、イベントごとのソースリンクのリストが含まれており、手動での検証が可能です。
ヒューマン・イン・ザ・ループ(人による確認):
影響の大きいケースや曖昧なケースは、編集レビューおよびファクトチェックの対象としてフラグ付けすることができます。
定期的なQAレビュー:サンプリングした記事およびイベントを月次で監査し、精度レビューを行います。ドリフトが検出された場合は、プロンプト/モデルまたはキーワードの調整を行います。
トレーサビリティ:
すべての統計値は、監査可能性のため、データベースに含まれる記事およびリンクまで遡って追跡できます。
制限事項
カバレッジに関する制限:
GCSベースの発見は、キーワードおよびCSEの構成に依存します。すべてのインシデント、特に設定対象外の言語やペイウォール内のコンテンツは捕捉できません。
一部のサイトは自動取得をブロックしており、そのような記事は一部またはすべて表示されない場合があります。
LLM固有のリスク:
決定論的な設定および構造化プロンプトを用いていても、特に情報が乏しい、または曖昧なテキストにおいて、誤分類が発生する可能性があります。
イベントのクラスタリングにより、同じインシデントが複数のイベントに分割されたり、極端なケースでは類似しているものの異なるインシデントが統合されたりする場合があります。
統計値の算出方法
記事レベルのフィールドは、直接抽出とLLM出力(レコードごとに保存)から取得されます。
イベントレベルの指標は、event_idによって構成記事を集約します。
記事数、初回/最終閲覧日
重複排除済みの影響組織および脅威アクター
代表タイトルおよび正規化されたリンクのリスト
レポート上の統計値は、これらの保存テーブルから取得されており、各数値はイベントの行および基となる記事レコードまで遡って追跡できます。
データの範囲
当社のサイバーセキュリティコンテンツ全体で参照している統計および知見は、以下の組み合わせから導出されています。
公開されているサイバーセキュリティインシデントの報告
確認済みサイバーインシデントに関するメディア報道
業界レポートおよび調査
政府および規制当局への開示
このデータは、公開・報告された活動を反映しており、世界で発生するすべてのサイバー事案を網羅したものではありません。多くのサイバーイベントは公開されたり、報告されたり、メディアで取り上げられることはありません。
データソースと探索
ソースの種類
サイバーセキュリティ関連の記事およびレポートは、以下を含む複数のソースカテゴリから収集されます。
主流メディアおよびテクノロジーメディア
例としては、主要な国際的な報道機関やテクノロジー関連の出版物が挙げられます。信頼できる専門のサイバーセキュリティソース
これには、政府機関、サイバーセキュリティ研究機関、業界の定評ある出版物が含まれます。地域および地方の報道機関
北米、ヨーロッパ、アジア太平洋、その他の地域におけるサイバーセキュリティインシデントを網羅しています。業界および調査レポート
年次侵害レポート、脅威状況レポート、調査、経済分析などを含みます。
各ソースは、記事またはレポートレベルで表示され、公開日、発行元、元のURLが保持されます。
発見プロセス
コンテンツの発見は、メンテナンスされたサイバーセキュリティのキーワードリストに基づく自動検索クエリを使用して行います。キーワードはトピック別(例:データ漏えい、ランサムウェア、フィッシング、脆弱性、規制)にグループ化されています。
検索は毎日実行され、新たに公開されたコンテンツを捕捉します。各実行では直近の資料のみを対象とし、データセットが最新の報道を反映するようにしています。
コンテンツの収集と処理
記事の取得
ソースが発見されると、自動抽出ツールを用いて記事全文を取得します。一次抽出に失敗した場合は、堅牢なカバレッジを確保するためにフォールバック手法を使用します。
重複排除
二重計上を避けるために、以下を行います。
同一のURLは一度のみ処理されます
再公開または再掲載されたコンテンツは、記事レベルで重複排除されます
イベントレベルの集約(後述)により、媒体間の重複をさらに削減します
関連性フィルタリングと分類
サイバーセキュリティ関連性の評価
各記事は、サイバーセキュリティ統計に関連するかどうかを判断するために評価されます。記事は、サイバーセキュリティのイベント、脅威、脆弱性、または規制措置を有意義に説明または分析するものでなければなりません。
イベントタイプの分類
関連性があると判断された記事は、以下のような大まかなカテゴリに分類されます。
インシデント。すでに発生した、確認済みのサイバー攻撃または侵害
脆弱性。悪用される可能性のあるセキュリティ上の弱点の開示
脅威インテリジェンス。脅威アクター、ツール、キャンペーン、または手法に関する報告
規制・法務。サイバーセキュリティに関連する法律、執行措置、政策変更、または法的手続き
この分類により、「インシデント」「侵害」「攻撃」を指す統計値が、脆弱性の開示や一般的な論評と混同されないようにしています。
イベントクラスタリング(記事からイベントへの集約)
同一のサイバー事案について、複数の記事が報じることがよくあります。過大計上を防ぐため、以下を行います。
同一インシデントを記述する記事は、1つのイベントにグループ化されます
イベントには、安定した内部識別子が割り当てられます
同一の事案を記述していると高い確信を持って判断できる場合に限り、記事を既存のイベントにリンクします
クラスタリングに使用される指標には、影響を受ける組織、攻撃者、タイムライン、インシデントの説明が含まれます。
イベントレベルの記録には、以下のものが保持されます。
初回および最終出現日
関連記事の数
影響を受けた組織
参照されている脅威アクター
検証用のソースリンク
自動分析と品質管理の活用
自動分類
構造化された決定論的言語モデル分析が、分類、抽出、集計に使用されます。すべての自動出力は、一貫性を確保するために事前定義されたスキーマに従います。
ばらつきとハルシネーションのリスクを低減するため、モデルは決定論的な設定で動作します。
品質保証
正確性を維持するため、以下を行います。
スキーマ検証により、適切に構造化された出力のみをカウントします
分類のドリフトを検出するために、精度レビューを含む定期的な月次サンプリングおよびレビュー手順が実施されます。このレビューでは分類の変動を特定し、その結果に基づいてモデルの調整が必要となります
曖昧なケースや影響の大きなケースにはフラグが立てられ、人間によるレビューが行われます
集計済みの統計値は、個別の記事およびイベントへのトレーサビリティを保持します
統計の計算方法
記事レベル指標とイベントレベル指標
一部の統計データは以下に基づいています。
記事レベルのカウント(例:メディア報道の量)
イベントレベルのカウント(例:個別の侵害またはインシデントの数)
重複を低減するため、該当する場合はイベントレベルの指標を優先します。
カウントおよび頻度の解釈
「1日あたりのインシデント数」「年間データ漏えい件数」といった統計値は、報告された活動、またはメディア上で可視化された活動を表しており、世界全体の総活動量ではありません。
ベンダーのテレメトリ、政府の苦情システム、経済予測は、対象範囲や方法論の違いにより、大幅に高い数値を報告することがよくあります。これらの違いについては、関連する箇所で言及しています。
制限事項と留意点
当社は正確性と一貫性を確保するよう努めていますが、データには本質的な制限があります。
すべてのインシデントが公開・報告されているわけではありません
メディア報道は、地域、業種、事案の規模によって異なります
一部のソースではアクセスが制限されています
特殊なケースでは分類エラーが発生することがあります
経済的損失の数値は、調査の進展に伴い変動することがあります
そのため、統計値は網羅的な計測値ではなく、方向性を示す指標として解釈してください。
出典索引
以下の番号付きの各ソースは、「サイバーセキュリティ統計」ページで使用されている上付き文字の参照に対応しています。上付き文字は、本ページ内の該当する出典項目に直接リンクしています。
出典1 Statista – |
|---|
出典2 Identity Theft |
出典3 Identity Theft |
出典4 Verizon – |
出典5 IBM – |
出典6 South Korean |
出典7 Aflac – June |
出典8 HIPAA Journal – |
出典9 California Attorney |
出典10 Iowa Attorney |
出典11 Rhode Island |
出典12 Rhode Island |
出典13 Aflac Newsroom – |
出典14 HIPAA Journal – |
出典15 Office of the |
出典16 Qantas – Information |
出典17 Qantas Newsroom – |
出典18 Michigan Attorney |
出典19 Maine Attorney |
出典20 California Attorney |
出典21 University of |
出典22 Microsoft Digital |
出典23 WIRED – NotPetya |
出典24 Reuters – UnitedHealth |
出典25 The Guardian – Jaguar |
出典26 NBC News – |
出典27 Delaware Department |
出典28 Cybersecurity |
出典29 JumpCloud – Phishing |
出典30 Hornetsecurity – Email |
出典31 Spearshield – |
出典32 APWG – Phishing |
出典33 arXiv – Academic |
出典34 DeepStrike – Password |
出典35 NordPass – Top 200 |
出典36 Financial Times – |
出典37 SecurityScorecard – |
出典38 National Technology & |
出典39 Palo Alto Networks – |
出典40 IBM – Threat |
出典41 Tenable – |
出典42 Cybersecurity |
出典43 Statista Market |
出典44 Statista – Cost of |
出典45 FTC – Consumer |
出典46 FBI IC3 – 2024 Internet |
出典47 Kroll – Data Breach |
出典48 IBM – Cost of a Data |
出典49 SailPoint – 2024 |
出典50 DeepStrike – |
出典51 Proofpoint & |
出典52 Check Point – |
出典53 Thales – 2024 |
出典54 Cyfirma – Energy & |
出典55 World Economic |
出典56 DeepStrike – Cyber |
出典57 Devolutions – State of |
出典58 TotalAssure – |
出典59 Cisco – Cybersecurity |
出典60 IANS Research – |
出典61 Munich Re – |
出典62 Gartner – 2025 |
出典63 Forrester – 2024 |
出典64 Ivanti – State of |
出典65 U.S. Department of |
出典66 U.S. Department of |
出典67 Google Cloud – |
出典68 Gartner – Generative AI |
出典69 Splashtop – Top |
出典70 ENISA – Threat |