网络安全统计数据：
方法和来源

此页面的目的

本页介绍了我们如何收集、处理和解释“网络安全统计数据”页面上展示的网络安全统计数据，并完全透明地提供所引用数据的来源。“网络安全统计数据”主页展示了汇总的研究结果以及 NordVPN 的研究见解。

数据来源和归属

通过 Google 自定义搜索 API (GCS) 发现来源，使用为以下媒体配置的多个自定义搜索引擎 (CSE)：

媒体机构：44 家主流及科技媒体（例如：BBC、CNN、《纽约时报》、《华尔街日报》、《金融时报》、路透社、彭博社、TechCrunch、《连线》杂志、Ars Technica、《时代》周刊、《福布斯》）。
权威/参考网站：25 个行业及专家来源（例如：CISA、KrebsOnSecurity、The Hacker News、Dark Reading、BleepingComputer、SecurityWeek、Infosecurity Magazine）。
本地新闻：亚太、欧洲中东非洲及美洲地区 100 多家区域及全国性媒体机构（例如：、CSA.gov.sg、联合早报；HK01、unwire.hk；、NISC、JPCERT、ITMedia）。
无限制/一般。

查询基于维护良好的关键词列表，该列表按类别对术语进行分组。

所有记录均包含明确的来源标注：

原文链接
媒体机构（从 URL 中提取的域名）
发布日期和收集日期

我们整合多个来源的信息以生成统计数据和事件汇总；每一项统计数据均可追溯至原文证据，并附有来源链接。

内容检索与收集频率

使用以下方式从发现的链接中获取全文内容：

主要：NewsPlease
备用方案：通过强化请求会话和 Trafilatura 提取直接下载 HTML。

采用超时机制、自动重试、TLS 降级回退及 Referer 请求头，用以减少偶发故障。

出版日期和标题（如有）取自提取器；日期解析已标准化为仅日期格式。

每日运行查询过去 1 天的内容。

特征提取

提取的字段包括：

媒体机构（来自 URL）
第一段（前 3–5 句）
关键词特征：文本中的总计数、标题中是否出现、包含种子关键词的句子，以及是否包含维护列表中的任何关键词
字数

大型语言模型相关性评估

每篇文章均由一个采用确定性设置（温度 0）的大型语言模型进行评估，并使用要求生成明确、结构化输出的约束式提示词：

1. 文章是否与网络事件相关

2. 如果相关，则分配一个高级事件类型：

事件：已确认发生网络攻击或数据泄露（例如勒索软件部署、数据外泄、DDoS 攻击、系统被入侵）。
漏洞：发现或披露软件/硬件/系统中可能被利用的安全漏洞（潜在风险，而非已确认的利用）。
威胁情报：报告威胁行为者、工具、TTP 和攻击活动，侧重于“谁/如何”，而非特定受害者事件。
监管与法律：影响网络安全义务的法律、法规、执法行动、法院判决或重大政策变更。

文章类型与分类

相关文章通过结构化的分类法提示进行分类（主要维度：攻击状态、事件类型、监管/法律；次要维度：影响指标/类别、技术细节、行业、地理位置、规模、大致损失）。

事件聚类（文章到事件的聚合）

目标：将描述同一基础事件的文章归为一个“事件”。

方法：

从数据库中检索现有事件以提供背景信息（标题、已知受影响的组织、威胁行为者、链接）。
对于每篇候选文章（其中文章类型 = 单个事件），大型语言模型会将文章详细信息与现有事件批次进行比较，并执行以下任一操作：

1. 当存在高置信度匹配时，分配现有事件 ID，或者

2. 创建一个新事件。

提示词强调高精度：仅在高度确信时才链接到现有事件。受影响的组织及威胁行为者的迹象被视为强指标。

事件保留聚合字段：首次/最后浏览日期、文章数量、受影响组织、威胁行为者、标题、链接。

准确性与质量保证

确定性和约束条件：

大型语言模型温度设置为 0，以最大限度提高确定性并减少幻觉。
约束式提示词要求输出必须包含显式字段，且以 JSON 格式呈现；解析时强制校验数据架构。
无内容的文章（缺少标题/正文）会在早期拒收。

由大型语言模型管理、经过架构验证的指标：

所有指标字段均由确定性大型语言模型运行（温度 0）根据严格、有据可查的指南和 JSON 架构生成；仅计入符合架构的输出，并定期进行人工 QA 以校准并防止漂移。

用于精准筛选的事件/文章分类：

事件类型和文章重点分类作为严格的相关性筛选机制，能够过滤掉离题、信号弱或综述风格的内容。这种对单一事件报道的关注减少了噪声，并显著提高了数据集的精确度和准确性。

多源验证：

事件聚类会引用先前存储的事件上下文；不匹配的情况可降低错误合并的概率。
聚合包含每个事件的源链接列表，供人工核验。

人机协同：

影响重大或模棱两可的案例可被标记，以供编辑审核和事实核查。
定期 QA 审查：每月对抽样文章和事件进行精确审查；任何偏差都会触发提示词/模型或关键词调整。

可追溯性：

每项统计数据均可追溯至数据库中包含的文章和链接，以确保可审计性。

限制

覆盖限制：

基于 GCS 的发现依赖于关键词和 CSE 配置；并非所有事件都会被捕获，尤其是超出配置语言范围或受付费墙限制的内容。
某些网站会阻止自动检索；此类文章可能会部分或全部缺失。

大型语言模型特有的风险：

尽管有确定性设置和结构化提示，但仍可能发生分类错误，尤其是在处理稀疏或模棱两可的文本时。
事件聚类可能会将同一事件拆分为多个事件，或在极端情况下将相似但不同的事件合并。

统计数据的计算方式

文章级字段来源于直接提取和大型语言模型输出（逐条记录存储）。

事件级指标按 event_id 对组成文章进行聚合：

文章数量，首次/最后浏览日期
去重后的受影响组织及威胁行为者
代表性标题和规范链接列表

报告统计数据提取自这些存储表；每个数字均可追溯到事件行和基础文章记录。

数据范围

我们网络安全内容中引用的统计数据和见解来源于以下方面的综合分析：

公开的网络安全事件报告
媒体对已确认网络事件的报道
行业报告与调查
政府和监管机构公告

数据反映的是公开可见且已报告的活动，并非全球范围内发生的所有网络事件。许多网络事件从未被披露、报告或由媒体报道。

数据来源与发现

来源类型

与网络安全相关的文章和报告从多个来源类别收集，包括：

主流媒体和科技媒体。
例如主要国际新闻机构和科技出版物。
权威且专业的网络安全信息来源。
包括政府机构、网络安全研究组织以及知名行业出版物。
地区及地方新闻媒体机构。
报道北美、欧洲、亚太及其他地区的网络安全事件。
行业与研究报告。
包括年度数据泄露报告、威胁态势报告、调查及经济分析。

每个来源均在文章或报告层面注明出处，并保留发布日期、发布机构及原始网址。

发现过程

内容发现使用基于持续维护的网络安全关键词列表的自动搜索查询来执行。关键词按主题分组（例如：数据泄露、勒索软件、网络钓鱼、漏洞、法规）。

每天进行搜索，以获取新发布的内容。每次运行仅查询近期材料，确保数据集反映当前报告情况。

内容收集与处理

文章检索

一旦发现来源，便会使用自动提取工具检索文章全文。如果主要提取失败，则使用备用方法以确保不会漏掉内容。

去重

为避免重复计算：

相同的 URL 仅处理一次
转载或联合发布的内容会在文章层面进行去重
事件级聚合（如下所述）进一步减少了各媒体机构的重复内容

事件聚类（文章到事件的聚合）

多篇文章经常报道同一起基础网络事件。为防止重复计数：

描述同一事件的文章会被归入同一个事件
为事件分配稳定的内部标识符
只有在高度确信文章描述的是同一事件时，才会将文章链接到现有事件

用于聚类的指标包括受影响的组织、威胁行为者、时间线以及事件描述。

事件级记录保留：

首次和最后出现日期
相关文章数量
受影响的组织
提及的威胁行为者
用于验证的来源链接

使用自动分析和质量控制

自动分类

采用结构化、确定性的语言模型分析方法进行分类、提取和聚合。所有自动输出均遵循预定义架构，以确保一致性。

这些模型采用确定性设置运行，以减少变异性并降低产生幻觉的风险。

质量保证

为确保准确性：

架构验证可确保仅计入结构正确的输出
每月定期进行抽样和审查程序（包括精度审查），以检测分类漂移。此审查可识别分类的变化，进而为模型的调整提供依据并促使进行调整。
模棱两可或影响重大的案例会被标记出来，供人工审核
汇总统计数据仍可追溯至单个文章和事件

统计数据的计算方式

文章级指标与事件级指标

部分统计数据基于：

文章级计数（例如媒体报道量）
事件级计数（例如不同数据泄露或事件的数量）

在适用情况下，应优先使用事件级指标以减少重复。

计数与频率的解释

诸如“每日事件数”或“每年数据泄漏数”之类的统计数据代表的是已报告或媒体可见的活动，而非全球总活动量。

由于范围和方法的差异，供应商遥测数据、政府投诉系统以及经济预测通常报告的数量要高得多。相关差异已在适当处予以注明。

限制与考虑因素

尽管我们已尽力确保数据的准确性和一致性，但数据本身仍存在固有局限性：

并非所有事件都会被公开披露或报告
媒体报道因地区、行业及事件规模而异
某些来源限制访问
在极端情况下可能会发生分类错误
随着调查的进展，经济损失数字可能会发生变化

因此，统计数据应被视为方向性指标，而非详尽的衡量结果。

来源索引

下方每个编号的来源均对应于“网络安全统计数据”页面上使用的上标引用。上标直接链接至本页面的相关来源条目。

来源 ¹ Statista – Cybercrime worldwide 链接⁠‌
来源 ² Identity Theft Resource Center (ITRC) – Weekly Breach Breakdown Q3 2025 链接⁠‌
来源 ³ Identity Theft Resource Center (ITRC) – H1 2025 Data Breach Analysis 链接⁠‌
来源 ⁴ Verizon – Data Breach Investigations Report (DBIR) 2025 链接⁠‌
来源 ⁵ IBM – Cost of a Data Breach Report 2025 链接⁠‌
来源 ⁶ South Korean Ministry of Science and ICT – SK Telecom data exfiltration incident 链接⁠‌
来源 ⁷ Aflac – June 2025 security incident regulatory filing 链接⁠‌
来源 ⁸ HIPAA Journal – Largest healthcare data breaches of 2025 链接⁠‌
来源 ⁹ California Attorney General – Aflac breach report (SB24-616010) 链接⁠‌
来源 ¹⁰ Iowa Attorney General – Aflac data breach notification 链接⁠‌
来源 ¹¹ Rhode Island Attorney General – Data‑breach notifications 链接⁠‌
来源 ¹² Rhode Island AG – Data‑breach notification 链接⁠‌
来源 ¹³ Aflac Newsroom – June 2025 security incident update 链接⁠‌
来源 ¹⁴ HIPAA Journal – Aflac data breach article 链接⁠‌
来源 ¹⁵ Office of the Australian Information Commissioner – Statement on Qantas cyber incident 链接⁠‌
来源 ¹⁶ Qantas – Information for customers on cyber incident 链接⁠‌
来源 ¹⁷ Qantas Newsroom – Update on Qantas cyber incident (9 July 2025) 链接⁠‌
来源 ¹⁸ Michigan Attorney General – Consumer alert on data breaches (TransUnion) 链接⁠‌
来源 ¹⁹ Maine Attorney General – Allianz Life cyber incident notice 链接⁠‌
来源 ²⁰ California Attorney General – Allianz data breach report (SB24-612078) 链接⁠‌
来源 ²¹ University of Maryland – Cyber Security Statistics 链接⁠‌
来源 ²² Microsoft Digital Defense Report 2023 链接⁠‌
来源 ²³ WIRED – NotPetya cyberattack article 链接⁠‌
来源 ²⁴ Reuters – UnitedHealth tech unit hack article 链接⁠‌
来源 ²⁵ The Guardian – Jaguar Land Rover hack article 链接⁠‌
来源 ²⁶ NBC News – MGM Resorts cyberattack cost article 链接⁠‌
来源 ²⁷ Delaware Department of Technology & Information – eSecurityNews (Oct 2023) 链接⁠‌
来源 ²⁸ Cybersecurity Ventures – Global ransomware damage cost projection 链接⁠‌
来源 ²⁹ JumpCloud – Phishing attack statistics 链接⁠‌
来源 ³⁰ Hornetsecurity – Email threats in 2024 链接⁠‌
来源 ³¹ Spearshield – Click‑to‑credential phishing study 链接⁠‌
来源 ³² APWG – Phishing Activity Trends Reports 链接⁠‌
来源 ³³ arXiv – Academic password/credential research (2025) 链接⁠‌
来源 ³⁴ DeepStrike – Password statistics 2025 链接⁠‌
来源 ³⁵ NordPass – Top 200 Most Common Passwords 链接⁠‌
来源 ³⁶ Financial Times – Supply‑chain cybersecurity article 链接⁠‌
来源 ³⁷ SecurityScorecard – 2025 Supply Chain Cybersecurity Trends 链接⁠‌
来源 ³⁸ National Technology & Security Coalition – 2025 Software Supply Chain Security Report 链接⁠‌
来源 ³⁹ Palo Alto Networks – State of Cloud Native Security 链接⁠‌
来源 ⁴⁰ IBM – Threat Intelligence Report 链接⁠‌
来源 ⁴¹ Tenable – Cloud Security Risk Report 2025 链接⁠‌
来源 ⁴² Cybersecurity Ventures – Cybersecurity Cost Report 链接⁠‌
来源 ⁴³ Statista Market Insights – Estimated cost of cybercrime worldwide 2018‑2029 (ResearchGate) 链接⁠‌
来源 ⁴⁴ Statista – Cost of cybercrime worldwide forecast 链接⁠‌
来源 ⁴⁵ FTC – Consumer Sentinel Network Data Book 2024 链接⁠‌
来源 ⁴⁶ FBI IC3 – 2024 Internet Crime Report 链接⁠‌
来源 ⁴⁷ Kroll – Data Breach Outlook 2025 链接⁠‌
来源 ⁴⁸ IBM – Cost of a Data Breach 2024: Financial Industry 链接⁠‌
来源 ⁴⁹ SailPoint – 2024 State of Identity Security in Financial Services 链接⁠‌
来源 ⁵⁰ DeepStrike – Healthcare data breach statistics 2025 链接⁠‌
来源 ⁵¹ Proofpoint & Ponemon – Healthcare Cybersecurity Report 链接⁠‌
来源 ⁵² Check Point – Cyber Security Report 2025 链接⁠‌
来源 ⁵³ Thales – 2024 Data Threat Report: Critical Infrastructure Edition 链接⁠‌
来源 ⁵⁴ Cyfirma – Energy & Utilities industry report 链接⁠‌
来源 ⁵⁵ World Economic Forum – Global Cybersecurity Outlook 2025 链接⁠‌
来源 ⁵⁶ DeepStrike – Cyber attacks on small businesses 链接⁠‌
来源 ⁵⁷ Devolutions – State of IT Security Report 2025 链接⁠‌
来源 ⁵⁸ TotalAssure – Small business cybersecurity statistics 2025 链接⁠‌
来源 ⁵⁹ Cisco – Cybersecurity Readiness Index 2025 链接⁠‌
来源 ⁶⁰ IANS Research – Security budgets press release (2024) 链接⁠‌
来源 ⁶¹ Munich Re – Cyber insurance risks and trends 2025 链接⁠‌
来源 ⁶² Gartner – 2025 information security spending forecast 链接⁠‌
来源 ⁶³ Forrester – 2024 Cybersecurity Benchmarks (Global) 链接⁠‌
来源 ⁶⁴ Ivanti – State of Cybersecurity Report 链接⁠‌
来源 ⁶⁵ U.S. Department of Homeland Security – FY 2025 Budget in Brief 链接⁠‌
来源 ⁶⁶ U.S. Department of Defense – CYBERCOM Budget Justification 链接⁠‌
来源 ⁶⁷ Google Cloud – Cybersecurity forecast 链接⁠‌
来源 ⁶⁸ Gartner – Generative AI attack survey (Sep 22 2025) 链接⁠‌
来源 ⁶⁹ Splashtop – Top cybersecurity trends and predictions for 2026 链接⁠‌
来源 ⁷⁰ ENISA – Threat Landscape 2024 链接⁠‌

网络安全统计数据：
方法和来源

此页面的目的

数据范围

数据来源与发现

来源类型

发现过程

内容收集与处理

文章检索

去重

相关性过滤与分类

网络安全相关性评估

事件类型分类

事件聚类（文章到事件的聚合）

使用自动分析和质量控制

自动分类

质量保证

统计数据的计算方式

文章级指标与事件级指标

计数与频率的解释

限制与考虑因素

来源索引

网络安全统计数据：方法和来源

此页面的目的

数据范围

数据来源与发现

来源类型

发现过程

内容收集与处理

文章检索

去重

相关性过滤与分类

网络安全相关性评估

事件类型分类

事件聚类（文章到事件的聚合）

使用自动分析和质量控制

自动分类

质量保证

统计数据的计算方式

文章级指标与事件级指标

计数与频率的解释

限制与考虑因素

来源索引

网络安全统计数据：
方法和来源