网络安全统计数据:
方法和来源
此页面的目的
本页介绍了我们如何收集、处理和解释“网络安全统计数据”页面上展示的网络安全统计数据,并完全透明地提供所引用数据的来源。“网络安全统计数据”主页展示了汇总的研究结果以及 NordVPN 的研究见解。
数据来源和归属
通过 Google 自定义搜索 API (GCS) 发现来源,使用为以下媒体配置的多个自定义搜索引擎 (CSE):
媒体机构:44 家主流及科技媒体(例如:BBC、CNN、《纽约时报》、《华尔街日报》、《金融时报》、路透社、彭博社、TechCrunch、《连线》杂志、Ars Technica、《时代》周刊、《福布斯》)。
权威/参考网站:25 个行业及专家来源(例如:CISA、KrebsOnSecurity、The Hacker News、Dark Reading、BleepingComputer、SecurityWeek、Infosecurity Magazine)。
本地新闻:亚太、欧洲中东非洲及美洲地区 100 多家区域及全国性媒体机构(例如:、CSA.gov.sg、联合早报;HK01、unwire.hk;、NISC、JPCERT、ITMedia)。
无限制/一般。
查询基于维护良好的关键词列表,该列表按类别对术语进行分组。
所有记录均包含明确的来源标注:
原文链接
媒体机构(从 URL 中提取的域名)
发布日期和收集日期
我们整合多个来源的信息以生成统计数据和事件汇总;每一项统计数据均可追溯至原文证据,并附有来源链接。
内容检索与收集频率
使用以下方式从发现的链接中获取全文内容:
主要:NewsPlease
备用方案:通过强化请求会话和 Trafilatura 提取直接下载 HTML。
采用超时机制、自动重试、TLS 降级回退及 Referer 请求头,用以减少偶发故障。
出版日期和标题(如有)取自提取器;日期解析已标准化为仅日期格式。
每日运行查询过去 1 天的内容。
特征提取
提取的字段包括:
媒体机构(来自 URL)
第一段(前 3–5 句)
关键词特征:文本中的总计数、标题中是否出现、包含种子关键词的句子,以及是否包含维护列表中的任何关键词
字数
大型语言模型相关性评估
每篇文章均由一个采用确定性设置(温度 0)的大型语言模型进行评估,并使用要求生成明确、结构化输出的约束式提示词:
1. 文章是否与网络事件相关
2. 如果相关,则分配一个高级事件类型:
事件:已确认发生网络攻击或数据泄露(例如勒索软件部署、数据外泄、DDoS 攻击、系统被入侵)。
漏洞:发现或披露软件/硬件/系统中可能被利用的安全漏洞(潜在风险,而非已确认的利用)。
威胁情报:报告威胁行为者、工具、TTP 和攻击活动,侧重于“谁/如何”,而非特定受害者事件。
监管与法律:影响网络安全义务的法律、法规、执法行动、法院判决或重大政策变更。
文章类型与分类
相关文章通过结构化的分类法提示进行分类(主要维度:攻击状态、事件类型、监管/法律;次要维度:影响指标/类别、技术细节、行业、地理位置、规模、大致损失)。
事件聚类(文章到事件的聚合)
目标:将描述同一基础事件的文章归为一个“事件”。
方法:
从数据库中检索现有事件以提供背景信息(标题、已知受影响的组织、威胁行为者、链接)。
对于每篇候选文章(其中文章类型 = 单个事件),大型语言模型会将文章详细信息与现有事件批次进行比较,并执行以下任一操作:
1. 当存在高置信度匹配时,分配现有事件 ID,或者
2. 创建一个新事件。
提示词强调高精度:仅在高度确信时才链接到现有事件。受影响的组织及威胁行为者的迹象被视为强指标。
事件保留聚合字段:首次/最后浏览日期、文章数量、受影响组织、威胁行为者、标题、链接。
准确性与质量保证
确定性和约束条件:
大型语言模型温度设置为 0,以最大限度提高确定性并减少幻觉。
约束式提示词要求输出必须包含显式字段,且以 JSON 格式呈现;解析时强制校验数据架构。
无内容的文章(缺少标题/正文)会在早期拒收。
由大型语言模型管理、经过架构验证的指标:
所有指标字段均由确定性大型语言模型运行(温度 0)根据严格、有据可查的指南和 JSON 架构生成;仅计入符合架构的输出,并定期进行人工 QA 以校准并防止漂移。
用于精准筛选的事件/文章分类:
事件类型和文章重点分类作为严格的相关性筛选机制,能够过滤掉离题、信号弱或综述风格的内容。这种对单一事件报道的关注减少了噪声,并显著提高了数据集的精确度和准确性。
多源验证:
事件聚类会引用先前存储的事件上下文;不匹配的情况可降低错误合并的概率。
聚合包含每个事件的源链接列表,供人工核验。
人机协同:
影响重大或模棱两可的案例可被标记,以供编辑审核和事实核查。
定期 QA 审查:每月对抽样文章和事件进行精确审查;任何偏差都会触发提示词/模型或关键词调整。
可追溯性:
每项统计数据均可追溯至数据库中包含的文章和链接,以确保可审计性。
限制
覆盖限制:
基于 GCS 的发现依赖于关键词和 CSE 配置;并非所有事件都会被捕获,尤其是超出配置语言范围或受付费墙限制的内容。
某些网站会阻止自动检索;此类文章可能会部分或全部缺失。
大型语言模型特有的风险:
尽管有确定性设置和结构化提示,但仍可能发生分类错误,尤其是在处理稀疏或模棱两可的文本时。
事件聚类可能会将同一事件拆分为多个事件,或在极端情况下将相似但不同的事件合并。
统计数据的计算方式
文章级字段来源于直接提取和大型语言模型输出(逐条记录存储)。
事件级指标按 event_id 对组成文章进行聚合:
文章数量,首次/最后浏览日期
去重后的受影响组织及威胁行为者
代表性标题和规范链接列表
报告统计数据提取自这些存储表;每个数字均可追溯到事件行和基础文章记录。
数据范围
我们网络安全内容中引用的统计数据和见解来源于以下方面的综合分析:
公开的网络安全事件报告
媒体对已确认网络事件的报道
行业报告与调查
政府和监管机构公告
数据反映的是公开可见且已报告的活动,并非全球范围内发生的所有网络事件。许多网络事件从未被披露、报告或由媒体报道。
数据来源与发现
来源类型
与网络安全相关的文章和报告从多个来源类别收集,包括:
主流媒体和科技媒体。
例如主要国际新闻机构和科技出版物。权威且专业的网络安全信息来源。
包括政府机构、网络安全研究组织以及知名行业出版物。地区及地方新闻媒体机构。
报道北美、欧洲、亚太及其他地区的网络安全事件。行业与研究报告。
包括年度数据泄露报告、威胁态势报告、调查及经济分析。
每个来源均在文章或报告层面注明出处,并保留发布日期、发布机构及原始网址。
发现过程
内容发现使用基于持续维护的网络安全关键词列表的自动搜索查询来执行。关键词按主题分组(例如:数据泄露、勒索软件、网络钓鱼、漏洞、法规)。
每天进行搜索,以获取新发布的内容。每次运行仅查询近期材料,确保数据集反映当前报告情况。
内容收集与处理
文章检索
一旦发现来源,便会使用自动提取工具检索文章全文。如果主要提取失败,则使用备用方法以确保不会漏掉内容。
去重
为避免重复计算:
相同的 URL 仅处理一次
转载或联合发布的内容会在文章层面进行去重
事件级聚合(如下所述)进一步减少了各媒体机构的重复内容
相关性过滤与分类
网络安全相关性评估
每篇文章都会经过评估,以确定其是否与网络安全统计数据相关。文章须对网络安全事件、威胁、漏洞或监管行动进行有实质内容的描述或分析。
事件类型分类
相关文章分为几大类,包括:
事件 – 已确认且已发生的网络攻击或数据泄露
漏洞 – 披露可能被利用的安全漏洞
威胁情报 – 关于威胁行为者、工具、活动或技术的报告
监管/法律 – 与网络安全相关的法律、执法行动、政策变更或法律程序
此分类可确保涉及“事件”、“泄露”或“攻击”的统计数据不会与漏洞披露或一般性评论混淆。
事件聚类(文章到事件的聚合)
多篇文章经常报道同一起基础网络事件。为防止重复计数:
描述同一事件的文章会被归入同一个事件
为事件分配稳定的内部标识符
只有在高度确信文章描述的是同一事件时,才会将文章链接到现有事件
用于聚类的指标包括受影响的组织、威胁行为者、时间线以及事件描述。
事件级记录保留:
首次和最后出现日期
相关文章数量
受影响的组织
提及的威胁行为者
用于验证的来源链接
使用自动分析和质量控制
自动分类
采用结构化、确定性的语言模型分析方法进行分类、提取和聚合。所有自动输出均遵循预定义架构,以确保一致性。
这些模型采用确定性设置运行,以减少变异性并降低产生幻觉的风险。
质量保证
为确保准确性:
架构验证可确保仅计入结构正确的输出
每月定期进行抽样和审查程序(包括精度审查),以检测分类漂移。此审查可识别分类的变化,进而为模型的调整提供依据并促使进行调整。
模棱两可或影响重大的案例会被标记出来,供人工审核
汇总统计数据仍可追溯至单个文章和事件
统计数据的计算方式
文章级指标与事件级指标
部分统计数据基于:
文章级计数(例如媒体报道量)
事件级计数(例如不同数据泄露或事件的数量)
在适用情况下,应优先使用事件级指标以减少重复。
计数与频率的解释
诸如“每日事件数”或“每年数据泄漏数”之类的统计数据代表的是已报告或媒体可见的活动,而非全球总活动量。
由于范围和方法的差异,供应商遥测数据、政府投诉系统以及经济预测通常报告的数量要高得多。相关差异已在适当处予以注明。
限制与考虑因素
尽管我们已尽力确保数据的准确性和一致性,但数据本身仍存在固有局限性:
并非所有事件都会被公开披露或报告
媒体报道因地区、行业及事件规模而异
某些来源限制访问
在极端情况下可能会发生分类错误
随着调查的进展,经济损失数字可能会发生变化
因此,统计数据应被视为方向性指标,而非详尽的衡量结果。
来源索引
下方每个编号的来源均对应于“网络安全统计数据”页面上使用的上标引用。上标直接链接至本页面的相关来源条目。
来源 1 Statista – |
|---|
来源 2 Identity Theft |
来源 3 Identity Theft |
来源 4 Verizon – |
来源 5 IBM – |
来源 6 South Korean |
来源 7 Aflac – June |
来源 8 HIPAA Journal – |
来源 9 California Attorney |
来源 10 Iowa Attorney |
来源 11 Rhode Island |
来源 12 Rhode Island |
来源 13 Aflac Newsroom – |
来源 14 HIPAA Journal – |
来源 15 Office of the |
来源 16 Qantas – Information |
来源 17 Qantas Newsroom – |
来源 18 Michigan Attorney |
来源 19 Maine Attorney |
来源 20 California Attorney |
来源 21 University of |
来源 22 Microsoft Digital |
来源 23 WIRED – NotPetya |
来源 24 Reuters – UnitedHealth |
来源 25 The Guardian – Jaguar |
来源 26 NBC News – |
来源 27 Delaware Department |
来源 28 Cybersecurity |
来源 29 JumpCloud – Phishing |
来源 30 Hornetsecurity – Email |
来源 31 Spearshield – |
来源 32 APWG – Phishing |
来源 33 arXiv – Academic |
来源 34 DeepStrike – Password |
来源 35 NordPass – Top 200 |
来源 36 Financial Times – |
来源 37 SecurityScorecard – |
来源 38 National Technology & |
来源 39 Palo Alto Networks – |
来源 40 IBM – Threat |
来源 41 Tenable – |
来源 42 Cybersecurity |
来源 43 Statista Market |
来源 44 Statista – Cost of |
来源 45 FTC – Consumer |
来源 46 FBI IC3 – 2024 Internet |
来源 47 Kroll – Data Breach |
来源 48 IBM – Cost of a Data |
来源 49 SailPoint – 2024 |
来源 50 DeepStrike – |
来源 51 Proofpoint & |
来源 52 Check Point – |
来源 53 Thales – 2024 |
来源 54 Cyfirma – Energy & |
来源 55 World Economic |
来源 56 DeepStrike – Cyber |
来源 57 Devolutions – State of |
来源 58 TotalAssure – |
来源 59 Cisco – Cybersecurity |
来源 60 IANS Research – |
来源 61 Munich Re – |
来源 62 Gartner – 2025 |
来源 63 Forrester – 2024 |
来源 64 Ivanti – State of |
来源 65 U.S. Department of |
来源 66 U.S. Department of |
来源 67 Google Cloud – |
来源 68 Gartner – Generative AI |
来源 69 Splashtop – Top |
来源 70 ENISA – Threat |