網絡安全統計資料:
方法與來源
本頁面目的
本頁說明我們如何收集、處理及解讀「網絡安全統計資料」頁面上顯示的各項統計資料,並完全披露所引用的資料來源。「網絡安全統計資料」主頁面則提供研究結果摘要及 NordVPN 的研究見解。
資料來源與出處
透過 Google Custom Search API (GCS) 發現來源,並使用多個針對以下類別設定的自訂搜尋引擎 (CSE):
媒體來源:44 家主流與科技媒體(例如:BBC、CNN、《紐約時報》、《華爾街日報》、《金融時報》、路透社、彭博社、TechCrunch、《連線》雜誌、Ars Technica、《時代》雜誌、《福布斯》雜誌)。
權威/參考網站:25 個行業與專家來源(例如:CISA、KrebsOnSecurity、The Hacker News、Dark Reading、BleepingComputer、SecurityWeek、Infosecurity Magazine)。
當地新聞:涵蓋亞太、歐洲、中東及非洲,以及美洲地區等 100 家區域與全國性媒體機構(例如:亞洲新聞台、CSA.gov.sg、《聯合早報》;HK01、unwire.hk;《日本時報》、NISC、JPCERT、ITMedia)。
無限制/一般來源。
查詢內容根據一份持續維護且依類別分組的關鍵字清單所產生。
所有記錄均包含明確的來源標註:
原文連結
媒體來源(從 URL 擷取網域名稱)
發佈日期和收集日期
我們整合來自多個來源的資料,以進行統計和事件彙總;每項統計資料均來自附有原始文章連結的佐證資料。
內容擷取和收集頻率
從發現的連結中擷取全文內容,方式如下:
主要:NewsPlease
備用:透過強化請求工作階段和 trafilatura 擷取直接下載 HTML。
使用逾時機制、自動重試、TLS 回退機制及 Referer 標頭來減少暫時性故障。
出版日期和標題取自擷取工具(如有);日期格式統一標準化為僅包含日期。
每日執行程序會查詢最近 1 天的內容。
特徵擷取
擷取欄位包括:
媒體來源(來自 URL)
第一段內容(前 3 至 5 句)
關鍵字特徵:文中的總出現次數、標題中是否出現、包含種子關鍵字的句子,以及是否包含維護清單中的任何關鍵字
字數統計
LLM 相關性評估
每篇文章皆由 LLM 在確定性設定 (temperature 0) 下進行評估,並使用約束提示詞,要求產生明確且結構化的輸出:
1. 文章是否與網絡事件相關
2. 如果相關,則會指派一個高級別事件類型:
事件:已確認發生網絡攻擊或資料外洩事件(例如:勒索軟件部署、資料外洩、DDoS 攻擊、系統遭入侵)。
漏洞:發現或披露軟件、硬件或系統中可能遭到利用的安全漏洞(屬於潛在風險,而非已確認的實際利用)。
威脅情資:針對威脅行為者、工具、TTP 與攻擊行動的報導,重點在於「誰」與「如何攻擊」,而非特定受害事件。
監管與法律:影響網絡安全義務的法律、法規、執法行動、法院判決或重大政策變更。
文章類型和分類
相關文章透過結構化分類提示詞進行分類(主要:攻擊狀態、事件類型、監管/法律;次要:影響指標/類別、技術細節、行業、地理位置、規模、大概損失)。
事件分群(文章至事件的彙整)
目的:將描述相同事件的文章彙整為單一「事件」。
方法:
從資料庫擷取既有事件作為上下文參考(包括標題、已知受影響組織、威脅行為者、連結)。
對於每篇候選文章(其中文章類型 = 單一事件),LLM 會將文章詳細資訊與現有事件批次進行比較,並執行以下其中一項操作:
1. 若為高置信度匹對,則指派既有事件 ID,或
2. 建立新事件。
提示詞強調高精確度:僅在高度確信時,才將文章連結至既有事件。受影響的組織與威脅行為者相關跡象,將視為重要判定指標。
事件保留彙總欄位:首次/最後出現日期、文章數量、受影響組織、威脅行為者、標題、連結。
準確性與品質保證
確定性和約束條件:
LLM temperature 設為 0,以最大化確定性並減少幻覺。
約束提示詞要求明確欄位與 JSON 格式輸出;解析流程則強制符合執行架構。
無內容的文章(缺少標題/內文)會在早期拒收。
由 LLM 管控、經架構驗證的指標:
所有指標欄位均由確定性 LLM 運算 (temperature 0) ,並依據嚴格且有文件記錄的準則與 JSON 架構產出;僅計入符合架構規範的輸出結果,並定期進行人工品質保證 (QA) 以校準並防止偏移。
用於精準篩選的事件/文章分類:
事件類型和文章重點分類作為嚴格的相關性門檻,可篩選出離題、低訊號或彙總式內容。這種專注於單一事件報導的方式可減少雜訊,並顯著提升資料集的精確度和準確度。
多來源驗證:
事件分群參考先前儲存的事件上下文資訊;不一致情況可降低錯誤合併的可能性。
彙總包括每個事件的來源連結清單,以供手動驗證。
人機協作:
高影響力或具歧義性的案例可被標記,以進行編輯審查與事實查核。
定期 QA 審查:每月針對抽樣文章與事件進行稽核與精確度審查;任何偏移情況都會觸發提示詞/模型或關鍵字調整。
可追溯性:
每項統計資料均可追溯至資料庫中的文章與來源連結,以確保可稽核性。
限制
涵蓋範圍限制:
基於 GCS 的發現取決於關鍵字和 CSE 設定;並非所有事件都會被捕捉,尤其是在設定的語言範圍之外或受付費牆限制的內容。
部分網站會阻擋自動擷取;相關文章內容可能部分或完全缺失。
LLM 特有的風險:
儘管採用確定性設定與結構化提示詞,仍可能發生分類錯誤,尤其是在文本內容稀少或語意模糊的情況下。
事件分群可能會將同一事件分成多個事件,或在極端情況下合併相似但不同的事件。
統計資料的計算方式
文章層級欄位源自直接擷取結果與 LLM 輸出(依每筆記錄儲存)。
事件層級指標依 event_id 彙總組成文章:
文章數量、首次/最後出現日期
經去重的受影響組織和威脅行為者
代表性標題和標準連結清單
報告統計資料從上述儲存資料表擷取;每項數據均可追溯至事件列與原始文章記錄。
資料範圍
我們網絡安全內容中引用的統計資料和分析見解,來自以下綜合資料來源:
公開的網絡安全事件報告
媒體對已確認網絡事件的報導
行業報告和調查
政府和監管機構披露
資料反映的是 可公開觀察且已報告的活動,而非全球範圍內發生的所有網絡事件。許多網絡事件從未被披露、報告或媒體報導。
資料來源和發現
來源類型
網絡安全相關的文章和報告從多個來源類別收集,包括:
主流媒體和科技媒體。
例如主要的國際新聞機構和科技出版刊物。具權威性的網絡安全專業來源。
包括政府機構、網絡安全研究組織和知名業界出版刊物。區域和地方新聞媒體。
涵蓋北美、歐洲、亞太及其他地區的網絡安全事件報導。行業和研究報告。
包括年度資料外洩報告、威脅態勢報告、調查研究和經濟分析。
每項來源均在文章或報告層級註明出處,並保留其發佈日期、媒體來源與原始 URL。
發現過程
內容發現是使用自動搜尋查詢進行,查詢內容是基於維護的網絡安全關鍵字清單。關鍵字按主題分組(例如:資料外洩、勒索軟件、網絡釣魚、漏洞、法規)。
每日進行搜尋,以獲取新發佈的內容。每次執行僅查詢近期資料,確保資料集能反映最新報導情況。
內容收集和處理
文章擷取
一旦發現來源,就會使用自動擷取工具擷取完整的文章內容。如果主要擷取方式失敗,則使用備用方法以確保內容的完整性。
去除重複
為避免重複計算:
相同的 URL 只會處理一次
重新發佈或聯合發佈的內容會在文章層面進行去除重複處理
事件層級的彙總(如下所述)進一步減少各媒體機構間的重複內容
相關性篩選和分類
網絡安全相關性評估
每篇文章都會經過評估,以確定其是否與網絡安全統計資料相關。文章必須對網絡安全事件、威脅、漏洞或監管行動進行實質描述或分析。
事件類型分類
相關文章分為幾大類,包括:
事件:已確認發生過的網絡攻擊或資料外洩事件
漏洞:披露可能遭利用的安全漏洞
威脅情報:針對威脅行為者、工具、攻擊活動或技術的報告
監管/法律:與網絡安全相關的法律、執法行動、政策變更或法律程序
此分類可確保涉及「事件」、「洩露」或「攻擊」的統計資料不會與漏洞披露或一般性評論混淆。
事件分群(文章至事件的彙整)
多篇文章通常會報導同一宗網絡事件。為避免重複計算:
描述同一事件的文章會被歸入同一個事件
為事件指派穩定的內部識別碼
只有在高度確信文章描述相同事件時,才會將文章連結至既有事件
用於事件分群的判斷依據包括受影響的組織、威脅行為者、時間軸與事件描述。
事件級別的記錄保留:
首次與最後出現日期
相關文章數量
受影響的組織
提及的威脅行為者
用於驗證的來源連結
使用自動分析和品質管控
自動分類
使用結構化、確定性的語言模型分析進行分類、擷取和彙總。所有自動輸出均遵循預先定義的架構,以確保一致性。
模型以確定性設定運作,以減少變異性和產生幻覺的風險。
品質保證
為確保準確性:
架構驗證可確保僅計算結構正確的輸出
每月定期進行抽樣和審查程序(包括精確度審查),以偵測分類偏移。此審查可識別分類的變化,然後為模型提供依據並促使進行調整。
具歧義性或高影響性的案例會被標記出來,以供人工審查
彙總的統計資料仍可追溯至個別文章和事件
統計資料的計算方式
文章層級與事件層級指標
部分統計資料基於:
文章層級計數 (例如:媒體報導量)
事件層級計數 (例如:不同的資料外洩或事件的數量)
在適用的情況下,會優先採用事件層級指標,以減少重複計算。
計數與頻率的解讀
「每日事件數」或「每年資料外洩數」等統計資料反映的是已被報導或媒體可觀察到的活動,而非全球總活動量。
由於範圍與方法的差異,供應商遙測資料、政府投訴系統與經濟預測通常呈現明顯較高的數量。相關差異會於適當處加以註明。
限制與注意事項
儘管我們已盡力確保準確性與一致性,資料本身仍存在以下固有限制:
並非所有事件都會公開披露或報告
媒體報導因地區、行業和事件規模而異
部分來源會限制存取
在極端情況下,可能會發生分類錯誤
隨著調查的進展,經濟損失數字可能會有所變化
因此,相關統計資料應視為方向性指標,而非詳盡的衡量結果。
來源索引
以下每個編號的資源都對應於「網絡安全統計資料」頁面上使用的上標參考。上標會直接連結至本頁面的相關來源條目。
來源 1 Statista – |
|---|
來源 2 Identity Theft |
來源 3 Identity Theft |
來源 4 Verizon – |
來源 5 IBM – |
來源 6 South Korean |
來源 7 Aflac – June |
來源 8 HIPAA Journal – |
來源 9 California Attorney |
來源 10 Iowa Attorney |
來源 11 Rhode Island |
來源 12 Rhode Island |
來源 13 Aflac Newsroom – |
來源 14 HIPAA Journal – |
來源 15 Office of the |
來源 16 Qantas – Information |
來源 17 Qantas Newsroom – |
來源 18 Michigan Attorney |
來源 19 Maine Attorney |
來源 20 California Attorney |
來源 21 University of |
來源 22 Microsoft Digital |
來源 23 WIRED – NotPetya |
來源 24 Reuters – UnitedHealth |
來源 25 The Guardian – Jaguar |
來源 26 NBC News – |
來源 27 Delaware Department |
來源 28 Cybersecurity |
來源 29 JumpCloud – Phishing |
來源 30 Hornetsecurity – Email |
來源 31 Spearshield – |
來源 32 APWG – Phishing |
來源 33 arXiv – Academic |
來源 34 DeepStrike – Password |
來源 35 NordPass – Top 200 |
來源 36 Financial Times – |
來源 37 SecurityScorecard – |
來源 38 National Technology & |
來源 39 Palo Alto Networks – |
來源 40 IBM – Threat |
來源 41 Tenable – |
來源 42 Cybersecurity |
來源 43 Statista Market |
來源 44 Statista – Cost of |
來源 45 FTC – Consumer |
來源 46 FBI IC3 – 2024 Internet |
來源 47 Kroll – Data Breach |
來源 48 IBM – Cost of a Data |
來源 49 SailPoint – 2024 |
來源 50 DeepStrike – |
來源 51 Proofpoint & |
來源 52 Check Point – |
來源 53 Thales – 2024 |
來源 54 Cyfirma – Energy & |
來源 55 World Economic |
來源 56 DeepStrike – Cyber |
來源 57 Devolutions – State of |
來源 58 TotalAssure – |
來源 59 Cisco – Cybersecurity |
來源 60 IANS Research – |
來源 61 Munich Re – |
來源 62 Gartner – 2025 |
來源 63 Forrester – 2024 |
來源 64 Ivanti – State of |
來源 65 U.S. Department of |
來源 66 U.S. Department of |
來源 67 Google Cloud – |
來源 68 Gartner – Generative AI |
來源 69 Splashtop – Top |
來源 70 ENISA – Threat |