網路安全統計資料:
方法與來源
本頁面目的
本頁說明我們如何蒐集、處理及解讀「網路安全統計資料」頁面上呈現的各項統計數據,並完全揭露所引用的資料來源。網路安全統計資料主頁面則提供研究結果摘要及 NordVPN 的研究洞察。
資料來源與出處
來源搜尋透過 Google Custom Search API (GCS) 進行,並使用多個針對以下類別設定的自訂搜尋引擎 (CSE):
媒體來源:44 家主流與科技媒體(例如:BBC、CNN、《紐約時報》、《華爾街日報》、《金融時報》、路透社、彭博社、TechCrunch、《連線》雜誌、Ars Technica、《時代》雜誌、《富比士》雜誌)。
權威/參考網站:25 個產業與專家來源(例如:CISA、KrebsOnSecurity、The Hacker News、Dark Reading、BleepingComputer、SecurityWeek、Infosecurity Magazine)。
地方新聞:涵蓋亞太、歐洲、中東及非洲,以及美洲地區等 100 家區域與全國性媒體(例如:亞洲新聞台、CSA.gov.sg、《聯合早報》;HK01、unwire.hk;《日本時報》、NISC、JPCERT、ITMedia)。
無限制/一般來源。
查詢內容是根據一份持續維護且依類別分組的關鍵字清單所產生。
所有記錄均包含明確的來源標示:
原文連結
媒體來源(從 URL 擷取網域名稱)
發布日期與資料蒐集日期
我們整合多方來源的資訊,以進行統計和事件彙整;每項統計數據均源自附有原始文章連結的佐證資料。
內容擷取與蒐集頻率
從已搜尋到的連結擷取全文內容,方式如下:
主要:NewsPlease
備援:透過強化 Requests 工作階段直接下載 HTML,並使用 trafilatura 擷取。
為降低暫時性失敗的情形,採用逾時設定、重試機制、TLS 回退機制及 Referer 標頭。
發布日期與標題取自擷取工具(如有);日期格式則統一正規化為僅包含日期。
每日執行程序會查詢最近 1 天內的內容。
特徵擷取
擷取欄位包括:
媒體來源(來自 URL)
第一段內容(前 3 至 5 句)
關鍵字特徵:文中的總出現次數、標題中是否出現、包含種子關鍵字的句子,以及是否包含維護清單中的任一關鍵字
字數統計
LLM 相關性評估
每篇文章皆由 LLM 在確定性設定 (temperature 0) 下進行評估,並使用約束提示詞,要求產生明確且結構化的輸出:
1. 該文章是否與網路事件相關
2. 如果相關,則指派一個高層級事件類型:
事件 (Incident):已確認發生網路攻擊或資料外洩事件(例如:勒索軟體攻擊、資料外洩、DDoS 攻擊、系統遭入侵)。
漏洞 (Vulnerability):發現或揭露軟體、硬體或系統中可能遭到利用的安全漏洞(屬於潛在風險,而非已確認的實際利用)。
威脅情資 (Threat Intelligence):針對威脅行為者、工具、TTP 與攻擊行動的報導,重點在於「誰」與「如何攻擊」,而非特定受害事件。
法規與法律 (Regulatory-Legal):影響網路安全義務的法律、法規、執法行動、法院裁決或重大政策變更。
文章類型與分類
相關文章透過結構化分類提示詞進行分類(主要:攻擊狀態、事件類型、法規/法律;次要:影響指標/分級、技術細節、產業別、地區、規模、大致損害)。
事件分群(文章至事件的
彙整)
目的:將描述相同事件的文章彙整為單一「事件」。
方法:
從資料庫擷取既有事件作為上下文參考(包含標題、已知受影響組織、威脅行為者、連結)。
對於每篇候選文章(其中文章類型 = 單一事件),LLM 會將文章詳細資訊與現有事件批次進行比對,並執行以下其中一項操作:
1. 若為高信心匹配,則指派既有事件 ID;或
2. 建立新的事件。
提示詞強調高精確度:僅在高度確信時,才將文章連結至既有事件。受影響的組織與威脅行為者相關跡象,將視為重要判定指標。
事件維護彙整後欄位:首次/最後出現日期、文章數量、受影響組織、威脅行為者、標題、連結。
準確性與品質保證
確定性與約束條件:
LLM temperature 設為 0,以最大化確定性並降低幻覺風險。
約束提示詞要求明確欄位與 JSON 格式輸出;解析流程則強制符合 schema。
無內容的文章(缺少標題/內文)會在早期予以排除。
由 LLM 控管、經 schema 驗證的指標:
所有指標欄位均由確定性 LLM 運算 (temperature 0) 依據嚴格且文件化的準則與 JSON schemas 產出;僅計入符合 schemas 的輸出結果,並定期進行人工 QA 以校準並防止漂移。
用於精準篩選的事件/文章分類:
事件類型與文章焦點分類作為嚴格的相關性篩選條件關卡,用於過濾離題、低訊號或彙整型內容。聚焦於單一事件報導,可有效降低雜訊,並明顯提升資料集的精確度與準確性。
多來源驗證:
事件分群參考先前儲存的事件上下文資訊;不一致情況可降低錯誤合併的可能性。
彙整資料包含每筆事件的來源連結清單,以供人工驗證。
人類參與流程:
高影響力或具歧義性的案例可被標記,以進行編輯審查與事實查核。
定期 QA 審查:每月針對抽樣文章與事件進行稽核與精確度審查;任何偏移情況都會觸發提示詞/模型或關鍵字調整。
可追溯性:
每項統計資料均可追溯至資料庫中的文章與來源連結,以確保可稽核性。
限制
涵蓋範圍限制:
透過 GCS 的來源搜尋仰賴關鍵字與 CSE 設定;無法涵蓋所有事件,尤其是設定語言範圍外或受付費牆限制的內容。
部分網站會阻擋自動擷取;相關文章內容可能部分或完全缺失。
LLM 特有風險:
儘管採用確定性設定與結構化提示詞,仍可能發生分類錯誤,尤其是在文本內容稀少或語意模糊的情況下。
事件分群在邊界情況下,可能將同一事件拆分為多個事件,或將相似但實際不同的事件錯誤合併。
統計資料計算方式
文章層級欄位源自直接擷取結果與 LLM 輸出(依每筆記錄儲存)。
事件層級指標依 event_id 彙整所屬文章:
文章數量、首次/最後出現日期
去除重複後的受影響組織與威脅行為者
代表性標題與標準連結清單
報告統計資料從上述儲存資料表擷取;每項數據均可追溯至事件列與原始文章記錄。
資料範圍
我們網路安全內容中引用的統計資料與研究洞察,來自以下綜合資料來源:
公開的網路安全事件報告
媒體對已確認網路事件的報導
產業報告與調查
政府與監管機關揭露資訊
資料反映的是可公開觀察且已報導的活動,並非全球範圍內所有實際發生的網路事件。許多網路事件從未被揭露、通報或媒體報導。
資料來源與搜尋
來源類型
網路安全相關的文章與報告蒐集自多種來源類別,包括:
主流媒體與科技媒體。
例如主要國際新聞機構與科技出版媒體。權威與專業網路安全來源。
包括政府機關、網路安全研究機構及具公信力的產業出版媒體。區域與地方新聞媒體。
涵蓋北美、歐洲、亞太及其他地區的網路安全事件報導。產業與研究報告。
包括年度資料外洩報告、威脅態勢報告、調查研究與經濟分析。
每項來源均在文章或報告層級註明出處,並保留其發布日期、媒體來源與原始 URL。
搜尋流程
內容搜尋透過自動化查詢進行,查詢內容則是根據維護中的網路安全關鍵字清單。關鍵字依主題分組(例如:資料外洩、勒索軟體、網路釣魚、漏洞、法規)。
每日執行搜尋作業,以擷取新發布的內容。每次執行僅查詢近期資料,以確保資料集能反映最新報導情況。
內容蒐集與處理
文章擷取
一旦發現來源,會使用自動擷取工具取得完整文章內容。如果主要擷取方式失敗,則使用備援方法以確保涵蓋範圍的完整性。
去除重複
為避免重複計算:
相同的 URL 僅會處理一次
重新發布或聯合供稿的內容,會以單篇文章為單位進行去除重複處理
事件層級彙整流程(如下所述)進一步減少各媒體機構間的重複內容
相關性篩選與分類
網路安全相關性評估
每篇文章都會經過評估,確定其是否與網路安全統計資料相關。文章必須對網路安全事件、威脅、漏洞或監管行動進行實質描述或分析。
事件類型分類
相關文章分為以下高層級類別,包括:
事件:已確認發生過的網路攻擊或資料外洩事件
漏洞:揭露可能遭利用的安全弱點
威脅情報:針對威脅行為者、工具、攻擊活動或技術的報告
法規/法律:與網路安全相關的法律、執法行動、政策變更或法律程序
此分類可確保涉及「事件」、「洩漏」或「攻擊」的統計資料不會與漏洞揭露或一般性評論混淆。
事件分群(文章至事件的
彙整)
多篇文章通常會報導同一起網路事件。為防止高估事件數量:
描述同一事件的文章會被歸入同一個事件
每項事件皆會指派穩定的內部識別碼
僅在高度確信文章描述相同事件時,才會將文章連結至既有事件
用於事件分群的判斷依據包括受影響的組織、威脅行為者、時間軸與事件描述。
事件層級的記錄維護:
首次與最後出現日期
相關文章數量
受影響的組織
文中提及的威脅行為者
用於驗證的來源連結
使用自動分析與品質
控管
自動分類
採用結構化、確定性的語言模型分析進行分類、擷取與彙整。所有自動化輸出皆遵循預先定義的 schema,以確保一致性。
模型以確定性設定運作,以減少變異性並降低產生幻覺的風險。
品質保證
為確保準確性:
schema 驗證機制可確保僅統計符合結構規範的輸出
每月定期進行抽樣與審查程序(包括精確度審查),以偵測分類偏移。此審查可發現分類結果的變化,並依此判斷調整模型。
具歧義性或高影響性的案例會被標記出來,以供人工審查
彙整的統計資料仍可追溯至個別文章和事件
統計資料計算方式
文章層級與事件層級指標
部分統計資料的依據為:
文章層級計數 (例如:媒體報導量)
事件層級計數 (例如:不同的資料外洩或事件的數量)
在適用的情況下,會優先採用事件層級指標,以降低重複計算。
計數與頻率的解讀
「每日事件數」或「每年資料外洩數」等統計資料反映的是已被報導或媒體可觀察到的活動,而非全球總體活動。
由於涵蓋範圍與方法論的差異,供應商遙測資料、政府申訴系統與經濟預測通常呈現明顯較高的數量。相關差異會於適當處加以註明。
限制與注意事項
儘管我們已盡力確保準確性與一致性,資料本身仍存在以下固有限制:
並非所有事件都會被公開揭露或報導
媒體報導程度因地區、產業及事件規模而異
部分來源會限制存取
在邊界情況下,可能會發生分類錯誤
隨著調查進展,經濟損失數據可能有所變動
因此,相關統計資料應視為方向性指標,而非全面性的衡量結果。
來源索引
下方各編號的來源均對應「網路安全統計資料」頁面上使用的上標參考, 上標會直接連結至本頁的相關來源條目。
來源 1 Statista – |
|---|
來源 2 Identity Theft |
來源 3 Identity Theft |
來源 4 Verizon – |
來源 5 IBM – |
來源 6 South Korean |
來源 7 Aflac – June |
來源 8 HIPAA Journal – |
來源 9 California Attorney |
來源 10 Iowa Attorney |
來源 11 Rhode Island |
來源 12 Rhode Island |
來源 13 Aflac Newsroom – |
來源 14 HIPAA Journal – |
來源 15 Office of the |
來源 16 Qantas – Information |
來源 17 Qantas Newsroom – |
來源 18 Michigan Attorney |
來源 19 Maine Attorney |
來源 20 California Attorney |
來源 21 University of |
來源 22 Microsoft Digital |
來源 23 WIRED – NotPetya |
來源 24 Reuters – UnitedHealth |
來源 25 The Guardian – Jaguar |
來源 26 NBC News – |
來源 27 Delaware Department |
來源 28 Cybersecurity |
來源 29 JumpCloud – Phishing |
來源 30 Hornetsecurity – Email |
來源 31 Spearshield – |
來源 32 APWG – Phishing |
來源 33 arXiv – Academic |
來源 34 DeepStrike – Password |
來源 35 NordPass – Top 200 |
來源 36 Financial Times – |
來源 37 SecurityScorecard – |
來源 38 National Technology & |
來源 39 Palo Alto Networks – |
來源 40 IBM – Threat |
來源 41 Tenable – |
來源 42 Cybersecurity |
來源 43 Statista Market |
來源 44 Statista – Cost of |
來源 45 FTC – Consumer |
來源 46 FBI IC3 – 2024 Internet |
來源 47 Kroll – Data Breach |
來源 48 IBM – Cost of a Data |
來源 49 SailPoint – 2024 |
來源 50 DeepStrike – |
來源 51 Proofpoint & |
來源 52 Check Point – |
來源 53 Thales – 2024 |
來源 54 Cyfirma – Energy & |
來源 55 World Economic |
來源 56 DeepStrike – Cyber |
來源 57 Devolutions – State of |
來源 58 TotalAssure – |
來源 59 Cisco – Cybersecurity |
來源 60 IANS Research – |
來源 61 Munich Re – |
來源 62 Gartner – 2025 |
來源 63 Forrester – 2024 |
來源 64 Ivanti – State of |
來源 65 U.S. Department of |
來源 66 U.S. Department of |
來源 67 Google Cloud – |
來源 68 Gartner – Generative AI |
來源 69 Splashtop – Top |
來源 70 ENISA – Threat |