סטטיסטיקה על אבטחת סייבר:
מתודולוגיה ומקורות
מטרת דף זה
דף זה מסביר כיצד הסטטיסטיקה על אבטחת סייבר המוצגת בדף 'סטטיסטיקה על אבטחת סייבר' נאספת, מעובדת ומתפרשת, ומספק שקיפות מלאה בנוגע למקורות הנתונים המוזכרים. דף הנתונים הסטטיסטיים העיקרי בנושא אבטחת סייבר מציג ממצאים מסוכמים ותובנות ממחקר של NordVPN.
מקורות מידע וייחוס
איתור המקור מתבצע באמצעות Google Custom Search API (GCS), תוך שימוש במנועי חיפוש מותאמים אישית (CSE) מרובים המוגדרים עבור:
כלי תקשורת: 44 מקורות תקשורת מרכזיים ומקורות בתחום הטכנולוגיה (למשל, BBC, CNN, The New York Times, WSJ, FT, Reuters, Bloomberg, TechCrunch, Wired, Ars Technica, Time, Forbes).
אתרי סמכות/הפניה: 25 מקורות בתעשייה ומומחים (למשל, CISA, KrebsOnSecurity, The Hacker News, Dark Reading, BleepingComputer, SecurityWeek, Infosecurity Magazine).
חדשות מקומיות: יותר מ־100 גופי תקשורת אזוריים וארציים ברחבי אסיה־פסיפיק, אירופה, המזרח התיכון ואפריקה, וכן האמריקות (למשל Channel NewsAsia, CSA.gov.sg, Zaobao; HK01, unwire.hk; Japan Times, NISC, JPCERT, ITMedia).
ללא הגבלה/כללי.
השאילתות מבוססות על מילות מפתח מתוך רשימת מילות מפתח מתוחזקת, המקבצת מונחים לפי קטגוריות.
כל הרשומות כוללות ייחוס מפורש:
קישור למאמר המקורי
כלי תקשורת (דומיין שהופק מכתובת ה-URL)
תאריך פרסום ותאריך איסוף
אנחנו מסנתזים מידע ממקורות רבים לצורך סטטיסטיקות וצבירת מידע לאירועים; כל נתון סטטיסטי נגזר מראיות ברמת המאמר שנשמרות יחד עם קישורים.
אחזור תוכן ותדירות איסוף
מאחזר תוכן מלא מקישורים שהתגלו באמצעות:
ראשי: NewsPlease
פתרון חלופי: הורדת HTML ישירה עם פעילות בקשות מאובטחת וחילוץ trafilatura.
נעשה שימוש במנגנוני timeout, ניסיונות חוזרים, במנגנוני TLS חלופיים ובכותרות referer כדי לצמצם כשלים זמניים.
תאריך הפרסום והכותרת נלקחים ממנגנון החילוץ כאשר הם זמינים; תאריך הניתוח מנורמל לתאריך בלבד.
הרצות יומיות מבצעות שאילתה עבור התוכן של היום האחרון.
חילוץ תכונות
השדות שחולצו כוללים:
כלי תקשורת (מכתובת URL)
פסקה ראשונה (3–5 המשפטים הראשונים)
מאפייני מילות מפתח: מספר כולל בטקסט, נוכחות בכותרת, משפטים המכילים את מילת המפתח הראשית, ונוכחות של כל מילות מפתח מהרשימה המתוחזקת
ספירת מילים
הערכת רלוונטיות ל-LLM
כל מאמר מוערך על ידי מודל שפה גדול (LLM) עם הגדרה דטרמיניסטית (טמפרטורה 0) והנחיה מוגבלת הדורשת פלט מפורש ומובנה:
1. האם המאמר קשור לאירוע סייבר
2. אם יש קשר, מוקצה סיווג כללי לאירוע:
תקרית: מתקפת סייבר או פריצה שאומתה כבר התרחשה (למשל, הפעלת תוכנת כופר, חילוץ נתונים, DDoS, פגיעה במערכת).
נקודת תורפה: גילוי או חשיפה של פגם אבטחה בתוכנה/חומרה/מערכות שניתן לנצל לרעה (סיכון פוטנציאלי ולא ניצול מאומת).
מודיעין איומים: דיווח על גורמי איום, כלים, TTP וקמפיינים — מתמקד ב"מי/איך", ולא בתקרית עם קורבן ספציפי.
רגולציה ומשפט: חוקים, תקנות, פעולות אכיפה, החלטות בית משפט או שינויים משמעותיים במדיניות המשפיעים על חובות אבטחת הסייבר.
סיווג המאמר לפי סוג וקטגוריה
מאמרים רלוונטיים מסווגים באמצעות הנחיות טקסונומיה מובנות (ראשי: מצב התקפה, סוג אירוע, רגולטורי/משפטי; משני: מדדי/סוגי השפעה, פרטים טכניים, מגזרים, גיאוגרפיה, גודל, נזק משוער).
איגוד אירועים (צבירת מאמרים לכל אירוע)
מטרה: לקבץ מאמרים המתארים את אותו אירוע מרכזי ל"אירוע" אחד.
שיטה:
אחזור אירועים קיימים ממאגר הנתונים כדי לספק הקשר (כותרות, ארגונים ידועים שנפגעו, גורמי איום, קישורים).
עבור כל מאמר מועמד (שבו סוג המאמר = אירוע בודד), ה-LLM משווה את פרטי המאמר למקבצים של אירועים קיימים, ואז מבצע אחת מהפעולות הבאות:
1. מקצה קוד זיהוי של אירוע קיים כאשר יש התאמה עם רמת אמינות גבוהה, או
2. יוצר אירוע חדש במקרה שאין התאמה.
ההנחיות מדגישות דיוק גבוה: יש לקשר לאירוע קיים רק כאשר יש רמת אמינות גבוהה. ארגונים שנפגעו וסימנים של גורמי איום נחשבים כאינדיקטורים חזקים.
לאירועים יש שדות מצטברים: תאריכי התצפית הראשונה/האחרונה, מספר המאמרים, הארגונים שנפגעו, גורמי האיום, הכותרות, הקישורים.
דיוק ואבטחת איכות
דטרמיניזם ואילוצים:
טמפרטורת ה-LLM מוגדרת ל-0 כדי למקסם את הדטרמיניזם ולהפחית את ההזיות של הבינה המלאכותית.
פרומפטים עם הגבלות דורשים שדות מפורשים ופלט בפורמט JSON; תהליך הניתוח אוכף עמידה בסכמה.
מאמרים ללא תוכן (כותרת/טקסט חסרים) נדחים בשלב מוקדם.
מדדים שמנוהלים על ידי LLM ומאומתים לפי סכמה:
כל שדות המדדים מופקים באמצעות הרצות דטרמיניסטיות של LLM (טמפרטורה 0) תחת הנחיות קפדניות ומתועדות וסכמות JSON; רק פלטים שתואמים לסכמה נספרים, לצד בקרת איכות אנושית תקופתית לצורך כיול ומניעת סטיות.
סיווג אירועים/מאמרים לצורך סינון מדויק:
סיווג סוג האירוע ומיקוד הכתבה משמשים כשער סינון קפדני, שמסנן תוכן שאינו קשור לנושא, בעל ערך מידע נמוך או כתבות בסגנון סיכום. ההתמקדות בדיווח על אירוע בודד מפחיתה רעש ומשפרת באופן ניכר את הדיוק והאיכות של מערך הנתונים.
אימות ממקורות מרובים:
איגוד אירועים מתייחס להקשר האירוע שנשמר בעבר; אי-התאמות מפחיתות את הסיכוי למיזוגים שגויים.
המידע המצורף כולל רשימת קישורים למקור עבור כל אירוע לצורך אימות ידני.
מעורבות אנושית:
מקרים בעלי השפעה גבוהה או מקרים מעורפלים ניתן לסמן לבדיקת עריכה ולאימות עובדות.
בדיקות אבטחת איכות באופן שוטף: מאמרים ואירועים שנדגמים נבדקים בתדירות חודשית תוך ביקורת דיוק; כל סטייה שמתגלה מובילה להתאמות מהירות בפרומפט, במודל או במילות המפתח.
יכולת מעקב:
ניתן לאתר את מקורן של כל הנתונים הסטטיסטיים במאמרים ובקישורים הכלולים במאגר הנתונים לצורך ביקורת.
מגבלות
מגבלות כיסוי:
גילוי מבוסס GCS תלוי במילות מפתח ובתצורת CSE; לא כל האירועים נלכדים, במיוחד מחוץ לשפות שהוגדרו או תוכן מאחורי חומות תשלום.
אתרים מסוימים חוסמים אחזור אוטומטי; מאמרים כאלה עשויים להיות חסרים באופן חלקי או מלא.
סיכונים ספציפיים ל-LLM:
למרות הגדרות דטרמיניסטיות והנחיות מובנות, עלולות להתרחש טעויות סיווג, במיוחד עם טקסטים דלים או עמומים.
איגוד אירועים עשוי לפצל את אותו האירוע למספר אירועים, או למזג אירועים דומים אך נפרדים במקרים קיצוניים.
כיצד הנתונים הסטטיסטיים מחושבים
שדות ברמת המאמר נגזרים מחילוץ ישיר ומפלטי LLM (מאוחסנים לכל רשומה).
מדדים ברמת האירוע צוברים מאמרים מרכיבים לפי event_id:
ספירות מאמרים, תאריכי הופעה ראשונה/אחרונה
ארגונים שהושפעו לאחר הסרת כפילויות וגורמי איום
כותרות מייצגות ורשימות קישורים קנוניות
נתוני הדוחות נשלפים מהטבלאות השמורות הללו; ניתן לעקוב אחרי כל נתון חזרה לשורות האירועים ולרשומות המאמריםשעליהן הוא מבוסס.
היקף הנתונים
הסטטיסטיקות והתובנות שמופיעות בתוכן הסייבר שלנו נגזרות משילוב של:
דיווחים על אירועי אבטחת סייבר הזמינים לציבור
סיקור תקשורתי של אירועי סייבר מאומתים
דוחות וסקרים מהתעשייה
גילויים ממשלתיים ורגולטוריים
הנתונים משקפים פעילות הניתנת לצפייה ומדווחת באופן ציבורי, ולא את כלל אירועי הסייבר שמתרחשים ברחבי העולם. אירועי סייבר רבים לעולם אינם נחשפים, מדווחים או מקבלים סיקור בתקשורת.
מקורות נתונים וגילוי
סוגי מקורות
מאמרים ודוחות הקשורים לאבטחת סייבר נאספים ממגוון קטגוריות של מקורות, ביניהן:
תקשורת המיינסטרים ובתחום הטכנולוגיה.
דוגמאות לכך כוללות ארגוני חדשות בינלאומיים גדולים ופרסומי טכנולוגיה.מקורות סמכותיים ומומחים בתחום אבטחת הסייבר.
כולל סוכנויות ממשלתיות, ארגוני מחקר בתחום אבטחת הסייבר ופרסומים מבוססים בתעשייה.אמצעי תקשורת אזוריים ומקומיים.
סיקור אירועי אבטחת סייבר ברחבי צפון אמריקה, אירופה, אסיה-פסיפיק ואזורים נוספים.דוחות תעשייה ומחקר.
כולל דוחות פריצה שנתיים, דוחות על נוף האיומים, סקרים וניתוחים כלכליים.
כל מקור מצוין ברמת המאמר או הדוח, תוך שמירה על תאריך הפרסום, אמצעי התקשורת וכתובת ה-URL המקורית.
תהליך הגילוי
גילוי תוכן מתבצע באמצעות שאילתות חיפוש אוטומטיות המבוססות על רשימת מילות מפתח בתחום אבטחת הסייבר המתעדכנת באופן שוטף. מילות המפתח מקובצות לפי נושא (לדוגמה: פריצות נתונים, תוכנות כופר, פישינג, נקודות תורפה, רגולציה).
החיפושים מבוצעים על בסיס יומי כדי לאסוף תוכן שפורסם לאחרונה. בכל הרצה מבוצע חיפוש בחומר עדכני בלבד, כדי להבטיח שמערך הנתונים ישקף את הדיווחים העדכניים.
איסוף ועיבוד תוכן
אחזור מאמרים
ברגע שמתגלה מקור, הטקסט המלא של המאמר נשלף באמצעות כלי חילוץ אוטומטיים. במקרים בהם החילוץ הראשי נכשל, נעשה שימוש בשיטות גיבוי כדי להבטיח כיסוי איתן.
הסרת כפילויות
כדי למנוע ספירה כפולה:
כתובות URL זהות מעובדות פעם אחת בלבד
תוכן שפורסם מחדש או מאוגד עובר הסרת כפילויות ברמת המאמר
צבירה ברמת האירוע (המתואר להלן) מצמצם עוד יותר את הכפילויות בין הערוצים
סינון וסיווג לפי רלוונטיות
הערכת רלוונטיות לאבטחת סייבר
כל מאמר עובר הערכה כדי לקבוע אם הוא רלוונטי לסטטיסטיקות של אבטחת סייבר. המאמרים חייבים לתאר או לנתח באופן משמעותי אירוע, איום, נקודת תורפה או פעולה רגולטורית הקשורים לאבטחת סייבר.
סיווג לפי סוג האירוע
המאמרים הרלוונטיים מסווגים לקטגוריות כלליות, ביניהן:
אירוע – מתקפת סייבר או פרצת אבטחה מאומתת שכבר התרחשה
נקודת תורפה – חשיפת חולשה באבטחה שניתן לנצל
מודיעין איומים – דיווח על גורמי איום, כלים, קמפיינים או טכניקות
רגולטורי / משפטי – חוקים, פעולות אכיפה, שינויים במדיניות או הליכים משפטיים הקשורים לאבטחת סייבר
סיווג זה מבטיח כי נתונים סטטיסטיים המתייחסים ל"אירועים", "פריצות" או "מתקפות" לא יתערבבו עם גילויים של נקודות תורפה או הערות כלליות.
איגוד אירועים (צבירת מאמרים לכל אירוע)
לעתים קרובות, מספר מאמרים מדווחים על אותו אירוע סייבר מרכזי. כדי למנוע ספירה כפולה:
מאמרים המתארים את אותה התקרית מקובצים תחת אירוע אחד
לכל אירוע מוקצה קוד זיהוי פנימי וקבוע
מאמרים מקושרים לאירועים קיימים רק כאשר קיימת סבירות גבוהה שהם מתארים את אותו האירוע
האינדיקטורים המשמשים לצורך איגוד כוללים ארגונים שנפגעו, גורמי איום, צירי זמן ותיאורי אירועים.
רשומות ברמת האירוע שומרות על:
תאריכי הופעה ראשונים ואחרונים
מספר המאמרים הקשורים
ארגונים שהושפעו
גורמי איום מוזכרים
קישורי מקור לאימות
שימוש בניתוח אוטומטי ובבקרות איכות
סיווג אוטומטי
ניתוח ממודל שפה מובנה ודטרמיניסטי משמש לסיווג, לחילוץ ולצבירה. כל הפלטים האוטומטיים פועלים לפי סכמות מוגדרות מראש כדי להבטיח עקביות.
המודלים פועלים עם הגדרות דטרמיניסטיות כדי להפחית את השונות ואת הסיכון להזיות.
אבטחת איכות
כדי לשמור על הדיוק:
אימות סכמה מבטיח שרק פלטים מובנים כראוי יוספו לספירה
מתבצעים נהלי דגימה וסקירה חודשיים קבועים, כולל בדיקת דיוק, על מנת לזהות סטייה בסיווג. הסקירה הזו מזהה שינויים בסיווג, ובהתאם לכך מנחה ומחייבת התאמות למודל.
מקרים לא ברורים או בעלי השפעה גבוהה מסומנים לבדיקה אנושית
נתונים סטטיסטיים מצטברים שומרים על האפשרות לעקוב אחר מאמרים ואירועים בודדים
כיצד מחושבים הנתונים הסטטיסטיים
מדדים ברמת המאמר לעומת מדדים ברמת האירוע
חלק מהנתונים הסטטיסטיים מבוססים על:
ספירות ברמת המאמר (למשל, היקף הסיקור התקשורתי)
ספירות ברמת האירוע (למשל, מספר הפריצות או אירועים נפרדים)
במידת האפשר, עדיף להשתמש במדדים ברמת האירוע כדי לצמצם כפילויות.
פרשנות של ספירות ותדירויות
נתונים סטטיסטיים כגון "אירועים ליום" או "פריצות לשנה" מייצגים פעילות מדווחת או גלוייה בתקשורת, ולא פעילות גלובלית כוללת.
טלמטריה של ספקים, מערכות תלונות ממשלתיות ותחזיות כלכליות מדווחות לעיתים קרובות על נפחים גבוהים משמעותית בשל הבדלים בהיקף ובמתודולוגיה. הבדלים אלה מצוינים במקומות הרלוונטיים.
מגבלות ושיקולים
למרות שנעשה מאמץ להבטיח דיוק ועקביות, לנתונים יש מגבלות מובנות:
לא כל האירועים נחשפים או מדווחים לציבור
הסיקור התקשורתי משתנה בהתאם לאזור, למגזר ולהיקף האירוע
מקורות מסוימים מגבילים את הגישה
במקרים קיצוניים עלולות להתרחש שגיאות סיווג
נתוני ההפסדים הכלכליים עשויים להשתנות עם התקדמות החקירות
לפיכך, יש לפרש את הנתונים הסטטיסטיים כאינדיקטורים כיווניים, ולא כמדדים ממצים.
אינדקס מקורות
כל מקור ממוספר למטה תואם להפניה בכתב עילי המשמשת בדף 'סטטיסטיקה על אבטחת סייבר'. הסימונים של הכתב העילי מקשרים ישירות לרשומת המקור הרלוונטית בדף זה.
מקור 1 Statista – |
|---|
מקור 2 Identity Theft |
מקור 3 Identity Theft |
מקור 4 Verizon – |
מקור 5 IBM – |
מקור 6 South Korean |
מקור 7 Aflac – June |
מקור 8 HIPAA Journal – |
מקור 9 California Attorney |
מקור 10 Iowa Attorney |
מקור 11 Rhode Island |
מקור 12 Rhode Island |
מקור 13 Aflac Newsroom – |
מקור 14 HIPAA Journal – |
מקור 15 Office of the |
מקור 16 Qantas – Information |
מקור 17 Qantas Newsroom – |
מקור 18 Michigan Attorney |
מקור 19 Maine Attorney |
מקור 20 California Attorney |
מקור 21 University of |
מקור 22 Microsoft Digital |
מקור 23 WIRED – NotPetya |
מקור 24 Reuters – UnitedHealth |
מקור 25 The Guardian – Jaguar |
מקור 26 NBC News – |
מקור 27 Delaware Department |
מקור 28 Cybersecurity |
מקור 29 JumpCloud – Phishing |
מקור 30 Hornetsecurity – Email |
מקור 31 Spearshield – |
מקור 32 APWG – Phishing |
מקור 33 arXiv – Academic |
מקור 34 DeepStrike – Password |
מקור 35 NordPass – Top 200 |
מקור 36 Financial Times – |
מקור 37 SecurityScorecard – |
מקור 38 National Technology & |
מקור 39 Palo Alto Networks – |
מקור 40 IBM – Threat |
מקור 41 Tenable – |
מקור 42 Cybersecurity |
מקור 43 Statista Market |
מקור 44 Statista – Cost of |
מקור 45 FTC – Consumer |
מקור 46 FBI IC3 – 2024 Internet |
מקור 47 Kroll – Data Breach |
מקור 48 IBM – Cost of a Data |
מקור 49 SailPoint – 2024 |
מקור 50 DeepStrike – |
מקור 51 Proofpoint & |
מקור 52 Check Point – |
מקור 53 Thales – 2024 |
מקור 54 Cyfirma – Energy & |
מקור 55 World Economic |
מקור 56 DeepStrike – Cyber |
מקור 57 Devolutions – State of |
מקור 58 TotalAssure – |
מקור 59 Cisco – Cybersecurity |
מקור 60 IANS Research – |
מקור 61 Munich Re – |
מקור 62 Gartner – 2025 |
מקור 63 Forrester – 2024 |
מקור 64 Ivanti – State of |
מקור 65 U.S. Department of |
מקור 66 U.S. Department of |
מקור 67 Google Cloud – |
מקור 68 Gartner – Generative AI |
מקור 69 Splashtop – Top |
מקור 70 ENISA – Threat |