إحصاءات الأمن السيبراني:
المنهجية والمصادر
الغرض من هذه الصفحة
تشرح هذه الصفحة كيفية جمع إحصاءات الأمن السيبراني المعروضة على صفحة إحصاءات الأمن السيبراني الخاصة بنا ومعالجتها وتفسيرها، وتوفر الشفافية الكاملة فيما يتعلق بمصادر البيانات المشار إليها. تعرض صفحة إحصاءات الأمن السيبراني الرئيسية النتائج المُلَّخصة والرؤى البحثية من NordVPN.
مصادر البيانات والإسناد
يتم اكتشاف المصدر عبر واجهة برمجة تطبيقات البحث المُخصَّص من Google (GCS)، باستخدام العديد من محركات البحث المُخصَّصة (CSEs) التي تم تكوينها من أجل:
وسائل الإعلام: 44 مصدرًا إعلاميًا رئيسيًا وتكنولوجيًا (مثل BBC وCNN وThe New York Times وWSJ وFT وReuters وBloomberg وTechCrunch وWired وArs Technica وTime وForbes).
المواقع الموثوقة/المرجعية: 25 مصدرًا من الصناعة والخبراء (على سبيل المثال، CISA، وKrebsOnSecurity، وThe Hacker News، وDark Reading، وBleepingComputer، وSecurityWeek، وInfosecurity Magazine).
الأخبار المحلية: أكثر من 100 وسيلة إعلامية إقليمية ووطنية في جميع أنحاء آسيا والمحيط الهادئ وأوروبا والشرق الأوسط وأفريقيا والأمريكتين (على سبيل المثال، Channel NewsAsia وCSA.gov.sg وZaobao؛ وHK01 وunwire.hk؛ وJapan Times وNISC وJPCERT وITMedia).
غير مُقيَّد/عام.
تستند الاستعلامات إلى الكلمات الرئيسية المُستمَدة من قائمة كلمات رئيسية مُحَّدثة وتم تجميع المصطلحات فيها حسب الفئة.
تتضمن جميع السجلات إسنادًا صريحًا:
رابط المقالة الأصلية
وسيلة إعلام (نطاق مُستخرَج من عنوان URL)
تاريخ النشر وتاريخ الجمع
نجمع المعلومات من العديد من المصادر للإحصاءات وتجميع الأحداث؛ ويتم اشتقاق كل إحصائية من أدلة على مستوى المقالات مُخزَّنة مع روابط.
وتيرة استرجاع المحتوى وجمعه
تسترد محتوى النص الكامل من الروابط المكتشفة باستخدام:
الأساسي: NewsPlease
الاحتياطي: تنزيل HTML مباشر مع جلسة طلبات مُعزَّزة واستخراج trafilatura.
تُستخدم مهلات الانتظار، وإعادات المحاولات، والرجوع إلى بروتوكول TLS، وعناوين الإحالة لتقليل حالات الفشل العابرة.
يؤخذ تاريخ النشر والعنوان من المستخرج عند توفرهما؛ ويتم توحيد تحليل التاريخ ليقتصر على التاريخ فقط.
تستعلم عمليات التشغيل اليومية عن محتوى اليوم الأخير.
استخراج الميزات
تشمل الحقول المُستخرَجة ما يلي:
وسيلة الإعلام (من عنوان URL)
الفقرة الأولى (أول 3-5 جمل)
ميزات الكلمات الرئيسية: العدد الإجمالي في النص، ووجودها في العنوان، والجمل التي تحتوي على الكلمة الرئيسية، ووجود أي كلمات رئيسية من القائمة المحفوظة
عدد الكلمات
تقييم الصلة باستخدام نموذج لغوي كبير (LLM)
تُقيَّم كل مقالة من خلال نموذج لغوي كبير (LLM) مع إعداد حتمي (درجة الحرارة 0) ومطالبة مُقيَّدة تتطلب مخرجات صريحة ومُنظَّمة:
1. ما إذا كانت المقالة ذات صلة بالحدث السيبراني
2. إذا كانت ذات صلة، يتم تعيين نوع حدث عالي المستوى:
الحادث: وقوع فعلي لهجوم سيبراني أو خرق مؤكد (على سبيل المثال، نشر برامج الفدية، تسريب البيانات، هجمات DDoS، اختراق النظام).
الثغرة الأمنية: اكتشاف أو الكشف عن ثغرة أمنية في البرامج/الأجهزة/الأنظمة يمكن استغلالها (خطر محتمل وليس استغلالًا مؤكدًا).
معلومات التهديدات: إعداد تقارير عن الجهات الفاعلة المُهدِّدة، والأدوات، والأساليب والتقنيات والإجراءات، والحملات، مع التركيز على "الجهة/الكيفية"، وليس على حادث بضحايا محددين.
التنظيمي-القانوني: القوانين أو اللوائح أو إجراءات الإنفاذ أو قرارات المحاكم أو التغييرات الرئيسية في السياسات التي تؤثر على التزامات الأمن السيبراني.
نوع المقالة وتصنيفها
يتم تصنيف المقالات ذات الصلة عبر مطالبات تصنيف مُنظَّمة (أساسية: حالة الهجوم، نوع الحدث، تنظيمي/قانوني؛ ثانوية: مقاييس/فئة التأثير، التفاصيل الفنية، القطاعات، الجغرافيا، الحجم، الضرر التقريبي).
تجميع الأحداث (تجميع المقالات إلى أحداث)
الهدف: تجميع المقالات التي تصف الحادث الأساسي نفسه في "حدث" واحد.
الطريقة:
استرجع الأحداث الموجودة من قاعدة البيانات لتوفير السياق (العناوين، والمؤسسات المعروفة المتأثرة، والجهات الفاعلة المُهدِّدة، والروابط).
لكل مقالة مُرشَّحة (حيث نوع المقالة = حادث واحد)، يقارن النموذج اللغوي الكبير (LLM) تفاصيل المقالة بمجموعات من الأحداث الموجودة وإما:
1. يُعيّن مُعرِّف حدث موجود عند وجود تطابق عالي الثقة، أو
2. ينشئ حدثًا جديدًا بخلاف ذلك.
تؤكد المطالبات على الدقة العالية: لا ترتبط بحدث موجود إلا في حالة الثقة الشديدة. يتم التعامل مع المؤسسة (المؤسسات) المتأثرة وإشارات الجهة الفاعلة المُهدِّدة باعتبارها مؤشرات قوية.
تحتفظ الأحداث بحقول مُجمَّعة: تواريخ أول/آخر ظهور، عدد المقالات، المؤسسات المتأثرة، الجهات الفاعلة المُهدِّدة، العناوين، الروابط.
الدقة وضمان الجودة
الحتمية والقيود:
تم ضبط درجة حرارة النموذج اللغوي الكبير (LLM) على 0 لزيادة الحتمية إلى أقصى حد وتقليل الهلوسة.
تتطلب المطالبات المُقيِّدة حقولًا صريحة ومخرجات JSON؛ والتحليل النحوي يفرض المخطط.
يتم رفض المقالات التي لا تشتمل على محتوى (التي تفتقر إلى العنوان/النص) في مرحلة مبكرة.
المقاييس التي يحكمها النموذج اللغوي الكبير والمتحقّق من صحتها وفقًا للمخطط:
يتم إنتاج جميع حقول المقاييس من خلال عمليات تشغيل النموذج اللغوي الكبير (LLM) الحتمية (درجة الحرارة 0) بموجب إرشادات صارمة وموثقة ومخططات JSON؛ ويتم احتساب المخرجات المتوافقة مع المخطط فقط، مع ضمان جودة بشرية دورية للمعايرة ومنع الانحراف.
تصنيف الحدث/المقالة للتصفية الدقيقة:
يعمل تصنيف نوع الحدث وتركيز المقالة كبوابة صارمة للصلاحية تصفي المحتوى خارج الموضوع، أو ذي الإشارة المنخفضة، أو ذي نمط الملخصات. يؤدي هذا التركيز على الإبلاغ عن الحوادث الفردية إلى تقليل الضوضاء وتحسين دقة مجموعة البيانات وموثوقيتها بشكل ملموس.
التحقق من مصادر متعددة:
يشير تجميع الأحداث إلى سياق الحدث المُخزَّن مسبقًا، وتقلل حالات عدم التطابق من فرصة عمليات الدمج غير الصحيحة.
تتضمن التجميعات قائمة روابط المصدر لكل حدث للتحقق اليدوي.
التدخل البشري:
يمكن الإبلاغ عن الحالات ذات التأثير الكبير أو الغامضة لإخضاعها للمراجعة التحريرية والتحقق من صحة المعلومات.
مراجعات ضمان الجودة المنتظمة: يتم تدقيق عينات من المقالات والأحداث على أساس شهري، مع مراجعة دقيقة، ويؤدي أي انحراف إلى تعديلات على المطالبات/النماذج أو الكلمات الرئيسية.
إمكانية التتبع:
يمكن تتبع كل إحصائية إلى المقالات والروابط الموجودة في قاعدة البيانات لضمان قابلية التدقيق.
القيود
حدود التغطية:
يعتمد الاكتشاف القائم على GCS على الكلمات الرئيسية وتكوين محرك البحث المخصص (CSE)؛ ولا يتم تسجيل جميع الحوادث، خاصة خارج اللغات التي تم تكوينها أو المحتوى المحمي بجدار الدفع.
تحظر بعض المواقع الاسترجاع الآلي، وقد تكون هذه المقالات مفقودة جزئيًا أو كليًا.
المخاطر الخاصة بالنموذج اللغوي الكبير:
رغم الإعدادات الحتمية والمطالبات المُنظَّمة، فقد يحدث سوء تصنيف، لا سيما مع النصوص المتناثرة أو الغامضة.
قد يؤدي تجميع الأحداث إلى تقسيم الحادث نفسه إلى أحداث متعددة أو دمج حوادث متشابهة لكن منفصلة في الحالات الاستثنائية.
كيفية حساب الإحصاءات
يتم اشتقاق الحقول على مستوى المقالة من الاستخراج المباشر ومخرجات النموذج اللغوي الكبير (LLM) (المُخزَّنة لكل سجل).
تجمع المقاييس على مستوى الحدث المقالات المُكوِّنة حسب event_id:
عدد المقالات، تواريخ أول/آخر ظهور
المؤسسات المتأثرة والجهات الفاعلة المُهدِّدة بعد إزالة التكرار
العناوين التمثيلية وقوائم الروابط القياسية
يتم استخلاص إحصاءات التقارير من هذه الجداول المُخزَّنة؛ ويمكن تتبع كل رقم إلى صفوف الأحداث وسجلات المقالات الأساسية.
نطاق البيانات
الإحصاءات والرؤى المشار إليها في محتوى الأمن السيبراني لدينا مُستمَّدة من مزيج مما يلي:
تقارير حوادث الأمن السيبراني المتاحة للجمهور
التغطية الإعلامية للحوادث السيبرانية المُؤكدَة
تقارير الصناعة واستطلاعاتها
الإفصاحات الحكومية والتنظيمية
تعكس البيانات النشاط الذي يمكن ملاحظته والإبلاغ عنه علنًا، وليس النطاق الكامل لجميع الحوادث السيبرانية التي تحدث على مستوى العالم. لا يتم مطلقًا الكشف عن العديد من الحوادث السيبرانية أو الإبلاغ عنها أو تغطيتها من قبل وسائل الإعلام.
مصادر البيانات واكتشافها
أنواع المصادر
يتم جمع المقالات والتقارير المتعلقة بالأمن السيبراني من فئات مصادر متعددة، بما في ذلك:
وسائل الإعلام الرئيسية والتقنية.
ومن الأمثلة على ذلك المؤسسات الإخبارية الدولية الكبرى والمنشورات التكنولوجية.مصادر موثوقة وخبيرة في مجال الأمن السيبراني.
بما في ذلك الهيئات الحكومية ومنظمات أبحاث الأمن السيبراني والمنشورات المعروفة في المجال.وسائل الإعلام الإخبارية الإقليمية والمحلية.
تغطي حوادث الأمن السيبراني في جميع أنحاء أمريكا الشمالية وأوروبا وآسيا والمحيط الهادئ ومناطق أخرى.تقارير الصناعة والأبحاث.
بما في ذلك التقارير السنوية عن الخروقات وتقارير مشهد التهديدات والاستطلاعات والتحليلات الاقتصادية.
يتم ذكر كل مصدر على مستوى المقالة أو التقرير، مع الحفاظ على تاريخ النشر ووسيلة الإعلام وعنوان URL الأصلي.
عملية الاكتشاف
يتم اكتشاف المحتوى باستخدام استعلامات بحث آلية تستند إلى قائمة كلمات رئيسية مُحدَّثة باستمرار للأمن السيبراني. يتم تجميع الكلمات الرئيسية حسب الموضوع (على سبيل المثال: خروقات البيانات، وبرامج الفدية، والتصيد الاحتيالي، ونقاط الضعف، والتنظيم).
يتم إجراء عمليات البحث يوميًا لاكتشاف المحتوى المنشور حديثًا. تستعلم كل عملية تشغيل عن المواد الحديثة فقط، ما يضمن أن مجموعة البيانات تعكس التقارير الحالية.
جمع المحتوى ومعالجته
استرجاع المقالات
بمجرد اكتشاف مصدر ما، يتم استرجاع نص المقالة بالكامل باستخدام أدوات الاستخراج الآلية. في حالة فشل الاستخراج الأساسي، يتم استخدام طرق احتياطية لضمان تغطية قوية.
إزالة التكرار
لتجنب العد المُزدوَج:
لا تتم معالجة عناوين URL المتطابقة سوى مرة واحدة
تتم إزالة تكرار المحتوى المُعاد نشره أو المُوزَّع على مستوى المقالة
يقلل التجميع على مستوى الحدث (الموضح أدناه) بشكل أكبر من التكرار عبر وسائل الإعلام
تصفية الصلة وتصنيفها
تقييم الصلة بالأمن السيبراني
يتم تقييم كل مقالة لتحديد ما إذا كانت ذات صلة بإحصاءات الأمن السيبراني. يجب أن تصف المقالات أو تحلل بشكل هادف حدثًا أو تهديدًا أو ثغرة أمنية أو إجراءً تنظيميًا يتعلق بالأمن السيبراني.
تصنيف نوع الحدث
يتم تصنيف المقالات ذات الصلة إلى فئات عالية المستوى، تشمل ما يلي:
الحادث – هجوم سيبراني مُؤكَّد أو خرق وقع بالفعل
الثغرة الأمنية – الكشف عن نقطة ضعف أمنية يمكن استغلالها
معلومات التهديدات – الإبلاغ عن الجهات الفاعلة المُهدِّدة أو الأدوات أو الحملات أو الأساليب
التنظيمي / القانوني – القوانين أو إجراءات الإنفاذ أو تغييرات السياسة أو الإجراءات القانونية المتعلقة بالأمن السيبراني
يضمن هذا التصنيف عدم الخلط بين الإحصاءات التي تشير إلى "الحوادث" أو "الخروقات" أو "الهجمات" وبين الإفصاحات عن الثغرات الأمنية أو التعليقات العامة.
تجميع الأحداث (تجميع المقالات إلى أحداث)
غالبًا ما تنقل مقالات متعددة الحادث السيبراني الأساسي ذاته. لمنع الإفراط في العد:
يتم تجميع المقالات التي تصف الحادث نفسه في حدث واحد
يتم تعيين مُعرَّفات داخلية ثابتة للأحداث
لا يتم ربط المقالات بالأحداث الحالية إلا عندما يكون هناك ثقة عالية في أنها تصف الحدث ذاته
تشمل المؤشرات المُستخدَمة للتجميع المؤسسات المتأثرة، والجهات الفاعلة المُهدِّدة، والجداول الزمنية، وأوصاف الحوادث.
تحتفظ السجلات على مستوى الحدث بما يلي:
تواريخ الظهور الأولى والأخيرة
عدد المقالات ذات الصلة
المؤسسات المتأثرة
الجهات الفاعلة المُهدِّدة المشار إليها
روابط المصدر للتحقق
استخدام التحليل الآلي وضوابط الجودة
التصنيف الآلي
يُستخدَم تحليل نموذج اللغة المُنظَّم والحتمي للتصنيف والاستخراج والتجميع. وتتبع جميع المخرجات الآلية مخططات مُحدَّدة مسبقًا لضمان الاتساق.
تعمل النماذج بإعدادات حتمية لتقليل التباين ومخاطر الهلوسة.
ضمان الجودة
لضمان الدقة:
يضمن التحقق من صحة المخطط احتساب المخرجات المنظمة بشكل صحيح فقط
يتم إجراء أخذ العينات والمراجعات الشهرية المنتظمة، بما في ذلك مراجعة الدقة، للكشف عن أي انحراف في التصنيف. تحدد هذه المراجعة التغيرات في التصنيف، التي بدورها توفر المعلومات اللازمة وضروريات إجراء التعديلات على النموذج.
يتم وضع علامة على الحالات الغامضة أو عالية التأثير للمراجعة البشرية
تحتفظ الإحصاءات المُجمَّعة بإمكانية تتبع المقالات والأحداث الفردية
كيفية حساب الإحصاءات
مقارنة بين المقاييس على مستوى المقالة والمقاييس على مستوى الحدث
تستند بعض الإحصاءات إلى:
أعداد على مستوى المقالات (مثل حجم التغطية الإعلامية)
أعداد على مستوى الأحداث (مثل عدد الخروقات أو الحوادث المتميزة)
حيثما أمكن، يُفضل استخدام المقاييس على مستوى الحدث لتقليل التكرار.
تفسير الأعداد والتكرارات
تمثل الإحصاءات مثل "الحوادث في اليوم" أو "الخروقات في السنة" النشاط المبلغ عنه أو الظاهر في وسائل الإعلام، وليس النشاط العالمي الإجمالي.
غالبًا ما تُسجل بيانات القياس عن بُعد الخاصة بالموردين، وأنظمة الشكاوى الحكومية، والتوقعات الاقتصادية أحجامًا أعلى بكثير بسبب الاختلافات في النطاق والمنهجية. وتتم الإشارة إلى هذه الاختلافات عند الاقتضاء.
القيود والاعتبارات
رغم الحرص على ضمان الدقة والاتساق، فإن البيانات لها قيود متأصلة:
لا يتم الكشف عن جميع الحوادث أو الإبلاغ عنها علنًا
تختلف التغطية الإعلامية حسب المنطقة والقطاع وحجم الحادث
تقيّد بعض المصادر الوصول
قد تحدث أخطاء في التصنيف في حالات استثنائية
قد تتغير أرقام الخسائر الاقتصادية مع تقدم التحقيقات
لذلك ينبغي تفسير الإحصاءات على أنها مؤشرات توجيهية، وليست قياسات شاملة.
فهرس المصادر
يتوافق كل مصدر مُرقَّم أدناه مع مرجع علوي مُستخدَم في صفحة إحصاءات الأمن السيبراني. ترتبط النصوص العلوية مباشرة بإدخال المصدر ذي الصلة في هذه الصفحة.
المصدر 1 Statista – |
|---|
المصدر 2 Identity Theft |
المصدر 3 Identity Theft |
المصدر 4 Verizon – |
المصدر 5 IBM – |
المصدر 6 South Korean |
المصدر 7 Aflac – June |
المصدر 8 HIPAA Journal – |
المصدر 9 California Attorney |
المصدر 10 Iowa Attorney |
المصدر 11 Rhode Island |
المصدر 12 Rhode Island |
المصدر 13 Aflac Newsroom – |
المصدر 14 HIPAA Journal – |
المصدر 15 Office of the |
المصدر 16 Qantas – Information |
المصدر 17 Qantas Newsroom – |
المصدر 18 Michigan Attorney |
المصدر 19 Maine Attorney |
المصدر 20 California Attorney |
المصدر 21 University of |
المصدر 22 Microsoft Digital |
المصدر 23 WIRED – NotPetya |
المصدر 24 Reuters – UnitedHealth |
المصدر 25 The Guardian – Jaguar |
المصدر 26 NBC News – |
المصدر 27 Delaware Department |
المصدر 28 Cybersecurity |
المصدر 29 JumpCloud – Phishing |
المصدر 30 Hornetsecurity – Email |
المصدر 31 Spearshield – |
المصدر 32 APWG – Phishing |
المصدر 33 arXiv – Academic |
المصدر 34 DeepStrike – Password |
المصدر 35 NordPass – Top 200 |
المصدر 36 Financial Times – |
المصدر 37 SecurityScorecard – |
المصدر 38 National Technology & |
المصدر 39 Palo Alto Networks – |
المصدر 40 IBM – Threat |
المصدر 41 Tenable – |
المصدر 42 Cybersecurity |
المصدر 43 Statista Market |
المصدر 44 Statista – Cost of |
المصدر 45 FTC – Consumer |
المصدر 46 FBI IC3 – 2024 Internet |
المصدر 47 Kroll – Data Breach |
المصدر 48 IBM – Cost of a Data |
المصدر 49 SailPoint – 2024 |
المصدر 50 DeepStrike – |
المصدر 51 Proofpoint & |
المصدر 52 Check Point – |
المصدر 53 Thales – 2024 |
المصدر 54 Cyfirma – Energy & |
المصدر 55 World Economic |
المصدر 56 DeepStrike – Cyber |
المصدر 57 Devolutions – State of |
المصدر 58 TotalAssure – |
المصدر 59 Cisco – Cybersecurity |
المصدر 60 IANS Research – |
المصدر 61 Munich Re – |
المصدر 62 Gartner – 2025 |
المصدر 63 Forrester – 2024 |
المصدر 64 Ivanti – State of |
المصدر 65 U.S. Department of |
المصدر 66 U.S. Department of |
المصدر 67 Google Cloud – |
المصدر 68 Gartner – Generative AI |
المصدر 69 Splashtop – Top |
المصدر 70 ENISA – Threat |