Le problème avec la définition actuelle
Le secteur de la cybersécurité a longtemps défini les différentes générations d’antivirus en fonction de leur capacité à détecter les fichiers malveillants. Les premiers outils comparaient les fichiers à des signatures d’attaque connues. Les générations suivantes ont ajouté des méthodes d’analyse heuristique, l’analyse comportementale, l’exécution en environnement isolé et la classification par apprentissage automatique.
Chaque génération de logiciels cherchait à répondre à la même question : ce fichier est-il sûr ? Cependant, le paysage des menaces a changé. Aujourd’hui, la majorité des attaques ne repose plus sur un fichier malveillant, mais recouvre des techniques variées telles que le phishing, différentes formes d’arnaques, l’usurpation d’identité ou encore l’ingénierie sociale. La définition actuelle du mot « antivirus » n’a pas suivi cette évolution.
Définition de l'antivirus
Un antivirus est un logiciel de cybersécurité conçu pour prévenir, détecter et supprimer les virus sur les ordinateurs. Les antivirus surveillent les programmes afin de repérer des comportements inhabituels, analysent les nouveaux fichiers par rapport à des bases de données de logiciels malveillants connus et isolent les menaces avant qu’elles ne causent des dégâts.
Les virus détrônés par d’autres types de menaces
Aujourd’hui, les risques les plus courants en ligne n’impliquent pas forcément un virus ou un fichier malveillant, mais se déclinent sous différentes formes :
- Les arnaques ont largement gagné en sophistication et reposent désormais largement sur la manipulation psychologique. Des sites frauduleux affichent des pages produits crédibles, de faux avis clients et des parcours de paiement parfaitement fonctionnels pour dérober les informations bancaires des victimes. Des SMS d’arnaque se font passer pour des services de livraison, l’administration fiscale ou des établissements bancaires. Les arnaques téléphoniques, aussi appelées vishing, s’appuient sur l’usurpation du numéro appelant et sur des voix générées par intelligence artificielle pour soutirer de l’argent et des données personnelles. Dans tous ces cas, aucun fichier malveillant n’est nécessaire pour piéger la victime.
- Le phishing a lui aussi changé d’échelle. Il ne ressemble plus aux messages maladroits et faciles à repérer d’il y a quelques années. Les pages frauduleuses d’aujourd’hui imitent presque à la perfection des sites légitimes, et sont souvent hébergées sur des domaines compromis disposant de certificats SSL valides. Leur but est de voler des identifiants, des jetons de session, des codes d’authentification multifacteur et des données personnelles pouvant servir à récupérer l’accès à des comptes.
- L’usurpation d’identité représente une préoccupation de sécurité majeure. Des attaquants peuvent obtenir un accès non autorisé à des comptes en réutilisant massivement des identifiants volés, en détournant des sessions actives, mais aussi via des attaques de SIM swapping ou des techniques sophistiquées d’ingénierie sociale. Une fois l’accès obtenu, ils peuvent exclure le titulaire légitime du compte et en prendre le contrôle. Les données personnelles dérobées peuvent également servir à ouvrir de nouvelles lignes de crédit ou à commettre des fraudes au nom de la victime.
- Bien entendu, les logiciels malveillants et autres fichiers dangereux restent une menace majeure. Les téléchargements et ce qui s’exécute sur les appareils doivent toujours être analysés et contrôlés. Néanmoins, les fichiers ne sont plus aujourd’hui que l’un des nombreux vecteurs utilisés par les cybercriminels.
En d’autres termes, un outil de protection numérique qui se limite à détecter les fichiers malveillants passe à côté d’une grande partie des menaces auxquelles les utilisateurs sont réellement confrontés.
Repenser la définition de l’antivirus
Le terme « antivirus » nous vient d'une époque où les fichiers malveillants représentaient la principale menace numérique. Des décennies de marketing menées par les acteurs historiques de la cybersécurité ont fait du terme « antivirus » un nom générique pour désigner tout logiciel de sécurité, un peu comme « Frigidaire » désigne aujourd'hui n'importe quel réfrigérateur ou « Sopalin » n’importe quel essuie-tout. Cette association est ancrée pour de bon.
C'est l'industrie de la cybersécurité d'entreprise qui a, la première, identifié les limites des antivirus classiques. Les grands acteurs du secteur ont introduit les NGAV (next-gen antivirus, ou antivirus de nouvelle génération) pour compléter, voire remplacer, l'analyse de fichiers basée sur les signatures. Ces logiciels combinent détection comportementale et algorithmes d’apprentissage automatique pour identifier les menaces, aidant ainsi à détecter des processus malveillants, des malwares sans fichier ou encore des comportements d'exploitation que les antivirus traditionnels laissent souvent passer.
Pour les environnements professionnels, les NGAV constituent une évolution majeure. Mais ils ont été conçus pour des parcs d'appareils gérés par des entreprises, pour des équipes de sécurité dédiées, et pour un modèle de menace centré sur la compromission des terminaux. Ils s'appuient sur une télémétrie comportementale étendue qu'un produit grand public soucieux de la confidentialité ne devrait pas collecter.
Le mot « antivirus » recouvre donc aujourd'hui deux définitions : le modèle historique conçu pour les particuliers, à une époque où les fichiers malveillants étaient la menace principale, et le modèle NGAV professionnel pensé pour les environnements d'entreprise gérés. La première définition est dépassée, et la seconde n'a jamais été conçue pour les utilisateurs individuels. Aucune d’entre elles ne couvre les menaces auxquelles les internautes sont confrontés aujourd'hui sur leurs appareils personnels.
Les internautes recherchent encore « antivirus » alors qu'ils ont en réalité besoin d'une protection contre les malwares, le phishing, le vol d'identité, les arnaques et les piratages de comptes. Cette définition doit rattraper son retard sur les menaces qu'elle est censée couvrir.
NordVPN définit l'antivirus nouvelle génération comme un outil complet de protection contre les menaces numériques. Selon cette définition, un antivirus nouvelle génération couvre cinq domaines de protection :
- Protection contre les arnaques : détection des sites frauduleux et des fausses boutiques, alertes sur les SMS d'arnaque, identification des appels suspects et protection des comptes bancaires.
- Protection contre le phishing : analyse en temps réel des URL, des liens dans les e-mails et des contenus web pour intercepter les attaques de phishing (hameçonnage) avant qu'elles n'atteignent l'utilisateur.
- Protection de l'identité et contre le piratage de comptes : surveillance des tentatives d'usurpation d'identité, détection des schémas de fraude, analyse des fuites sur le dark web pour repérer les informations personnelles exposées et alertes en cas de compromission d'identifiants. Côté comptes : détection et alertes en cas de tentatives d'accès non autorisées via le credential stuffing (réutilisation d'identifiants volés), le détournement de session, le SIM swapping (échange de carte SIM frauduleux) et l'ingénierie sociale, mais aussi signalement des identifiants faibles avant que les attaquants ne puissent les exploiter.
- Blocage des traqueurs et des publicités : suppression des traqueurs intersites, des scripts de fingerprinting (empreinte numérique) et des publicités intrusives qui érodent la confidentialité, ralentissent les performances et créent autant de portes d'entrée supplémentaires pour des attaques d'ingénierie sociale ciblées,
- Protection des fichiers et de l'appareil : analyse des téléchargements et mise en quarantaine ou suppression des fichiers malveillants avant qu'ils ne puissent s'exécuter.
NordVPN ne réinvente pas la catégorie antivirus, mais l’élargit pour couvrir les menaces que les internautes rencontrent réellement au quotidien.
Comment nous avons conçu notre antivirus nouvelle génération
Une protection numérique efficace exige d'équilibrer trois engagements parfois contradictoires : nous ne profilons pas nos utilisateurs, nous mesurons les données qui aident à améliorer le produit, et nous concevons le produit pour qu'il fonctionne sans solliciter l'attention de l'utilisateur.
Privilégier l'un de ces principes au détriment des autres aboutit à un produit soit intrusif, soit peu fiable, soit trop complexe à utiliser. Un produit qui respecte les trois principes est plus difficile à construire, mais aussi plus digne de confiance.
Nous ne profilons pas nos utilisateurs
NordVPN est une entreprise dédiée à la confidentialité. Nos utilisateurs nous font confiance parce que nous ne les surveillons pas. Cet engagement impose une contrainte forte : la détection des menaces doit fonctionner avec moins de données qu'elle n'en demanderait normalement.
Notre règle est simple : seules les données nécessaires à l'identification d'une menace quittent l'appareil. Lorsque l'analyse doit se faire sur nos serveurs plutôt que sur l'appareil, nous supprimons tout lien avec l'utilisateur avant le transfert des données.
Concrètement, cela signifie que :
- Les fichiers sont vérifiés par hachage lorsque c'est possible, et non par leur contenu ;
- Les URL sont expurgées des paramètres de requête et des fragments de chemin personnels avant toute consultation cloud : aucune URL n'est rattachée à un utilisateur identifié ;
- Les cookies d'authentification sont hachés, et seuls les huit premiers caractères quittent l'appareil.
Notre schéma de données ne comporte aucun champ pour les identifiants utilisateurs. Autrement dit, la protection de la confidentialité ne repose pas sur le respect de règles par les uns ou les autres : le système l'impose par conception.
Nous mesurons sans surveiller
Détecter des menaces sans mesurer, c'est avancer à l'aveugle. Nous devons savoir si notre classifieur de phishing progresse, si notre détection d'arnaques repère les nouveaux schémas, et où nos modèles laissent passer des menaces. Pour répondre à ces questions, il faut des données de retour.
Mais des données de retour collectées sans cadre, c'est précisément ainsi qu'un logiciel de sécurité devient un logiciel de surveillance. Nous écartons ce risque en mesurant les systèmes de détection plutôt qu'en collectant des données personnelles. Chaque couche de notre architecture produit des données de performance agrégées :
- Les classifieurs de machine learning remontent le taux de détection et le ratio de faux positifs ;
- Le hachage flou (fuzzy hashing) remonte la vitesse de classification ;
- Les flux de renseignement sur les menaces remontent leur fraîcheur.
Le produit calcule ces mesures sur des échantillons à l'échelle de la population. Les modèles sont réentraînés à partir d'échantillons de menaces anonymisés et de synthèses statistiques. Aucun historique de navigation utilisateur n'entre dans la boucle de retour. Nous pouvons vous dire si notre modèle de phishing s'améliore, mais nous sommes incapables de dire ce qu'un utilisateur précis faisait au moment où une menace a été signalée.
Nous concevons notre produit pour qu'il se fasse oublier
La meilleure sécurité, c'est celle à laquelle on n'a jamais à penser : aucune configuration, aucune saturation d’alertes, aucune expertise technique requise. Concevoir un produit invisible suppose d'observer comment les utilisateurs interagissent avec lui. Nous définissons le minimum de données nécessaires pour améliorer l'expérience utilisateur, et nous nous arrêtons là.
Avec le consentement de l'utilisateur, nous suivons :
- L'information selon laquelle chaque fonctionnalité est activée ou non, et la fréquence de son utilisation ;
- Les indicateurs de volume : combien de menaces ont été bloquées sur une période définie ;
- Les scores de satisfaction recueillis via des enquêtes directes auprès des utilisateurs.
Aucune de ces données ne nous indique ce que faisait un utilisateur précis. Elles nous indiquent seulement si le produit fonctionne suffisamment bien pour que les utilisateurs n'aient jamais à y penser.
À ce niveau, les données sont non sensibles par conception. Elles ne peuvent pas être recoupées pour reconstituer un comportement, en déduire une intention ou bâtir un profil.
L'approche IA de NordVPN : de petits modèles pour des tâches précises
NordVPN s'appuie sur de petits modèles de machine learning dédiés, chacun entraîné pour une tâche de détection bien définie. Plutôt que de bâtir un modèle unique qui tenterait de classer toutes les menaces, nous développons des modèles spécialisés pour des catégories de menaces distinctes :
- Un modèle entraîné à évaluer les caractéristiques de phishing des URL ;
- Un modèle dédié à l'identification des schémas typiques des fausses boutiques en ligne ;
- Un modèle qui analyse le comportement des fichiers à la recherche de signes de malware ;
- Un modèle conçu pour détecter les schémas d'ingénierie sociale dans les messages.
Certains modèles sont suffisamment légers pour s'exécuter directement sur l'appareil de l'utilisateur. D'autres tournent au sein de l'extension de navigateur. Les modèles qui exigent davantage de puissance de calcul s'exécutent côté serveur. Lorsque le traitement est local, les données concernées restent sur l'appareil et ne sont pas envoyées à des serveurs externes pour analyse.
Chaque modèle peut être validé et mis à jour indépendamment, ce qui nous permet, en cas de baisse d'efficacité, d'en identifier la cause. Et parce que chaque modèle s'exécute séparément, aucun ne sollicite l'attention de l'utilisateur ni n'interrompt l'expérience.
Cette séparation rend aussi la mesure plus précise. Lorsqu'un modèle dédié au phishing est moins performant, nous savons exactement quoi réentraîner et sur quelles données. Lorsqu'un modèle de détection d'arnaques produit des faux positifs, nous pouvons l'ajuster sans effets de bord sur la détection des malwares. Comme chaque modèle a une seule mission, nous pouvons identifier précisément ce qui a échoué et pourquoi.
Les modèles de machine learning fonctionnent bien dans un périmètre défini, mais ils s'effondrent dès qu'on les considère comme une solution complète. Nos modèles travaillent en complément de systèmes à base de règles, de flux de renseignements sur les menaces et de revue humaine, chacun couvrant ce que les autres ne peuvent pas couvrir.
Pour classer des menaces en temps réel sur des millions d'appareils et de contextes différents, les petits modèles dédiés constituent l'approche la plus efficace que nous ayons trouvée sans sacrifier la confidentialité des utilisateurs.
La suite de notre démarche
Le terme « antivirus » ne disparaîtra pas. C'est par lui que les internautes pensent la protection numérique, c'est ce qu'ils tapent dans un moteur de recherche, et c'est ce qu'ils achètent. Le secteur peut continuer à restreindre cette définition à l'analyse de fichiers et à ignorer les autres menaces, ou bien construire des produits qui correspondent à ce que ce mot signifie déjà pour les personnes qui les utilisent.
Nous avons choisi la seconde option. Nous avons conçu un produit unique qui couvre la protection contre les arnaques, la détection du phishing, la surveillance de l'identité et la sécurité des fichiers, ancré dans la confidentialité, mesuré avec rigueur et pensé pour fonctionner sans exiger des utilisateurs qu'ils deviennent des experts en sécurité.
Un outil de protection contre les menaces numériques qui couvre le phishing, les arnaques, le vol d'identité et les malwares : voilà ce que la catégorie antivirus devrait, selon nous, offrir aujourd'hui.