Web scraping: come difendersi dal furto di dati
Il web scraping è una tecnica che permette di estrarre dati dai siti web in modo automatico. Si tratta di un metodo molto usato per le ricerche di mercato e per poter fornire agli utenti dei contenuti personalizzati, ma se ne può anche fare un uso malevolo. È infatti una delle tecniche preferite dagli hacker per rubare i dati personali degli utenti.
Web scraping: come funziona
Utilizzando degli appositi programmi, è possibile analizzare il codice sorgente di un sito web ed estrarre così dati e informazioni da esso. Si tratta di una tecnica che può essere utilizzata per molti scopi diversi: ad esempio, un uso molto diffuso e perfettamente legale è quello che se ne fa in ambito di marketing. Grazie al web scraping, infatti, è possibile raccogliere informazioni relative alle abitudini degli utenti o alle strategie di determinate aziende: in questo modo, è possibile stabilire le proprie strategie e distinguersi dalla concorrenza.
Ci sono due tipi diversi di web scraping: manuale e automatico. Il web scraping manuale consiste semplicemente nel copiare manualmente le singole informazioni contenute nelle pagine web, in modo da poterle analizzare con i propri strumenti. Il web scraping automatico, invece, viene eseguito tramite appositi bot, che permettono di copiare informazioni in modo molto rapido. Questo metodo automatico è praticamente indispensabile quando si devono raccogliere molte informazioni contemporaneamente.
Web scraping: è pericoloso?
Il web scraping in sé è una tecnica assolutamente lecita e non pericolosa, ma può diventarlo a seconda di come lo si utilizza. Nello specifico, il web scraping diventa illegale nel momento in cui i dati estrapolati sono di carattere personale (quindi protetti dalle norme sulla privacy) e vengono utilizzati per altri scopi senza il consenso dei diretti interessati.
Ci sono molti plug-in per browser che permettono a chiunque di raccogliere informazioni specifiche e pubbliche di determinati siti. Facendo un semplice web scraping in Chrome, ad esempio, è possibile salvare tutte le immagini contenute in un sito per poterle consultare offline. Di norma, quindi, con il semplice web scraping non dovrebbe essere possibile ottenere dati protetti da un sito che li conserva in modo sicuro: non è quindi possibile usare questa tecnica per impossessarsi dei numeri di carta di credito dei clienti di una banca a partire dal suo sito. Se, però, il sito non è sicuro, anche i dati che dovrebbero essere salvati in modo sicuro sono a rischio.
Nel 2019, ad esempio, in seguito a un attacco di web scraping, Facebook ha dichiarato il furto dei dati di più di 500 milioni di utenti in tutto il mondo. Questi dati contenevano informazioni anagrafiche e di contatto, inclusi i numeri di telefono. Questo furto è stato uno dei più grandi di sempre, e ha coinvolto utenti provenienti da ben 106 paesi diversi. In questo caso, gli hacker sono stati in grado di sfruttare il web scraping grazie a una vulnerabilità di Facebook, che nel frattempo è stata risolta.
Web scraping: come proteggere i propri dati
Per essere sicuri che i propri dati personali non finiscano mai nelle mani sbagliate, è necessario proteggerli su più fronti.
Come prima cosa, è fondamentale non inserire i propri dati personali in siti non sicuri. Per riconoscere un sito sicuro ci sono diverse tecniche: ad esempio, bisogna assicurarsi che venga utilizzato il protocollo HTTPS (cos’è l’HTTPS), in modo che i dati vengano criptati. Bisogna poi anche assicurarsi che il sito sia reale e non un’imitazione: spesso gli attacchi di phishing (cos’è il phishing) vengono infatti eseguiti proprio in questo modo.
Un’altra cosa a cui fare attenzione è se il sito che si sta visitando utilizza delle contromisure apposite. Ad esempio, un metodo molto utilizzato per difendersi dal web scraping è quello del CAPTCHA, una tecnica che prevede che, prima di poter accedere al sito, l’utente esegua delle operazioni molto semplici ma che non possono essere eseguite da dei bot.
I dati più ricercati da hacker e truffatori sono quelli personali, in particolare informazioni di contatto e numeri di carte di credito. Per proteggere questi dati, la soluzione migliore è quella di inserirli online solo se non è possibile farne a meno. Ad esempio, è più che normale inserire i dati della propria carta di credito in un negozio online affidabile per effettuare un acquisto, ma è meglio evitare di inserirli in siti che li richiedono solo come garanzia o come conferma di identità. In questo modo, ci si espone in minor misura al rischio di web scraping.
Purtroppo il web scraping è spesso fuori dal controllo dell’utente finale: può infatti capitare che, a causa di una vulnerabilità non nota, un sito ritenuto affidabile subisca un attacco di questo tipo, e che quindi i propri dati finiscano con l’essere rubati. In casi come questo, è fondamentale affidarsi anche ad altre soluzioni di sicurezza. Ad esempio, bisogna ricordarsi di utilizzare una password diversa per ogni account e di usare una VPN e un buon programma anti-malware. In questo modo, anche se si rimane vittima di web scraping, si è in grado di contenere i danni.