Il web scraping, la raccolta indiscriminata dei dati personali sul web al fine di addestrare i modelli di intelligenza artificiale generativa (IAG), sta assumendo proporzioni sempre più preoccupanti. Tanto da costringere il Garante della Privacy ad intervenire per cercare di porre un freno ad un fenomeno che rischia di intaccare seriamente la riservatezza degli internauti. È stato lo stesso Garante ad emettere una nota al riguardo, in cui ha affermato: “Si tratta di misure non obbligatorie, che i titolari del trattamento dovranno valutare, sulla base del principio di accountability, se mettere in atto per prevenire o mitigare, in maniera selettiva, gli effetti del web scraping, in considerazione di una serie di elementi come lo stato dell’arte tecnologico e i costi di attuazione, in particolare per le Pmi”.
Le azioni che possono contrastare il web scraping
All'interno del documento emesso, è possibile rintracciare una serie di suggerimenti tesi a limitare un fenomeno sempre più evidente. Tra le possibili misure da prendere, sono indicate in particolare le seguenti:
- la creazione di aree riservate. Alla luce del fatto che l’addestramento dell’intelligenza artificiale generativa è fondata su enormi quantità di dati spesso provenienti da attività di web scraping diretta (intendendo per tale quella effettuata dallo stesso soggetto che sviluppa il modello), indiretta (ovverosia effettuata su dataset creati tramite tecniche di web scraping da soggetti diversi dallo sviluppatore del modello) od ibrida, su fonti presenti nel web, creare aree cui l'accesso è consentito esclusivamente per mezzo di una registrazione può rappresentare un primo atto cautelativo. A renderlo tale il fatto che impedisce la diffusione pubblica dei dati in questione. Al tempo stesso, questa misura non deve tradursi in un eccessivo trattamento dei dati da parte del titolare. Ove ciò accadesse si andrebbe a violare il principio di minimizzazione di cui all’articolo 5, par. 1, lett. c), RGPD. In particolare, i titolari del trattamento dovrebbero evitare, durante la registrazione, l'imposizione nei riguardi di coloro che visitano i siti web o fruiscono dei loro servizi, di ulteriori e ingiustificati oneri;
- L'inserimento di clausole ad hoc all'interno dei termini di servizio (ToS). Immettendo al loro interno il divieto nei riguardi dell'utilizzazione del web scraping, i gestori delle piattaforme interessate hanno la possibilità di citare in giudizio le controparti che violano i termini di servizio in modo che siano condannate per inadempimento contrattuale. Se da un lato si tratta di una forma cautelativa di mera natura giuridica opera ex post, al tempo stesso è in grado di rappresentare uno strumento preventivo molto efficace. La sua capacità di deterrenza, di conseguenza, può contribuire a erigere una maggiore protezione per i dati personali. Tanto da essere ampiamente utilizzata per difendere i contenuti protetti dal diritto d'autore. Basti ricordare i termini di servizio di YouTube, cui Google proibisce l’accesso con robot, botnet o strumenti di scraping. Con l'unica eccezione rappresentata dai motori di ricerca pubblici, in conformità con il file robots.txt di YouTube o salvo previa autorizzazione scritta da parte di YouTube.;
- Un continuo monitoraggio del traffico di rete. Un accorgimento che rende possibile l'individuazione di flussi anomali, sia in entrata che in uscita, da un sito web o da una piattaforma online. E, di conseguenza, l'organizzazione di una rete di salvataggio adeguata. Inoltre, si può anche optare per l'adozione di un Rate Limiting, misura tecnica la quale rende possibile la limitazione del traffico di rete e del numero di richieste, accettando esclusivamente quelle provenienti da determinati indirizzi IP, col preciso intento di evitare un eccessivo traffico di dati;
- L'intervento sui bot, teso ad arginare l’attività automatizzata di raccolta dati condotta facendo leva su tali software. Se nessuna tecnica di questo genere è in grado di annullarne totalmente l'efficacia, al tempo stesso ci sono azioni di contrasto in grado di attenuarne la pericolosità quando si tratta di addestrare l’intelligenza artificiale generativa. Tra queste azioni occorre ricordare l'inserimento di verifiche CAPTCHA (Completely Automated Public Turing test-to-tell Computers and Humans Apart), l'intervento sul file robot txt., la modifica periodica del markup HTML, l'incorporazione dei dati che si desidera sottrarre allo scraping all'interno di file multimediali e il monitoraggio dei file di log.