Una recente vulnerabilità di sicurezza nell'app ChatGPT per macOS di OpenAI avrebbe potuto permettere agli attaccanti di piantare spyware persistente nella memoria dello strumento di intelligenza artificiale (AI). Questa tecnica, soprannominata SpAIware, potrebbe essere sfruttata per facilitare l'esfiltrazione continua dei dati digitati dall'utente o delle risposte ricevute da ChatGPT, comprese le sessioni di chat future. L'elemento centrale della questione risiede nell'abuso di una funzionalità chiamata "memoria", introdotta da OpenAI per ricordare determinate informazioni attraverso diverse conversazioni, risparmiando agli utenti la fatica di ripetere le stesse informazioni.
La tecnica di attacco sfrutta anche scoperte precedenti che coinvolgono l'uso di iniezioni di prompt indirette per manipolare le memorie, facendo sì che queste ricordino informazioni false o istruzioni dannose. Questo permette di ottenere una forma di persistenza che sopravvive tra le conversazioni. Poiché le istruzioni dannose sono memorizzate nella memoria di ChatGPT, tutte le nuove conversazioni includeranno le istruzioni dell'attaccante e invieranno continuamente tutti i messaggi di chat e le risposte all'attaccante. Ciò rende la vulnerabilità di esfiltrazione dei dati molto più pericolosa poiché ora si estende attraverso le conversazioni di chat.
In uno scenario di attacco ipotetico, un utente potrebbe essere ingannato a visitare un sito web dannoso o a scaricare un documento trappola, successivamente analizzato usando ChatGPT per aggiornare la memoria. Il sito web o il documento potrebbero contenere istruzioni per inviare clandestinamente tutte le conversazioni future a un server controllato dall'avversario, che l'attaccante può recuperare dall'altro capo oltre una singola sessione di chat. Dopo una divulgazione responsabile, OpenAI ha affrontato la questione con la versione 1.2024.247 di ChatGPT chiudendo il vettore di esfiltrazione.
Gli utenti di ChatGPT dovrebbero regolarmente rivedere le memorie che il sistema memorizza su di loro, per individuare quelle sospette o errate e pulirle. Questa catena di attacco è interessante da mettere insieme e dimostra i pericoli di avere una memoria a lungo termine aggiunta automaticamente a un sistema, sia dal punto di vista della disinformazione/truffa, sia riguardo alla comunicazione continua con server controllati dagli attaccanti. Questa divulgazione arriva mentre un gruppo di accademici ha scoperto una nuova tecnica di jailbreak dell'AI, chiamata MathPrompt, che sfrutta le avanzate capacità dei modelli di linguaggio (LLM) per aggirare i loro meccanismi di sicurezza.
MathPrompt
MathPrompt impiega un processo in due fasi: prima trasformando i prompt di linguaggio naturale dannosi in problemi di matematica simbolica, e poi presentando questi prompt codificati matematicamente a un LLM di destinazione. La ricerca, testata su 13 modelli LLM all'avanguardia, ha trovato che i modelli rispondono con output dannosi il 73,6% delle volte in media quando presentati con prompt codificati matematicamente, rispetto a circa l'1% con prompt dannosi non modificati. Questo segue il debutto da parte di Microsoft di una nuova capacità di correzione che permette di correggere gli output AI quando vengono rilevate inesattezze.