I nostri dati sono diventati la risorsa più preziosa del 21° secolo: essi stanno guidando la rivoluzione digitale dei tempi moderni. Uno dei risultati principali di questa esplosione di dati è l’emergere di un ecosistema di intelligenza artificiale. Il termine “ecosistema AI” si riferisce a macchine o sistemi con elevata potenza di calcolo che imitano l’intelligenza umana. L’attuale ecosistema di intelligenza artificiale presenta tecnologie come l’apprendimento automatico, le reti neurali artificiali (ANN), la robotica, etc. e la sua influenza sta crescendo in diversi segmenti industriali. Ad esempio, nell’industria automobilistica, gli algoritmi di intelligenza artificiale svolgono un ruolo cruciale nello sviluppo di automobili autonome.

Con l’aiuto dell’intelligenza artificiale, le aziende stanno scoprendo opportunità nascoste ed entrano in mercati inesplorati. Ma mentre la sua popolarità e adozione crescono, sorge una nuova minaccia: il c.d. data “poisoning”, che consiste in una minaccia alla sicurezza dei sistemi di Intelligenza artificiale riferito alle componenti di Machine Learning: una modifica “malevola” dei dati di addestramento (training data set) di tali componenti può generare una distorsione dei risultati prodotti dal sistema in favore degli obiettivi perseguiti dall’attaccante. Difendersi dagli attacchi di poisoning dei dati è un’attività complessa: anche una inconsistente di dati “avvelenati” influisce sull’intero set, rendendone quasi impossibile il rilevamento.

I leader del settore dell’intelligenza artificiale sono consapevoli della minaccia rappresentata dall’avvelenamento dei dati. L’effettiva “superficie d’attacco” offerta dai sistemi di Intelligenza Artificiale a causa della loro complessità, espone i sistemi a varie tipologie di minacce e dunque, il data poisoning è una delle più concrete per i sistemi di Machine Learning. In sintesi, gli attacchi di avvelenamento dei dati hanno il potenziale per essere estremamente potenti perché l’intelligenza artificiale prenderà “spunto” da dati errati e potrebbe prendere decisioni errate, che potrebbero certamente avere conseguenze significative.

Attualmente un gruppo di ricercatori di intelligenza artificiale e apprendimento automatico di Google, ETH Zurich, NVIDIA e Robust Intelligence, afferma di aver dimostrato la possibilità di attacchi avvelenanti che “garantiscono” che esempi dannosi compariranno in set di dati su scala Web utilizzati per addestrare i più grandi modelli di apprendimento automatico. I ricercatori hanno affermato che utilizzando le tecniche che hanno ideato per sfruttare il modo in cui funzionano i set di dati, avrebbero potuto avvelenare lo 0,01% di importanti set di dati di deep learning con poco sforzo e a basso costo. Sebbene lo 0,01% non sembri un numero elevato di set di dati, i ricercatori sostengono che è un quantitativo sufficiente per “avvelenare un set”. Per esempio, un modo in cui gli aggressori possono raggiungere questo obiettivo è semplicemente grazie all’acquisto di nomi di dominio scaduti. I domini scadono regolarmente e possono quindi essere acquistati da qualcun altro, il che è un’opportunità perfetta per un avvelenatore di dati.

Una risorsa su cui si fa molto affidamento per l’approvvigionamento di dati di formazione sull’apprendimento automatico è Wikipedia. I set di dati di Wikipedia comportano il fatto che eventuali hacker – in grado di programmare tempestivamente le loro azioni – potrebbero modificare “malignamente” la pagina presa di mira e costringere il modello (a cui fa capo la raccolta di dati di Wikipedia) ad includere dati imprecisi, che verranno archiviati nel set di dati in modo permanente.