Malgrado si viva ormai da tempo nell’era dei “Big Data“, spesso l’accesso ad essi appare in qualche modo limitato: i dati generati da esseri umani e/o sugli esseri umani normalmente vengono delimitati nel “loro utilizzo”. Internet, come sappiamo, è una rete globale che da accesso a informazioni provenienti da tutto il mondo e le leggi regolano che le informazioni siano distinte per ogni paese. In generale, se si tratta di informazioni personali che possono essere utilizzate per identificare in modo specifico un individuo, si applicano le norme sulla privacy e sulla protezione dei dati personali. Se si tratta di materiale espressivo come immagini, opere letterarie, musica, ecc. ci sono regole di proprietà intellettuale (IP) da considerare prima di fare una copia.

Ci sono diversi punti importanti relativi al copyright da tenere a mente sui contenuti creativi. In primo luogo, la protezione del diritto d’autore è intrinsecamente temporanea, ma le specifiche variano da paese a paese e dipendono dal tipo di opera. Dopo la scadenza della protezione del copyright, il lavoro espressivo diventa di dominio pubblico e chiunque può utilizzare liberamente quell’opera. Pertanto, il contenuto di dominio pubblico è sicuro da usare nei progetti di Machine Learning.

In secondo luogo, molti autori pubblicano le loro opere sotto la licenza Creative Commons (CC). Aiuta i creatori a condividere le proprie opere con il pubblico in generale, consentendo al contempo di controllare in modo specifico l’ulteriore utilizzo. Normalmente, è necessario ottenere il permesso prima di copiare un’opera: la licenza CC è un modo per gli autori di rendere disponibile la propria opera secondo i propri termini. Ad esempio, possono scegliere se un’opera può essere modificata e/o utilizzata commercialmente. Pertanto, i materiali con licenza CC possono anche essere visti come dati di addestramento a basso rischio per l’IA, tuttavia, è necessario verificare alcune regole di base prima di utilizzarne uno specifico.

Il terzo è che a determinate condizioni, le opere protette possono ancora essere copiate senza il permesso del titolare dei diritti. In Europa, è possibile con limitate eccezioni per situazioni come citazioni e parodie. Nonostante le preoccupazioni sugli usi del Machine Learning nell’UE siano in crescita da tempo, è stato solo di recente che gli Stati membri hanno iniziato ad adottare simili eccezioni al copyright. Il Regno Unito ha consentito per la prima volta la riproduzione non autorizzata di opere protette da copyright a scopo di estrazione di testo e dati (Text and Data Mining – TDM) non commerciale. Successivamente Francia, Germania ed Estonia hanno seguito l’esempio. TDM è un termine generico che copre vari metodi di analisi computazionale delle informazioni che includono anche Machine Learning e AI.

Quando i responsabili politici europei hanno iniziato a rendersi conto dell’importanza dell’accesso ai dati per lo sviluppo dell’IA nell’UE, hanno iniziato a proporre modifiche alle norme sul copyright dell’UE che avrebbero vincolato ogni Stato membro ad adottare le corrispondenti eccezioni TDM. È importante notare che i titolari dei diritti avranno generalmente ancora il diritto di limitare l’uso delle loro opere per scopi minerari, ma non nei casi di utilizzo da parte di istituti di ricerca senza scopo di lucro. In altre parole, solo gli istituti di ricerca avranno il diritto illimitato di estrarre contenuti protetti da copyright, mentre gli altri attori dovranno comunque rispettare la scelta di opt-out del titolare dei diritti. Questa limitazione ha lo scopo di proteggere gli interessi degli editori che, pur addebitando agli abbonati un “accesso in lettura”, vogliono comunque riservarsi il diritto di addebitare loro separatamente il “diritto di estrarre“.

Prima che l’imminente eccezione TDM venga adottata in tutta l’UE e attuata da tutti gli Stati membri, il che dovrebbe avvenire non prima del 2021, in alcuni casi è ancora possibile fare affidamento su altre norme sul copyright. In particolare, un’eccezione al diritto d’autore che consente “atti di riproduzione temporanea” come prescritto dall’articolo 5, paragrafo 1, della direttiva sulla società dell’informazione. Inizialmente, questa eccezione è stata invocata per abilitare i tipici atti di navigazione in Internet che presuppongono la necessità di creare copie cache temporanee di pagine web. Meno noto, tuttavia, è che questo concetto può essere applicato anche alle copie effettuate ai fini dei dati di addestramento di Machine Learning, a condizione che vengano eliminate non appena il processo di addestramento è completato.