Come OpenAI ha sfruttato un vuoto normativo di sei mesi per addestrare la sua IA sui giornali danesi
OpenAI ha sfruttato un vuoto normativo di sei mesi per addestrare la sua IA su giornali danesi, rifiutando poi la mediazione governativa nel 2025.
L’azienda ha sfruttato il periodo tra la direttiva Ue e la legge nazionale per allenare i suoi modelli, rifiutando poi
Mentre il dibattito pubblico sull’etica dell’intelligenza artificiale si infiamma, le aziende tech stanno già scrivendo le regole sul campo, sfruttando i tempi morti dell’iter legislativo. L’ultimo caso studio arriva dalla Danimarca, dove, secondo l’annuncio ufficiale del gruppo editoriale DPCMO, OpenAI ha addestrato i suoi modelli su opere di pubblicazioni stampa danesi almeno fino all’estate del 2024, approfittando di una finestra di sei mesi in cui una direttiva europea chiave non era ancora operativa a livello nazionale. La strategia è stata così netta che l’azienda ha persino rifiutato di partecipare a una mediazione governativa nel febbraio 2025, lasciando il mediatore senza altra scelta che dimettersi.
Il vuoto normativo sfruttato: la strategia danese di OpenAI
Questa non è una semplice disputa legale, ma un manuale operativo su come le big tech navigano la complessità normativa europea. Il cuore tecnico della questione ruota attorno all’implementazione dell’articolo 4 della Direttiva sul Copyright nel Mercato Unico Digitale (DSM), che introduce un’eccezione per il text and data mining (TDM). In Danimarca, questa eccezione è stata recepita nella legge sul copyright solo nell’estate del 2023. Tuttavia, stando alla DPCMO, che rappresenta il 99% dell’industria delle notizie danese, i suoi membri non hanno avuto la possibilità concreta di rifiutare l’uso dei loro contenuti (opt-out) fino a quel momento. Questo ha creato un vuoto normativo de facto: da una parte, la legge precedente non contemplava eccezioni specifiche per il TDM; dall’altra, la nuova norma non era ancora attiva.
OpenAI ha sfruttato appieno questo intervallo temporale, continuando ad addestrare i suoi modelli su contenuti giornalistici protetti fino all’estate del 2024, ovvero per circa un anno dopo l’entrata in vigore formale della legge. La mossa successiva è stata altrettanto significativa: quando, nei giorni scorsi, il Ministro della Cultura danese ha nominato un mediatore per risolvere la controversia, OpenAI ha rifiutato di partecipare. Questo rifiuto non è solo una questione di principio, ma un segnale chiaro della volontà di non negoziare su un terreno dove si è già operato liberamente, testando i limiti della normativa. Il risultato è un caso perfetto di “prima si addestra, poi si vedono le conseguenze”.
Il pattern globale: dalle cause del NYT agli accordi miliardari
La strategia danese non è un’eccezione, ma il capitolo più recente di un manuale applicato globalmente. Da un lato, OpenAI ha stretto una serie di accordi di licenza con grandi gruppi editoriali come The Associated Press, Axel Springer, Prisa Media, Le Monde e il Financial Times. Dall’altro, si trova a fronteggiare cause legali pesanti. Come riportato da NPR, il New York Times ha citato in giudizio OpenAI e Microsoft il 27 dicembre 2023, sostenendo che milioni di sue opere protette da copyright siano state utilizzate senza consenso o pagamento per addestrare i modelli alla base di ChatGPT.
La tensione tra addestramento indiscriminato e negoziati ex-post trova una conferma giuridica significativa in una sentenza tedesca. Il Tribunale Regionale di Monaco ha stabilito che prompt semplici possono portare ChatGPT a riprodurre parti sostanziali di testi originali quasi alla lettera. Ancora più tecnicamente, il giudice ha ritenuto che la presenza dei testi nei parametri del modello equivalga a una “fissazione” coperta da copyright, e che la loro riproduzione nelle risposte costituisca atti ulteriori di riproduzione e comunicazione al pubblico. Nel frattempo, sul fronte dei contenuti letterari, un giudice federale ha approvato un accordo da 1,5 miliardi di dollari tra Anthropic e autori che accusavano l’azienda di aver usato illegalmente quasi mezzo milione di libri. Come ha dichiarato Maria A. Pallante, “ogni altro importante sviluppatore di IA ha addestrato i propri modelli sfruttando autori ed editori”.
Il prezzo dell’innovazione: l’Europa rischia di rimanere indietro
Mentre le aziende statunitensi procedono con questa strategia ibrida (addestramento + cause/accordi), l’Europa si trova di fronte a un paradosso tecnologico-giuridico. Da un lato, come sottolinea un’analisi del think tank Bruegel, gli obblighi di copyright riducono la quantità di dati disponibili e aumentano il prezzo dei dati di addestramento. Dall’altro, “un’applicazione completa della legge metterebbe a rischio l’accesso dell’UE ai migliori modelli e servizi di IA e ne eroderebbe la competitività”.
Il quadro normativo danese, dopo gli emendamenti del 2023, è chiaro: il consenso dei titolari dei diritti può essere necessario per il text and data mining e l’addestramento dell’IA. Ma è proprio questo “può essere” ad essere stato sfruttato. La domanda tecnologica cruciale non è più soltanto se OpenAI abbia violato la legge, ma se l’Europa possa permettersi un’applicazione rigorosa che, proteggendo il copyright, rischi di isolare i suoi sviluppatori dall’oceano di dati necessario per competere con modelli come GPT-4 o Claude. La corsa all’IA si è trasformata in una guerra di accesso ai dati, e il caso danese dimostra che le regole vengono spesso scritte da chi arriva primo, sfruttando ogni gap temporale tra la direttiva di Bruxelles e il codice nazionale.
La posta in gioco per l’ecosistema tecnologico europeo è altissima. La scelta si riduce a un dilemma: aggrapparsi a un’interpretazione rigida del copyright, rischiando di relegare l’UE a un mercato di fruitori di IA straniera, o trovare un equilibrio che, senza svendere i diritti degli editori, permetta di costruire modelli competitivi anche qui. L’architettura legale esiste, come mostra la direttiva DSM, ma il suo timing di implementazione e la volontà di far rispettare le regole sono diventati il vero campo di battaglia. OpenAI, in Danimarca, ha semplicemente dimostrato di saperlo leggere meglio di chiunque altro.