Qual è l'oggetto della denuncia depositata contro Google, OpenAI, Meta, Perplexity e xAI?

La denuncia non riguarda solo il diritto d'autore, ma è un attacco diretto alla *pipeline* di addestramento dei Large Language Models (LLM). Si contesta l'uso di dataset di training massivi, inclusi libri, senza adeguato rispetto del copyright.

Qual è il problema con gli accordi transattivi proposti dalle aziende di IA?

Gli accordi transattivi, come quello di Anthropic, offrono cifre irrisorie per ogni opera utilizzata, riducendo il valore del singolo libro a una frazione rispetto al danno potenziale e cercando di pagare una licenza perpetua a basso costo.

Qual è il 'peccato originale' nel processo di addestramento dei modelli LLM?

Il problema risiede nella fase di *data ingestion*, dove spesso si attinge a repository "ombra" con materiale protetto da copyright, senza un adeguato rispetto dei diritti degli autori.

Qual è il rischio di sistema se la tesi di Carreyrou dovesse avere successo?

Se la tesi dovesse passare, potrebbe essere richiesto il *disgorgement* degli algoritmi, ovvero la cancellazione dei modelli addestrati su dati illeciti, con conseguenze catastrofiche per le performance attuali e costi elevati per ricominciare da capo con dataset "puliti".

Perplexity 3 months ago

John Carreyrou guida la battaglia legale contro le Big Tech dell’IA generativa

Q: Qual è la strategia legale contro le Big Tech che si sta delineando?

La strategia legale contro le Big Tech ha subito un cambiamento decisivo: non più class action collettive, ma cause individuali mirate, progettate per colpire dove i server consumano più energia.

Q: Perché la mossa di John Carreyrou è tecnicamente rilevante?

La mossa è rilevante perché rifiuta la logica del "batch processing" legale, mettendo in discussione l'intera architettura economica su cui si basano i costi di inferenza e addestramento futuri dei modelli di IA.

Q: Cosa comporta l'inclusione di Perplexity nella causa?

Perplexity utilizza RAG (Retrieval-Augmented Generation) per indicizzare e processare contenuti. Se il tribunale dovesse decidere che anche l'ingestione per la RAG costituisce violazione, l'intero stack tecnologico della ricerca semantica potrebbe essere a rischio.

La strategia legale contro le Big Tech cambia rotta: non più class action, ma cause individuali mirate all’addestramento dei Large Language Models

Non è un caso che a guidare l’offensiva sia John Carreyrou.

Chi scrive codice o gestisce infrastrutture sa che i bug più insidiosi non si trovano guardando l’interfaccia utente, ma scavando nei log di sistema. Carreyrou, il reporter che ha smontato pezzo per pezzo la truffa di Theranos, ha applicato lo stesso metodo di debug all’industria dell’Intelligenza Artificiale Generativa.

Il 22 dicembre 2025 non sarà ricordato solo come l’ennesimo giorno di carte bollate, ma come il momento in cui la strategia legale contro le Big Tech ha subito un fork decisivo: non più class action collettive, ma cause individuali mirate, chirurgiche, progettate per fare male dove i server consumano più watt.

La denuncia depositata in California contro Google, OpenAI, Meta, Perplexity e, per la prima volta in modo esplicito, xAI di Elon Musk, non riguarda solo il diritto d’autore. È un attacco diretto alla pipeline di addestramento dei Large Language Models (LLM).

Per un tecnico, la questione è cristallina: un modello non “impara” dal nulla. Ha bisogno di un dataset di training massivo, ripulito e tokenizzato.

E i libri, con la loro struttura sintattica complessa e la coerenza a lungo termine, sono l’equivalente digitale del carburante ad alto numero di ottani per queste reti neurali. Senza di essi, la capacità di ragionamento e la finestra di contesto dei modelli degraderebbero sensibilmente.

Ciò che rende questa mossa tecnicamente rilevante è il rifiuto della logica del “batch processing” legale. Fino a ieri, l’industria sperava di chiudere la questione copyright con enormi accordi onnicomprensivi, trattando gli autori come righe di un database da liquidare in blocco. Carreyrou e gli altri cinque scrittori hanno detto no, mettendo in discussione l’intera architettura economica su cui si basano i costi di inferenza e addestramento futuri.

L’algoritmo del risarcimento (e perché non scala)

Per capire perché siamo arrivati qui, bisogna guardare ai numeri, che in informatica non mentono mai. Nell’agosto 2025, Anthropic sembrava aver trovato la patch definitiva per il problema del copyright: un accordo transattivo che suonava imponente sui titoli dei giornali.

L’azienda ha chiuso un accordo da 1,5 miliardi di dollari per una class action, una cifra che per una startup, anche ben finanziata, rappresenta una voce di bilancio significativa. Tuttavia, analizzando i dati granulari, l’accordo si è rivelato un’operazione di ottimizzazione dei costi estremamente aggressiva da parte delle aziende tech.

Il calcolo è brutale: quella cifra, divisa per la mole di opere “inghiottite” dai modelli, riduce il valore del singolo libro a una frazione irrisoria rispetto al danno potenziale. Stiamo parlando di circa il 2% del massimale statutario di 150.000 dollari previsto per ogni violazione del diritto d’autore.

In pratica, le aziende stavano cercando di pagare una licenza perpetua per l’intero scibile umano al costo di un caffè per autore.

Carreyrou ha identificato questo pattern e ha deciso di interrompere l’esecuzione dello script. Nella denuncia, la critica a questo approccio è feroce e tecnica: non si può permettere che le aziende risolvano il debito tecnico accumulato illegalmente con una sanatoria a basso costo.

“Le aziende di LLM non dovrebbero essere in grado di estinguere così facilmente migliaia e migliaia di reclami di alto valore a tariffe da liquidazione.”

— John Carreyrou, Giornalista investigativo e Autore

Questo rifiuto delle class action segna un cambiamento di paradigma. Se ogni autore di rilievo iniziasse a muoversi individualmente, il costo computazionale legale per le aziende diventerebbe insostenibile, molto più del costo in GPU per il training dei modelli stessi.

Il peccato originale del Dataset

Dal punto di vista ingegneristico, il problema risiede nella fase di data ingestion. Quando costruiamo un crawler per indicizzare il web, rispettiamo (o dovremmo rispettare) il robots.txt. Ma l’addestramento degli LLM è avvenuto in una zona grigia, spesso attingendo a repository “ombra” come Books3 o set di dati derivati da Common Crawl, dove i libri piratati abbondano.

Le aziende sostengono che l’analisi statistica delle frequenze delle parole sia “fair use”, un uso trasformativo. Gli autori sostengono che si tratti di una compressione con perdita dell’opera originale, decompilabile a piacimento.

È qui che entra in gioco xAI. La società di Elon Musk è l’ultima arrivata nel backend di questa disputa. Mentre OpenAI e Google hanno anni di “scraping” alle spalle, xAI ha dovuto colmare il gap velocemente.

Carreyrou e altri scrittori hanno accusato xAI e i giganti tech di aver usato libri protetti da copyright per addestrare i loro sistemi, puntando il dito contro la voracità necessaria per competere nella corsa agli armamenti dell’intelligenza artificiale.

L’inclusione di Perplexity nella causa aggiunge un ulteriore livello di complessità tecnica. Perplexity non è un creatore di modelli “foundation” nel senso classico, ma un motore di risposta che usa RAG (Retrieval-Augmented Generation). Tuttavia, per funzionare bene, deve indicizzare e processare contenuti in modo profondo.

Se il tribunale dovesse decidere che anche l’ingestione per la RAG costituisce violazione, l’intero stack tecnologico della ricerca semantica rischierebbe di crollare.

Rubare libri per costruire la sua IA è stato il “peccato originale” di Anthropic.

— John Carreyrou, Giornalista investigativo e Autore

Questa citazione, riferita a un caso precedente ma centrale nell’attuale argomentazione, evidenzia come il debito etico e legale sia stato integrato nel codice sorgente dei modelli fin dal giorno zero.

Oltre il codice: il rischio di sistema

La presenza del giudice William Alsup sullo sfondo di queste vicende non è un dettaglio da poco per chi segue la cronaca giudiziaria tech (ricordate il caso Oracle v. Google sulle API di Java?). Alsup ha già mostrato insofferenza verso le manovre legali che cercano di aggirare il problema sostanziale.

Durante un’udienza di novembre, il giudice ha criticato gli avvocati per le tattiche aggressive nel reclutare autori fuori dalle class action, ma paradossalmente, la mossa di Carreyrou si allinea con lo scetticismo del giudice verso accordi che non risolvono il nodo centrale.

Se la tesi di Carreyrou dovesse passare, ci troveremmo di fronte a uno scenario di refactoring obbligato per l’intera industria. Non basterebbe pagare una multa.

Tecnicamente, potrebbe essere richiesto il disgorgement degli algoritmi: la cancellazione dei modelli addestrati su dati illeciti. In un mondo dove un singolo training run costa centinaia di milioni di dollari e mesi di calcolo su cluster H100, dover ricominciare da capo con dataset “puliti” (e molto più piccoli) sarebbe catastrofico per le performance attuali.

La domanda che rimane sospesa non è se l’IA sia il futuro, ma se l’attuale architettura degli LLM, costruita sull’assunto che “tutto ciò che è online è gratis”, sia un bug o una feature. E se fosse un bug, la patch potrebbe costare molto più di quanto la Silicon Valley abbia preventivato nel suo business plan.

Siamo sicuri che l’eleganza tecnica di un trasformatore giustifichi l’ingestione indiscriminata della creatività umana senza un protocollo di handshake appropriato?

Scritto da Luca Verdi

Developer e tech writer. Spiega la tecnologia dal punto di vista tecnico senza perdere di vista l'accessibilità. Ex software engineer, ora si dedica al giornalismo tech.

L’India è il nuovo campo di battaglia dell’IA, e i giganti tech americani stanno scaricando miliardi per conquistarla

Mentre tutti inseguono i giganti, NVIDIA scommette sui modelli piccoli: Nemotron 3 Nano arriva su Amazon Bedrock

Amazon dichiara guerra ai 12 minuti di noia: così Fire TV e il nuovo Ember Artline vogliono cambiare le nostre serate

Il paradosso Amazon: vetrina chiusa, pubblicità a pagamento

Categories

Pages

Newsletter

Non perdere nemmeno un articolo.

John Carreyrou guida la battaglia legale contro le Big Tech dell’IA generativa

La strategia legale contro le Big Tech cambia rotta: non più class action, ma cause individuali mirate all’addestramento dei Large Language Models

L’algoritmo del risarcimento (e perché non scala)

Il peccato originale del Dataset

Oltre il codice: il rischio di sistema

La strategia legale contro le Big Tech cambia rotta: non più class action, ma cause individuali mirate all’addestramento dei Large Language Models

L’algoritmo del risarcimento (e perché non scala)

Il peccato originale del Dataset

Oltre il codice: il rischio di sistema

Articoli correlati

Perplexity: L’Agente Ai è un Cavallo di Troia?

PacSun e la vendita dell’identità digitale della gen z: un’analisi

Clarity Global lancia Surfacd: colma il gap di visibilità AI per i brand B2B