John Carreyrou guida la battaglia legale contro le Big Tech dell’IA generativa
La strategia legale contro le Big Tech cambia rotta: non più class action, ma cause individuali mirate all’addestramento dei Large Language Models
Non è un caso che a guidare l’offensiva sia John Carreyrou.
Chi scrive codice o gestisce infrastrutture sa che i bug più insidiosi non si trovano guardando l’interfaccia utente, ma scavando nei log di sistema. Carreyrou, il reporter che ha smontato pezzo per pezzo la truffa di Theranos, ha applicato lo stesso metodo di debug all’industria dell’Intelligenza Artificiale Generativa.
Il 22 dicembre 2025 non sarà ricordato solo come l’ennesimo giorno di carte bollate, ma come il momento in cui la strategia legale contro le Big Tech ha subito un fork decisivo: non più class action collettive, ma cause individuali mirate, chirurgiche, progettate per fare male dove i server consumano più watt.
La denuncia depositata in California contro Google, OpenAI, Meta, Perplexity e, per la prima volta in modo esplicito, xAI di Elon Musk, non riguarda solo il diritto d’autore. È un attacco diretto alla pipeline di addestramento dei Large Language Models (LLM).
Per un tecnico, la questione è cristallina: un modello non “impara” dal nulla. Ha bisogno di un dataset di training massivo, ripulito e tokenizzato.
E i libri, con la loro struttura sintattica complessa e la coerenza a lungo termine, sono l’equivalente digitale del carburante ad alto numero di ottani per queste reti neurali. Senza di essi, la capacità di ragionamento e la finestra di contesto dei modelli degraderebbero sensibilmente.
Ciò che rende questa mossa tecnicamente rilevante è il rifiuto della logica del “batch processing” legale. Fino a ieri, l’industria sperava di chiudere la questione copyright con enormi accordi onnicomprensivi, trattando gli autori come righe di un database da liquidare in blocco. Carreyrou e gli altri cinque scrittori hanno detto no, mettendo in discussione l’intera architettura economica su cui si basano i costi di inferenza e addestramento futuri.
L’algoritmo del risarcimento (e perché non scala)
Per capire perché siamo arrivati qui, bisogna guardare ai numeri, che in informatica non mentono mai. Nell’agosto 2025, Anthropic sembrava aver trovato la patch definitiva per il problema del copyright: un accordo transattivo che suonava imponente sui titoli dei giornali.

L’azienda ha chiuso un accordo da 1,5 miliardi di dollari per una class action, una cifra che per una startup, anche ben finanziata, rappresenta una voce di bilancio significativa. Tuttavia, analizzando i dati granulari, l’accordo si è rivelato un’operazione di ottimizzazione dei costi estremamente aggressiva da parte delle aziende tech.
Il calcolo è brutale: quella cifra, divisa per la mole di opere “inghiottite” dai modelli, riduce il valore del singolo libro a una frazione irrisoria rispetto al danno potenziale. Stiamo parlando di circa il 2% del massimale statutario di 150.000 dollari previsto per ogni violazione del diritto d’autore.
In pratica, le aziende stavano cercando di pagare una licenza perpetua per l’intero scibile umano al costo di un caffè per autore.
Carreyrou ha identificato questo pattern e ha deciso di interrompere l’esecuzione dello script. Nella denuncia, la critica a questo approccio è feroce e tecnica: non si può permettere che le aziende risolvano il debito tecnico accumulato illegalmente con una sanatoria a basso costo.
“Le aziende di LLM non dovrebbero essere in grado di estinguere così facilmente migliaia e migliaia di reclami di alto valore a tariffe da liquidazione.”
— John Carreyrou, Giornalista investigativo e Autore
Questo rifiuto delle class action segna un cambiamento di paradigma. Se ogni autore di rilievo iniziasse a muoversi individualmente, il costo computazionale legale per le aziende diventerebbe insostenibile, molto più del costo in GPU per il training dei modelli stessi.
Il peccato originale del Dataset
Dal punto di vista ingegneristico, il problema risiede nella fase di data ingestion. Quando costruiamo un crawler per indicizzare il web, rispettiamo (o dovremmo rispettare) il robots.txt. Ma l’addestramento degli LLM è avvenuto in una zona grigia, spesso attingendo a repository “ombra” come Books3 o set di dati derivati da Common Crawl, dove i libri piratati abbondano.
Le aziende sostengono che l’analisi statistica delle frequenze delle parole sia “fair use”, un uso trasformativo. Gli autori sostengono che si tratti di una compressione con perdita dell’opera originale, decompilabile a piacimento.
È qui che entra in gioco xAI. La società di Elon Musk è l’ultima arrivata nel backend di questa disputa. Mentre OpenAI e Google hanno anni di “scraping” alle spalle, xAI ha dovuto colmare il gap velocemente.
Carreyrou e altri scrittori hanno accusato xAI e i giganti tech di aver usato libri protetti da copyright per addestrare i loro sistemi, puntando il dito contro la voracità necessaria per competere nella corsa agli armamenti dell’intelligenza artificiale.
L’inclusione di Perplexity nella causa aggiunge un ulteriore livello di complessità tecnica. Perplexity non è un creatore di modelli “foundation” nel senso classico, ma un motore di risposta che usa RAG (Retrieval-Augmented Generation). Tuttavia, per funzionare bene, deve indicizzare e processare contenuti in modo profondo.
Se il tribunale dovesse decidere che anche l’ingestione per la RAG costituisce violazione, l’intero stack tecnologico della ricerca semantica rischierebbe di crollare.
Rubare libri per costruire la sua IA è stato il “peccato originale” di Anthropic.
— John Carreyrou, Giornalista investigativo e Autore
Questa citazione, riferita a un caso precedente ma centrale nell’attuale argomentazione, evidenzia come il debito etico e legale sia stato integrato nel codice sorgente dei modelli fin dal giorno zero.
Oltre il codice: il rischio di sistema
La presenza del giudice William Alsup sullo sfondo di queste vicende non è un dettaglio da poco per chi segue la cronaca giudiziaria tech (ricordate il caso Oracle v. Google sulle API di Java?). Alsup ha già mostrato insofferenza verso le manovre legali che cercano di aggirare il problema sostanziale.
Durante un’udienza di novembre, il giudice ha criticato gli avvocati per le tattiche aggressive nel reclutare autori fuori dalle class action, ma paradossalmente, la mossa di Carreyrou si allinea con lo scetticismo del giudice verso accordi che non risolvono il nodo centrale.
Se la tesi di Carreyrou dovesse passare, ci troveremmo di fronte a uno scenario di refactoring obbligato per l’intera industria. Non basterebbe pagare una multa.
Tecnicamente, potrebbe essere richiesto il disgorgement degli algoritmi: la cancellazione dei modelli addestrati su dati illeciti. In un mondo dove un singolo training run costa centinaia di milioni di dollari e mesi di calcolo su cluster H100, dover ricominciare da capo con dataset “puliti” (e molto più piccoli) sarebbe catastrofico per le performance attuali.
La domanda che rimane sospesa non è se l’IA sia il futuro, ma se l’attuale architettura degli LLM, costruita sull’assunto che “tutto ciò che è online è gratis”, sia un bug o una feature. E se fosse un bug, la patch potrebbe costare molto più di quanto la Silicon Valley abbia preventivato nel suo business plan.
Siamo sicuri che l’eleganza tecnica di un trasformatore giustifichi l’ingestione indiscriminata della creatività umana senza un protocollo di handshake appropriato?