Reddit contro Perplexity AI: La Guerra per i Dati e la Privacy nel 2026
La battaglia tra Reddit e Perplexity AI rivela un lato oscuro dell’IA, dove i dati degli utenti vengono “riciclati” e venduti senza consenso
Se credevate che internet fosse ancora quel luogo idilliaco di libera circolazione delle idee, il 2025 vi ha probabilmente svegliato con una secchiata di acqua gelida.
E se non è bastato l’anno scorso, questo inizio di 2026 sta mettendo in chiaro le cose: la rete non è più una biblioteca, è una miniera a cielo aperto.
E i picconi, questa volta, sono algoritmici.
Siamo a gennaio 2026, e la polvere sollevata dalla causa federale che Reddit ha intentato contro Perplexity AI pochi mesi fa non si è ancora posata. Anzi, ha scoperchiato un vaso di Pandora che molti nel settore tech avrebbero preferito tenere sigillato con il nastro adesivo della retorica sull'”innovazione”.
Al centro della disputa non c’è solo il diritto d’autore o qualche tecnicismo legale noioso: c’è la domanda fondamentale su chi possiede le nostre conversazioni digitali e, soprattutto, chi ha il diritto di venderle al miglior offerente.
La narrazione ufficiale è semplice: Reddit accusa Perplexity di aver saccheggiato i suoi contenuti per addestrare i propri modelli o fornire risposte in tempo reale, ignorando palesemente i divieti tecnici.
Ma come spesso accade quando si gratta la superficie lucida della Silicon Valley, la realtà è un intreccio molto più sporco di soldi, ipocrisia e una totale indifferenza per la privacy degli utenti.
Il “riciclaggio” dei dati digitali
Per capire la gravità della situazione, bisogna guardare oltre il semplice concetto di “copia e incolla”. L’accusa mossa da Reddit introduce un termine che farebbe impallidire un banchiere svizzero: “data laundering”, ovvero riciclaggio di dati.
Secondo la piattaforma, Perplexity non si sarebbe limitata a visitare il sito come un normale utente; avrebbe messo in piedi una sofisticata operazione di aggiramento.
Quando Reddit ha bloccato i crawler (i bot che scansionano il web) di Perplexity tramite il protocollo robots.txt — il cartello “Non Entrare” di internet — l’azienda di intelligenza artificiale non si è fermata.
Avrebbe invece utilizzato una “daisy chain”, una catena di intermediari. In pratica, invece di bussare alla porta principale, Perplexity avrebbe pagato servizi terzi (come SerpApi o Oxylabs) per entrare dalla finestra, o meglio, per raccogliere i frammenti di discussioni Reddit indicizzati da Google Search e rivenderli.
È un gioco di specchi: Google ha il permesso di entrare, quindi se io prendo i dati da Google, tecnicamente non sto violando il domicilio di Reddit.
O almeno, questa è la teoria difensiva.
Ben Lee, Chief Legal Officer di Reddit, non ha usato mezzi termini per descrivere questa pratica, dipingendo un quadro inquietante dell’attuale ecosistema dell’IA.
Questa non è solo una violazione tecnica; è parte di un’economia di riciclaggio dati su scala industriale, dove Perplexity agisce come un cliente consapevole che sceglie dati rubati rispetto a accordi legittimi.
— Ben Lee, Chief Legal Officer di Reddit
L’idea che esista un mercato nero (o grigio scuro) dei nostri commenti online, dove aziende terze “puliscono” la provenienza dei dati per renderli digeribili ai grandi modelli linguistici (LLM), dovrebbe farci preoccupare ben più di un annuncio pubblicitario mirato.
Reddit accusa esplicitamente Perplexity di far parte di un’economia di riciclaggio dati su scala industriale, evidenziando come la fame di dati di qualità stia creando filiere di approvvigionamento opache che sfuggono a qualsiasi controllo normativo, incluso quello del GDPR europeo.
Se i vostri dati vengono “lavati” attraverso tre diverse società proxy prima di finire in una risposta di un chatbot, a chi dovete rivolgervi per esercitare il diritto all’oblio?
La guerra dei recinti chiusi
Sarebbe però ingenuo, se non addirittura comico, dipingere Reddit come il paladino dei diritti degli utenti. La piattaforma non sta proteggendo la nostra privacy; sta proteggendo la sua merce.
Nel corso del 2024 e 2025, Reddit ha trasformato radicalmente il suo modello di business. Non è più (solo) un luogo per discutere di meme o consigli finanziari dubbi; è diventato uno dei più grandi dataset di conversazioni umane al mondo, un asset vitale per chiunque voglia insegnare a un’IA come “parlare” in modo naturale.
La rabbia di Reddit non nasce dal fatto che i dati vengano usati, ma dal fatto che vengano usati gratis.
Reddit ha firmato accordi di licenza estremamente redditizi con giganti come Google e OpenAI, trasformando di fatto ogni singolo commento, confessione o recensione scritta dagli utenti in una riga di codice monetizzabile. Quando Perplexity “gratta” quei dati senza pagare il pedaggio, sta svalutando l’esclusiva che Reddit ha venduto a Google e Sam Altman.
È qui che l’ironia raggiunge livelli stratosferici. Reddit si lamenta che Perplexity rubi il “lavoro” della sua comunità, mentre contemporaneamente vende quello stesso lavoro per centinaia di milioni di dollari senza che gli utenti vedano un centesimo.
Siamo di fronte a due signori feudali che litigano su chi ha il diritto di tassare i contadini. Da una parte c’è chi vuole chiudere internet in tanti giardini recintati a pagamento (Reddit), dall’altra chi sostiene che tutto ciò che è pubblico è “libero” di essere sfruttato a fini commerciali (Perplexity).
In questo scontro tra titani, la privacy dell’utente è trattata come un fastidioso danno collaterale.
Per dimostrare che Perplexity stava rubando i dati, Reddit ha persino creato una “trappola honeypot”: un post visibile solo ai motori di ricerca e non agli utenti umani. Quando il contenuto di quel post è apparso nelle risposte di Perplexity poche ore dopo, la prova del “furto” era servita.
Ma questo dimostra anche quanto siamo esposti: se un sistema automatizzato può leggere e rielaborare contenuti invisibili o appena pubblicati, che speranza abbiamo di mantenere il controllo sulle nostre informazioni?
L’illusione del controllo e il futuro incerto
La difesa di Perplexity si basa su un principio che suona nobile: la libertà di informazione. Sostengono che impedire l’accesso ai dati pubblici equivalga a privatizzare la conoscenza e che le citazioni fornite dal loro motore di ricerca portino traffico alle fonti.
Tuttavia, i numeri raccontano una storia diversa. La causa legale descrive un aumento di 40 volte delle citazioni di contenuti Reddit da parte di Perplexity dopo che era stata inviata una diffida formale, suggerendo che l’azienda abbia accelerato l’acquisizione dei dati proprio mentre gli veniva intimato di fermarsi.
Ma il vero problema, quello che né la causa né i comunicati stampa affrontano volentieri, è la persistenza. Se un utente cancella un post su Reddit perché si è pentito di aver condiviso un dettaglio troppo intimo, quel post scompare dalla piattaforma.
Ma se nel frattempo è stato “grattato” da un intermediario, “lavato” e ingerito da un modello AI, quel dato esiste per sempre, disciolto nelle matrici probabilistiche del software. Non c’è tasto “cancella” per un modello linguistico già addestrato.
Il GDPR e le normative sulla privacy sembrano armi spuntate contro questa architettura. Come si fa a chiedere la rettifica o la cancellazione di un dato che non è più un record in un database, ma una serie di pesi in una rete neurale?
E soprattutto, come possiamo fidarci di aziende che giocano al gatto e al topo con protocolli di sicurezza basilari come il robots.txt?
Siamo di fronte a un bivio pericoloso. Se vince Reddit, internet rischia di frammentarsi in una serie di archivi blindati accessibili solo a chi può permettersi licenze milionarie, uccidendo la concorrenza e l’innovazione open source.
Se vince Perplexity, si legittima il principio che la nostra vita digitale è un buffet gratuito per chiunque abbia abbastanza potenza di calcolo per prendersela, indipendentemente dal nostro consenso.
In entrambi i casi, l’utente medio rimane ciò che è sempre stato per la Silicon Valley: non un cliente, non un cittadino, ma una risorsa da estrarre, raffinare e vendere.
La domanda non è più “chi ha ragione”, ma quanto a lungo continueremo a regalare i nostri pensieri a chi ci vede solo come un dataset in attesa di essere fatturato.