Cos'è il "data laundering" e come si applica al caso Reddit-Perplexity?

Il "data laundering" è il riciclaggio di dati. Reddit accusa Perplexity di aver aggirato i blocchi dei crawler utilizzando una catena di intermediari (come SerpApi o Oxylabs) per raccogliere dati indicizzati da Google Search e rivenderli, mascherando la provenienza dei dati.

Perché Reddit è arrabbiato con Perplexity?

Reddit è arrabbiato perché Perplexity sta usando i dati della piattaforma gratis, svalutando gli accordi di licenza che Reddit ha stipulato con aziende come Google e OpenAI. Reddit ha trasformato i commenti degli utenti in una risorsa monetizzabile e non vuole che altri li sfruttino senza pagare.

Come ha fatto Reddit a dimostrare che Perplexity stava rubando i dati?

Reddit ha creato una "trappola honeypot", un post visibile solo ai motori di ricerca. Quando il contenuto di quel post è apparso nelle risposte di Perplexity, Reddit ha avuto la prova del "furto" di dati.

Qual è la posizione di Perplexity sulla questione dell'accesso ai dati?

Perplexity sostiene che impedire l'accesso ai dati pubblici equivale a privatizzare la conoscenza e che le citazioni fornite dal loro motore di ricerca portano traffico alle fonti. Tuttavia, Reddit contesta questa affermazione, evidenziando un aumento delle citazioni dopo una diffida formale.

Cosa succede ai dati degli utenti cancellati da Reddit se sono stati "grattati" da Perplexity?

Se un post viene cancellato da Reddit ma è stato precedentemente "grattato", "lavato" e ingerito da un modello AI, quel dato esiste potenzialmente per sempre all'interno del modello. Non esiste un tasto "cancella" per i modelli linguistici già addestrati.

Quali sono le possibili conseguenze della causa Reddit-Perplexity?

Se vince Reddit, internet potrebbe frammentarsi in archivi blindati a pagamento, limitando la concorrenza. Se vince Perplexity, si legittimerebbe l'idea che la vita digitale degli utenti è un buffet gratuito per chiunque abbia la potenza di calcolo necessaria, indipendentemente dal consenso degli utenti.

Perplexity 2 months ago

Reddit contro Perplexity AI: La Guerra per i Dati e la Privacy nel 2026

Q: Qual è la disputa principale tra Reddit e Perplexity AI?

La disputa riguarda chi possiede le conversazioni digitali degli utenti e chi ha il diritto di venderle. Reddit accusa Perplexity di aver saccheggiato i suoi contenuti per addestrare i propri modelli AI, ignorando i divieti tecnici e violando il diritto d'autore.

La battaglia tra Reddit e Perplexity AI rivela un lato oscuro dell’IA, dove i dati degli utenti vengono “riciclati” e venduti senza consenso

Se credevate che internet fosse ancora quel luogo idilliaco di libera circolazione delle idee, il 2025 vi ha probabilmente svegliato con una secchiata di acqua gelida.

E se non è bastato l’anno scorso, questo inizio di 2026 sta mettendo in chiaro le cose: la rete non è più una biblioteca, è una miniera a cielo aperto.

E i picconi, questa volta, sono algoritmici.

Siamo a gennaio 2026, e la polvere sollevata dalla causa federale che Reddit ha intentato contro Perplexity AI pochi mesi fa non si è ancora posata. Anzi, ha scoperchiato un vaso di Pandora che molti nel settore tech avrebbero preferito tenere sigillato con il nastro adesivo della retorica sull'”innovazione”.

Al centro della disputa non c’è solo il diritto d’autore o qualche tecnicismo legale noioso: c’è la domanda fondamentale su chi possiede le nostre conversazioni digitali e, soprattutto, chi ha il diritto di venderle al miglior offerente.

La narrazione ufficiale è semplice: Reddit accusa Perplexity di aver saccheggiato i suoi contenuti per addestrare i propri modelli o fornire risposte in tempo reale, ignorando palesemente i divieti tecnici.

Ma come spesso accade quando si gratta la superficie lucida della Silicon Valley, la realtà è un intreccio molto più sporco di soldi, ipocrisia e una totale indifferenza per la privacy degli utenti.

Il “riciclaggio” dei dati digitali

Per capire la gravità della situazione, bisogna guardare oltre il semplice concetto di “copia e incolla”. L’accusa mossa da Reddit introduce un termine che farebbe impallidire un banchiere svizzero: “data laundering”, ovvero riciclaggio di dati.

Secondo la piattaforma, Perplexity non si sarebbe limitata a visitare il sito come un normale utente; avrebbe messo in piedi una sofisticata operazione di aggiramento.

Quando Reddit ha bloccato i crawler (i bot che scansionano il web) di Perplexity tramite il protocollo robots.txt — il cartello “Non Entrare” di internet — l’azienda di intelligenza artificiale non si è fermata.

Avrebbe invece utilizzato una “daisy chain”, una catena di intermediari. In pratica, invece di bussare alla porta principale, Perplexity avrebbe pagato servizi terzi (come SerpApi o Oxylabs) per entrare dalla finestra, o meglio, per raccogliere i frammenti di discussioni Reddit indicizzati da Google Search e rivenderli.

È un gioco di specchi: Google ha il permesso di entrare, quindi se io prendo i dati da Google, tecnicamente non sto violando il domicilio di Reddit.

O almeno, questa è la teoria difensiva.

Ben Lee, Chief Legal Officer di Reddit, non ha usato mezzi termini per descrivere questa pratica, dipingendo un quadro inquietante dell’attuale ecosistema dell’IA.

Questa non è solo una violazione tecnica; è parte di un’economia di riciclaggio dati su scala industriale, dove Perplexity agisce come un cliente consapevole che sceglie dati rubati rispetto a accordi legittimi.

— Ben Lee, Chief Legal Officer di Reddit

L’idea che esista un mercato nero (o grigio scuro) dei nostri commenti online, dove aziende terze “puliscono” la provenienza dei dati per renderli digeribili ai grandi modelli linguistici (LLM), dovrebbe farci preoccupare ben più di un annuncio pubblicitario mirato.

Reddit accusa esplicitamente Perplexity di far parte di un’economia di riciclaggio dati su scala industriale, evidenziando come la fame di dati di qualità stia creando filiere di approvvigionamento opache che sfuggono a qualsiasi controllo normativo, incluso quello del GDPR europeo.

Se i vostri dati vengono “lavati” attraverso tre diverse società proxy prima di finire in una risposta di un chatbot, a chi dovete rivolgervi per esercitare il diritto all’oblio?

La guerra dei recinti chiusi

Sarebbe però ingenuo, se non addirittura comico, dipingere Reddit come il paladino dei diritti degli utenti. La piattaforma non sta proteggendo la nostra privacy; sta proteggendo la sua merce.

Nel corso del 2024 e 2025, Reddit ha trasformato radicalmente il suo modello di business. Non è più (solo) un luogo per discutere di meme o consigli finanziari dubbi; è diventato uno dei più grandi dataset di conversazioni umane al mondo, un asset vitale per chiunque voglia insegnare a un’IA come “parlare” in modo naturale.

La rabbia di Reddit non nasce dal fatto che i dati vengano usati, ma dal fatto che vengano usati gratis.

Reddit ha firmato accordi di licenza estremamente redditizi con giganti come Google e OpenAI, trasformando di fatto ogni singolo commento, confessione o recensione scritta dagli utenti in una riga di codice monetizzabile. Quando Perplexity “gratta” quei dati senza pagare il pedaggio, sta svalutando l’esclusiva che Reddit ha venduto a Google e Sam Altman.

È qui che l’ironia raggiunge livelli stratosferici. Reddit si lamenta che Perplexity rubi il “lavoro” della sua comunità, mentre contemporaneamente vende quello stesso lavoro per centinaia di milioni di dollari senza che gli utenti vedano un centesimo.

Siamo di fronte a due signori feudali che litigano su chi ha il diritto di tassare i contadini. Da una parte c’è chi vuole chiudere internet in tanti giardini recintati a pagamento (Reddit), dall’altra chi sostiene che tutto ciò che è pubblico è “libero” di essere sfruttato a fini commerciali (Perplexity).

In questo scontro tra titani, la privacy dell’utente è trattata come un fastidioso danno collaterale.

Per dimostrare che Perplexity stava rubando i dati, Reddit ha persino creato una “trappola honeypot”: un post visibile solo ai motori di ricerca e non agli utenti umani. Quando il contenuto di quel post è apparso nelle risposte di Perplexity poche ore dopo, la prova del “furto” era servita.

Ma questo dimostra anche quanto siamo esposti: se un sistema automatizzato può leggere e rielaborare contenuti invisibili o appena pubblicati, che speranza abbiamo di mantenere il controllo sulle nostre informazioni?

L’illusione del controllo e il futuro incerto

La difesa di Perplexity si basa su un principio che suona nobile: la libertà di informazione. Sostengono che impedire l’accesso ai dati pubblici equivalga a privatizzare la conoscenza e che le citazioni fornite dal loro motore di ricerca portino traffico alle fonti.

Tuttavia, i numeri raccontano una storia diversa. La causa legale descrive un aumento di 40 volte delle citazioni di contenuti Reddit da parte di Perplexity dopo che era stata inviata una diffida formale, suggerendo che l’azienda abbia accelerato l’acquisizione dei dati proprio mentre gli veniva intimato di fermarsi.

Ma il vero problema, quello che né la causa né i comunicati stampa affrontano volentieri, è la persistenza. Se un utente cancella un post su Reddit perché si è pentito di aver condiviso un dettaglio troppo intimo, quel post scompare dalla piattaforma.

Ma se nel frattempo è stato “grattato” da un intermediario, “lavato” e ingerito da un modello AI, quel dato esiste per sempre, disciolto nelle matrici probabilistiche del software. Non c’è tasto “cancella” per un modello linguistico già addestrato.

Il GDPR e le normative sulla privacy sembrano armi spuntate contro questa architettura. Come si fa a chiedere la rettifica o la cancellazione di un dato che non è più un record in un database, ma una serie di pesi in una rete neurale?

E soprattutto, come possiamo fidarci di aziende che giocano al gatto e al topo con protocolli di sicurezza basilari come il robots.txt?

Siamo di fronte a un bivio pericoloso. Se vince Reddit, internet rischia di frammentarsi in una serie di archivi blindati accessibili solo a chi può permettersi licenze milionarie, uccidendo la concorrenza e l’innovazione open source.

Se vince Perplexity, si legittima il principio che la nostra vita digitale è un buffet gratuito per chiunque abbia abbastanza potenza di calcolo per prendersela, indipendentemente dal nostro consenso.

In entrambi i casi, l’utente medio rimane ciò che è sempre stato per la Silicon Valley: non un cliente, non un cittadino, ma una risorsa da estrarre, raffinare e vendere.

La domanda non è più “chi ha ragione”, ma quanto a lungo continueremo a regalare i nostri pensieri a chi ci vede solo come un dataset in attesa di essere fatturato.

Scritto da Giulia Bianchi

Giornalista investigativa specializzata in privacy, sicurezza digitale e regolamentazione tech. Scettica per natura, crede nel giornalismo che fa domande scomode.

Amazon dichiara guerra ai 12 minuti di noia: così Fire TV e il nuovo Ember Artline vogliono cambiare le nostre serate

Il paradosso Amazon: vetrina chiusa, pubblicità a pagamento

Doppiaggio AI: Il Compromesso tra Ritmo e Significato

Fan-out: la tecnica distribuita che sta monopolizzando la ricerca visiva

Categories

Pages

Newsletter

Non perdere nemmeno un articolo.

Reddit contro Perplexity AI: La Guerra per i Dati e la Privacy nel 2026

La battaglia tra Reddit e Perplexity AI rivela un lato oscuro dell’IA, dove i dati degli utenti vengono “riciclati” e venduti senza consenso

Il “riciclaggio” dei dati digitali

La guerra dei recinti chiusi

L’illusione del controllo e il futuro incerto

La battaglia tra Reddit e Perplexity AI rivela un lato oscuro dell’IA, dove i dati degli utenti vengono “riciclati” e venduti senza consenso

Il “riciclaggio” dei dati digitali

La guerra dei recinti chiusi

L’illusione del controllo e il futuro incerto

Articoli correlati

L’Ascesa dell’Ai Agentica nella Ricerca Accademica: Sfide e Paradossi

India: quando l’ia gratis ha un prezzo nascosto

Meta: il rifiuto di Perplexity AI ridefinisce la strategia AI su Scale AI.