Reddit fa causa a Perplexity AI: scraping industriale di contenuti utente per IA.
Lo scontro legale tra Reddit e Perplexity AI, formalizzato in una causa, è il sintomo di un conflitto strutturale su chi possiede e può monetizzare l’enorme volume di pensieri e discussioni che gli esseri umani lasciano in rete ogni giorno.
La guerra per i dati che alimentano l’intelligenza artificiale è entrata in una nuova, surreale fase.
Da un lato, una piattaforma che ha costruito il proprio impero sulla conversazione gratuita e volontaria degli utenti, e che ora chiede di essere pagata per quel contenuto.
Dall’altro, una startup che promette di democratizzare l’accesso alla conoscenza, ma che viene accusata di aver costruito il suo motore di risposte rubando il carburante.
Lo scontro legale tra Reddit e Perplexity AI, formalizzato in una causa depositata nell’ottobre 2025, non è solo una disputa contrattuale.
È il sintomo di un conflitto strutturale su chi possiede e può monetizzare l’enorme volume di pensieri, opinioni e discussioni che gli esseri umani lasciano in rete ogni giorno.
E, come spesso accade, la retorica dell’“open web” si scontra brutalmente con la logica del profitto.
La battaglia legale: furto industriale o accesso legittimo?
Secondo la ricostruzione di Reddit, esposta in un post ufficiale, Perplexity non si sarebbe limitata a leggere le discussioni pubbliche.
Avrebbe orchestrato un vero e proprio furto di dati su scala industriale per addestrare i propri modelli di intelligenza artificiale, aggirando deliberatamente le protezioni tecniche della piattaforma.
L’accusa è pesante: Perplexity, insieme a società di scraping come Oxylabs, AWMProxy e SerpApi, avrebbe bypassato i controlli di accesso di Reddit e persino quelli di Google, raschiando i risultati di ricerca del motore di Mountain View per ottenere contenuti Reddit.
Un’operazione che Reddit definisce senza mezzi termini un’economia di “data laundering”, il riciclaggio di dati.
L’indizio più colorito fornito da Reddit riguarda un “post trappola”.
Gli ingegneri della piattaforma avrebbero creato un contenuto visibile solo al crawler di Google e in nessun altro luogo del web pubblico.
Nel giro di poche ore, quel contenuto nascosto sarebbe misteriosamente apparso nelle risposte generate da Perplexity.
Una prova, secondo Reddit, che il sistema non si limitava a linkare pagine pubbliche, ma attingeva a un flusso di dati ottenuto scavando sotto il livello visibile.
Non solo: dopo aver inviato una lettera di cessazione e desistenza a Perplexity, Reddit afferma che i riferimenti a contenuti della propria piattaforma nelle risposte di Perplexity sarebbero aumentati di quaranta volte.
Un atto di sfida, o la normale dinamica di un sistema che semplicemente cita le sue fonti?
La risposta di Perplexity, pubblicata sul suo subreddit ufficiale, ribalta completamente la prospettiva.
L’azienda nega con forza di addestrare i suoi modelli AI sui contenuti di Reddit.
Spiega invece di fare quello che farebbe qualsiasi utente informato: leggere le discussioni, sintetizzarle e fornire un link alla fonte.
Il cuore della difesa è proprio qui: se non addestriamo i modelli sui tuoi dati, perché dovremmo pagarti una licenza?
Perplexity sostiene di accedere legalmente ai dati pubblici di Reddit e accusa Reddit di volerla costringere a un accordo commerciale inutile, usando metodi da “braccio forte”.
La startup arriva a suggerire che il vero obiettivo di Reddit non sia Perplexity, ma fare una dimostrazione di forza nelle sue trattative per i dati di addestramento con giganti come Google e OpenAI.
In altre parole, la causa servirebbe da monito per chiunque pensi di poter accedere al “giardino” di Reddit senza passare dalla cassa.
Il precedente (ambiguo) dello scraping pubblico
Per capire su quale terreno giuridico si muoverà questa battaglia, è necessario guardare ai precedenti.
Il caso più famoso è quello tra hiQ Labs e LinkedIn, che ha lungamente tenuto banco nei tribunali della California.
hiQ, un’azienda di analisi dei dati, raschiava i profili pubblici di LinkedIn per offrire servizi di analisi del talento.
LinkedIn cercò di fermarla invocando il Computer Fraud and Abuse Act (CFAA), la legge federale statunitense contro l’accesso informatico non autorizzato.
La Corte d’Appello del Nono Circuito, in una sentenza poi parzialmente riconfermata, stabilì un principio cruciale: il CFAA e la sua clausola “senza autorizzazione” non si applicano ai siti web pubblicamente accessibili.
Violare i termini di servizio di un sito, da solo, non costituisce un reato federale.
Questo sembrerebbe un argomento a favore di Perplexity: i subreddit sono per lo più pubblici.
Tuttavia, la vicenda hiQ-LinkedIn si concluse con un accordo in cui hiQ accettò di non raschiare più i dati e pagò 500.000 dollari di danni, dopo che un tribunale distrettuale stabilì che aveva violato l’accordo utente di LinkedIn.
Il caso dimostra che, se i dati sono pubblicamente accessibili e i termini di servizio vengono violati, i tribunali devono bilanciare gli interessi delle diverse parti.
Un altro precedente importante, Sandvig v. Barr, ha ulteriormente limitato la portata del CFAA, con un tribunale che ha interpretato la legge in modo restrittivo, stabilendo che non criminalizza la mera violazione dei termini di servizio su siti web di consumo.
La domanda, quindi, si sposta: Perplexity ha semplicemente violato i Termini di Servizio di Reddit (cosa che ammette implicitamente, dato che il suo scraping automatizzato quasi certamente li infrange), o ha oltrepassato il limite accedendo a dati che non erano davvero pubblici, come il “post trappola” visibile solo a Google?
La differenza potrebbe essere sostanziale.
Inoltre, Reddit non fa affidamento solo sul CFAA, ma anche su accuse di violazione del copyright e di interferenza illecita con le relazioni commerciali, puntando a colpire l’intera catena di approvvigionamento dei dati.
Il vero conflitto: chi paga per la conoscenza collettiva?
Al di là delle questioni legali, questo caso solleva un paradosso etico ed economico imbarazzante.
Reddit è diventato un’enciclopedia vivente, un luogo di conoscenza collettiva, grazie al lavoro gratuito di milioni di utenti e alla moderazione volontaria di migliaia di persone.
Questi ultimi, in particolare, sono la linfa vitale della piattaforma, e si trovano spesso in prima linea a gestire conflitti che hanno implicazioni legali.
In discussioni sul subreddit ufficiale per i moderatori, si dibatte su come gestire minacce legali da parte di utenti che chiedono la cancellazione di post, con consigli che vanno dall’ignorare le minacce al segnalare l’utente per molestie.
Sono loro a fornire, gratuitamente, il servizio di controllo qualità che rende i dati di Reddit così appetibili per le AI.
Ora, Reddit chiede di essere pagata per questo valore creato dagli utenti.
Ha già stretto accordi multimilionari con Google e OpenAI.
Perplexity, dal canto suo, si erge a paladina dell’“open access”, sostenendo di voler preservare il diritto degli utenti ad accedere liberamente alla conoscenza pubblica.
Ma in questo teatrino, chi rappresenta davvero gli interessi della persona che ha scritto una recensione dettagliata su un prodotto o ha condiviso la soluzione a un problema tecnico in un subreddit?
Probabilmente nessuno dei due.
L’utente non vedrà un centesimo degli eventuali danni che Reddit otterrà, né avrà più controllo su come la sua risposta venga sintetizzata da Perplexity.
Il suo contributo è diventato una commodity in una guerra tra aziende che ne rivendicano la proprietà o il libero utilizzo.
La causa Reddit vs. Perplexity non deciderà solo il destino di due aziende.
Sta scrivendo le regole non dette dell’era dell’AI: fino a che punto la nostra conversazione digitale collettiva, quella che diamo per scontata come “pubblica”, può essere recintata e messa a rendita?
E quando un’azienda che si appropria di questa conversazione per venderla come dato di addestramento smette di essere un “innovatore” e diventa semplicemente un abile intermediario in un mercato grigio?
La risposta dei tribunali definirà se il web, come lo abbiamo conosciuto, sarà la miniera a cielo aperto dell’intelligenza artificiale, o se chi estrae il minerale dovrà prima comprare i diritti di scavo.
Nel frattempo, il valore che creiamo ogni giorno postando, commentando e moderando continua a scorrere via, generando ricchezza per qualcun altro.