Giappone vs Perplexity AI: La Guerra per il Futuro dell’Informazione Online
La battaglia degli editori giapponesi contro Perplexity AI segna una svolta nella disputa tra modelli di internet basati sui link e sull’ingestione totale dei dati
Tokyo – Non è un caso isolato, né un semplice disaccordo commerciale.
Quello che sta accadendo in queste ore in Giappone rappresenta il punto di rottura di un’architettura digitale che ha retto il web per trent’anni. Oggi, 26 dicembre 2025, il colosso editoriale Mainichi Newspapers Co. ha formalmente inviato una lettera di diffida a Perplexity AI, unendosi a un fronte compatto di editori nipponici che accusano la startup californiana di free riding.
In termini tecnici, si tratta di scrocco computazionale: sfruttare le risorse altrui senza contribuire ai costi infrastrutturali o editoriali.
La mossa del Mainichi segue di poche settimane le azioni legali intraprese da Nikkei e Asahi Shimbun, che insieme chiedono danni per 44 milioni di dollari. Ma se guardiamo sotto il cofano di questa disputa, non troviamo solo avvocati e copyright. Troviamo una frizione tecnica fondamentale tra due modelli di internet incompatibili: quello basato sui link e quello basato sull’ingestione totale dei dati.
Perplexity non è un motore di ricerca nel senso classico; è un motore di risposta che cortocircuita la necessità di visitare la fonte.
E se fino a ieri si poteva pensare a scaramucce isolate, il quadro odierno è inequivocabile. Pochi giorni fa, l’Associazione degli Editori di Giornali Giapponesi ha esortato il governo a proteggere i contenuti informativi dall’uso non autorizzato dell’IA generativa, segnalando che la pazienza dell’industria verso le promesse della Silicon Valley è terminata.
Ma per capire perché il Giappone – solitamente cauto nell’adottare misure drastiche – sia così sul piede di guerra, bisogna analizzare come funziona, male, la tecnologia che dovrebbe sostituire la ricerca tradizionale.
L’illusione della risposta perfetta
Dal punto di vista ingegneristico, Perplexity e sistemi simili utilizzano un’architettura nota come RAG (Retrieval-Augmented Generation). In teoria, è una soluzione elegante: quando l’utente fa una domanda, il sistema non si affida solo alla memoria statica del suo modello, ma esegue una scansione in tempo reale del web, estrae i contenuti rilevanti e li usa per “aumentare” la risposta generata.
Sulla carta, è il meglio dei due mondi. Nella pratica, però, l’implementazione rivela una brutalità tecnica disarmante.
Invece di indicizzare i contenuti per rimandare l’utente al sito originale, questi sistemi “raschiano” il testo, lo rielaborano e servono la risposta direttamente nella chat. È la cosiddetta zero-click search. L’editore sostiene i costi di server, giornalisti e fact-checking; l’azienda di IA incassa l’attenzione dell’utente e l’abbonamento mensile.
Il problema non è solo economico, ma di protocollo. Per decenni, il file robots.txt è stato il gentleman’s agreement del web: una stretta di mano digitale con cui un amministratore di sistema diceva ai bot quali stanze potevano visitare. Molti scraper moderni, per alimentare la loro fame di token, ignorano deliberatamente queste direttive o mascherano i loro user-agent per sembrare normali browser.
È un approccio tecnicamente mediocre che predilige la forza bruta al rispetto degli standard, e che ha portato a conseguenze legali immediate: all’inizio del mese, anche Kyodo News ha intentato una causa da 30 milioni di dollari contro Perplexity per l’uso non autorizzato dei propri contenuti.
Tuttavia, il danno economico è solo la punta dell’iceberg. C’è un aspetto ancora più insidioso che riguarda l’integrità stessa dei dati processati.
Quando l’algoritmo inventa
Nella sua lettera inviata oggi, il Mainichi non si limita a chiedere soldi. Solleva un problema di data integrity che farebbe impallidire qualsiasi sviluppatore coscienzioso. L’accusa è che Perplexity non si limiti a copiare, ma generi “allucinazioni”: attribuisce al giornale fatti mai riportati o completamente errati.
Questo accade perché i Large Language Models (LLM) non “conoscono” i fatti; prevedono semplicemente la parola successiva più probabile in una sequenza.
Anche con l’architettura RAG, se il recupero delle informazioni è impreciso o se il modello “soffre” di un’eccessiva temperatura creativa, il risultato è una notizia falsa con il timbro di una fonte autorevole.
L’uso non autorizzato di articoli creati attraverso un significativo tempo e sforzo da parte dei giornalisti non può essere ignorato, e ci sono casi in cui vengono visualizzate informazioni false che differiscono dal contenuto degli articoli. […] Continueremo a fare appello alla società sull’importanza di proteggere un giornalismo sano, che sostiene le fondamenta della democrazia.
— Portavoce, Nikkei Inc.
Per un database o un compilatore, un errore è un bug che ferma il processo. Per un LLM, un errore è solo un’altra sequenza di testo sintatticamente corretta ma semanticamente vuota.
Quando un sistema attribuisce falsamente un premio a un fotografo o inventa dichiarazioni virgolettate – come denunciato dal Mainichi – non sta solo violando il copyright; sta inquinando l’ecosistema informativo usando la reputazione della testata come scudo.
Tali false rappresentazioni sono illegali e danneggeranno la credibilità del giornale.
— Mainichi Newspapers Co.
La tolleranza per questi “glitch” probabilistici si sta esaurendo, specialmente quando le aziende tech vendono questi strumenti come oracoli di verità e non come generatori di testo statistico.
Una partita a scacchi globale
L’offensiva giapponese non avviene nel vuoto. È il fronte orientale di una guerra che ha i suoi generali anche a New York e Chicago. La strategia legale dei media nipponici ricalca fedelmente quella statunitense, cercando di stabilire un precedente globale: il diritto d’autore non scompare solo perché l’elaborazione dei dati è diventata più complessa.
Non a caso, a inizio dicembre il New York Times ha avviato un’azione legale per violazione del copyright contro Perplexity, contestando la riproduzione quasi letterale dei propri articoli.
La difesa delle aziende di IA si basa spesso sul concetto di fair use, sostenendo che l’addestramento dei modelli e la sintesi siano trasformativi. Ma c’è una differenza sostanziale tra “imparare” da un testo e servirlo come risposta sostitutiva a un cliente pagante.
Se la giurisprudenza dovesse accettare la tesi che lo scraping massivo e la ripubblicazione tramite sintesi AI sono legali, assisteremmo al collasso del modello open web.
I siti web inizierebbero a chiudersi dietro paywall sempre più stretti, bloccando ogni forma di indicizzazione. Internet tornerebbe a essere una serie di giardini murati, inaccessibili non solo alle IA, ma anche agli utenti comuni.
La domanda che resta sospesa tra i server di Tokyo e quelli della California non è se l’IA sia il futuro, ma se questo futuro sia sostenibile.
Se l’IA divora le fonti che la alimentano senza nutrirle a sua volta, quanto tempo passerà prima che l’intero sistema muoia di inedia digitale?