I bot di addestramento AI hanno preso il web
A giugno 2026, il 52% del traffico web proviene da bot per addestramento AI, con Anthropic che ha un rapporto crawl-to-referral di 70.900 a 1.
Il rapporto di Cloudflare mostra un rapporto crawl-to-referral di 70.900 a 1 per Anthropic
Cinquantadue per cento. È la percentuale di richieste ai server web che, a giugno 2026, proviene da bot per l’addestramento dell’intelligenza artificiale. Per la prima volta nella storia della rete, la maggioranza del traffico non è umano. Lo certifica un rapporto pubblicato da Cloudflare, che monitora un pezzo enorme di infrastruttura globale: il 36% dei siti più visitati al mondo si affida alla sua rete. Quando Cloudflare parla di traffico, insomma, non sta stimando: sta guardando i log.
La metà invisibile
Il dato più clamoroso non è tanto la soglia superata, quanto la velocità con cui è stata raggiunta. Nella primavera del 2025 il traffico dei crawler destinato all’addestramento AI rappresentava il 22% del totale. A giugno 2026 è più che raddoppiato, arrivando appunto al 52%. In poco più di un anno, il baricentro del web si è spostato: da luogo pensato per essere letto da persone a giacimento da far masticare a modelli linguistici. Nel frattempo, secondo lo stesso rapporto, Google resta il portale dominante per la scoperta online, generando circa l’88% del traffico di referral — cioè di quei click che dai motori di ricerca arrivano effettivamente ai siti. Due cifre che, messe una accanto all’altra, raccontano già una storia scomoda: più della metà del traffico serve a nutrire modelli che poi restituiscono risposte, mentre chi porta ancora visitatori reali ai siti resta saldamente in mano a un solo attore. Ma chi sono questi predatori digitali? Dietro il dato aggregato si nascondono asimmetrie clamorose.
Saccheggio a senso unico
Qui la faccenda si fa interessante, e non in senso buono. Cloudflare, in un pezzo dedicato a quella che ha chiamato Content Independence Day, aveva già misurato un anno prima quanto le grandi aziende di intelligenza artificiale prendessero dal web senza restituire quasi nulla in termini di traffico verso i siti d’origine. Il rapporto crawl-to-referral — quante volte un bot scarica contenuti rispetto a quante volte manda effettivamente un utente umano sul sito — era impressionante: secondo Cloudflare, OpenAI aveva un rapporto crawl-to-referral di 750 a 1. Cioè: per ogni visitatore che OpenAI manda a un sito, i suoi bot ne hanno scaricato il contenuto 750 volte. Anthropic faceva peggio, molto peggio: 30.000 a 1, sempre secondo la stessa fonte.
Un anno dopo, quando quell’iniziativa è stata rivista nel rapporto del 2026, la situazione non è migliorata: è cambiata la scala. Secondo lo strumento AI Insights di Cloudflare, Anthropic ha raggiunto un rapporto crawl-to-referral di 70.900 a 1 — il più alto tra tutte le aziende di intelligenza artificiale monitorate. Settantamila novecento pagine scaricate per ogni singolo click restituito a un sito. Non è un errore di battitura, è la fotografia di un modello di business: aspirare contenuto gratuitamente, restituire quasi nulla in termini di traffico reale. All’estremo opposto c’è Mistral, con un rapporto di appena 0,1 a 1 — l’azienda francese, insomma, manda più visitatori ai siti di quanti contenuti ne scarichi, un’anomalia quasi commovente in questo panorama.
Perché questa differenza così brutale? Le aziende che addestrano modelli enormi hanno bisogno di quantità industriali di testo, e il crawling per l’addestramento non genera per definizione traffico di ritorno: un modello che ha “letto” un articolo per imparare a scrivere non rimanda mai un utente a quell’articolo. È strutturale, non un incidente. Ma è anche, va detto, un problema che gli editori denunciano da tempo: content scraping senza compensazione, per usare le parole con cui Cloudflare stessa ha battezzato la sua iniziativa. Dal 2023 sono stati firmati oltre 50 accordi tra editori e aziende di intelligenza artificiale — un numero che sembra alto finché non lo si confronta con le migliaia di testate che pubblicano contenuti ogni giorno senza alcun accordo, e i cui contenuti finiscono comunque nei dataset di addestramento. E mentre i crawler divorano contenuti, il custode principale della porta del web cambia le regole.
Risposte senza domande
Google, che genera l’88% dei referral, ha nel frattempo aggiunto AI Overviews, cioè risposte generate automaticamente che soddisfano le domande degli utenti senza che questi debbano più uscire da Google.com. Prima era arrivato l’answer box, ora c’è l’AI Overview: un’evoluzione lineare verso un solo obiettivo, trattenere l’utente sulla pagina dei risultati invece di mandarlo altrove. Il paradosso è servito su un piatto d’argento: il motore che porta più traffico a tutti gli altri sta contemporaneamente lavorando per aver bisogno sempre meno di mandarlo. Se il web è solo una miniera, chi vorrà ancora pubblicare?
Internet è stato progettato per collegare persone e idee, non per alimentare in silenzio modelli statistici che poi rispondono senza citare le fonti. Oggi rischia di diventare un campo di estrazione dove chi scava — le grandi aziende di intelligenza artificiale, gli stessi motori di ricerca — guadagna, e chi semina — gli editori, i blog, i siti indipendenti — resta con in mano un pugno di visite sempre più raro. Chi avrà ancora interesse a scrivere, se le uniche entità che leggono davvero sono le macchine e le uniche che ne traggono profitto stanno altrove?