Gli intermediari AI tengono tutto il ricavato degli editori
Ventuno aziende di scraping AI generano un miliardo di dollari senza pagare gli editori, replicando il modello dell'ad tech tax.
Il modello di business degli intermediari AI si basa sull’estrazione totale di valore senza compensare i produttori di contenuti
Matthew Scott Goldstein ha passato mesi a setacciare il web, API per API, dominio per dominio. Il risultato è una mappa precisa e scomoda: 21 fornitori nell’economia dello scraping — Firecrawl, Exa, Tavily, Brave, You.com, Perplexity Sonar, Bright Data — che si stanno reintestando come “infrastruttura agente” per il mercato AI. Il loro modello di business, nella sua brutalità aritmetica, è questo: prendono il 100% del contenuto, pagano lo 0%, e rivendono l’accesso a chi costruisce agenti e pipeline RAG. Un miliardo di dollari di giro d’affari, senza trasferire un centesimo a chi quei contenuti li ha prodotti. “Il mercato che dovrebbe pagare gli editori sta invece pagando queste 21 aziende”, scrive Goldstein.
I 21 raschiatori e la macchina dell’estrazione silenziosa
Per capire il meccanismo tecnico, vale la pena smontarlo. Un agente AI moderno — che si tratti di un assistente di ricerca, di un workflow n8n o di un pipeline LangChain — ha bisogno di recuperare contenuti freschi dal web in tempo reale. Addestramento a parte, serve grounding: dati aggiornati che vadano oltre il knowledge cutoff del modello. È qui che entrano in gioco questi vendor. Firecrawl espone un’API che prende un URL e restituisce markdown pulito. Exa indicizza il web semanticamente e permette query in linguaggio naturale. Tavily è ottimizzata per LLM, restituisce snippet pre-digeriti. Bright Data gestisce reti di proxy residenziali per aggirare i rate limit. In termini infrastrutturali, è una catena di astrazione elegante: il developer chiama un endpoint, ottiene testo strutturato, non si preoccupa di Puppeteer, di gestire i cookie o di ruotare gli IP. Il problema è che questa eleganza tecnica si costruisce interamente sopra il lavoro altrui.
I numeri dell’impatto sono già visibili a livello di traffico. Akamai, che gestisce oltre un terzo del traffico internet globale, ha registrato nel 2025 un aumento del 300% nell’attività dei bot AI. Gli editori rappresentano il 40% di tutta l’attività dei bot AI legata ai media. Il 36% di tutto il traffico web è oggi generato da bot di scraping, in crescita rispetto al 30% dell’anno precedente. Sono richieste HTTP che non pagano nessun piano pubblicitario, non generano nessuna sessione monetizzabile, non contribuiscono a nessun abbonamento. Carico di server sì, ricavi no. Il CEO di Candr Media ha trovato la metafora giusta: “With scrapers, the value extraction is total. They’re taking 100% of the content, paying 0% and then in some cases using that content to create competing products that remove the publisher entirely. It’s not a tax, it’s a hostile takeover funded by our own IP.” Una takeover ostile finanziata con la proprietà intellettuale della vittima. Dal punto di vista legale e economico, è una descrizione abbastanza precisa.
Il ritorno dell’ad tech tax, in forma peggiore
Per capire dove stiamo andando, guardiamo da dove veniamo. Negli anni Dieci, il programmatic advertising ha promesso efficienza e trasparenza: compratori e venditori connessi automaticamente, aste in real time, targeting granulare. Quello che è successo in pratica è documentato da cinque studi condotti dal 2015 in poi: tra il 30% e il 60% di ogni dollaro speso in canali programmatici finisce agli intermediari — DSP, SSP, ad exchange, data broker, verificatori di viewability. L’editore che ha prodotto il contenuto vede arrivare al massimo 70 centesimi, spesso meno di 50. Quella percentuale sottratta si chiama “ad tech tax”. Oggi qualcuno in questo settore la cita quasi con nostalgia, perché almeno era una quota parziale. Come ha detto un operatore del settore nei giorni scorsi: “We’ve got all these 30, 40, 50 startup DSPs for content, but they’re taking a 100% fee.” Con lo scraping AI non c’è nemmeno la finzione della condivisione del ricavo. La “tassa” è del 100%.
Il parallelo regge anche strutturalmente. L’ad tech si è espansa riempiendo il vuoto tra publisher e advertiser con strati di intermediazione tecnica — ogni strato aggiungeva complessità, opacità e margine per sé. Gli scraper AI stanno facendo la stessa cosa tra publisher e sviluppatori di agenti: costruiscono un livello di astrazione (crawling, pulizia HTML, chunking, indicizzazione semantica) che ha un valore tecnico reale, ma lo monetizzano senza compensare la fonte. E come l’ad tech, si presentano come infrastruttura neutrale, come “plumbing”. Non è un caso che stiano adottando il termine “agentic infrastructure”: è un riposizionamento narrativo che sposta l’attenzione dal cosa fanno (raschiare contenuti altrui) al come si presentano (abilitatori dell’AI economy). Intanto, Meta, Microsoft e Amazon hanno iniziato a stipulare accordi di licenza — News Corp ha firmato un deal con Meta valutato fino a 50 milioni di dollari all’anno, Reach ha accordi usage-based con Amazon per Nova e Alexa. Ma i dirigenti editoriali sono espliciti: “All of them could be doing more. No one gets a great grade.” E soprattutto, questi accordi riguardano i grandi. Un’alternativa su licenza da un miliardo di dollari, alla stessa scala, velocità e prezzo degli scraper, semplicemente non esiste ancora.
Cosa cambia per chi costruisce
E allora chi costruisce sopra questi strumenti cosa dovrebbe fare? La domanda non è retorica. Ogni chiamata a Firecrawl o a Tavily è una transazione economica che aggira il publisher, esattamente come comprare traffico da un’ad network opaca aggirava l’editore nella supply chain programmatica. Non c’è malafede necessaria da parte dello sviluppatore — la UX di queste API è spesso superiore a qualsiasi alternativa lecita, ed è proprio questo il problema strutturale. Il fenomeno analizzato da Goldstein non riguarda solo gli editori: riguarda chi costruisce e cosa sceglie di abilitare con il proprio codice. Affidarsi a infrastrutture di scraping per alimentare agenti AI significa partecipare attivamente a un’economia estrattiva che, se scala, renderà la produzione di contenuto originale economicamente insostenibile — eliminando alla fine la fonte stessa dei dati su cui quegli agenti si basano.
La prossima volta che scegli un’API di ricerca o integri un tool di web retrieval nel tuo agente, vale la pena porsi una domanda semplice: questo vendor sta pagando gli editori per i contenuti che indicizza, oppure sta raschiando? Perché in questo mercato, ogni chiamata API è un voto su quale modello economico dovrebbe sopravvivere.