Perché Google e Microsoft hanno proibito di servire contenuti diversi agli umani e ai bot?

Hanno categorizzato questa pratica come "cloaking", considerandola una violazione delle policy piuttosto che una "ottimizzazione per l'AI". Nel mondo dei motori di ricerca, il cloaking è un peccato capitale.

Qual è stata l'argomentazione tecnica di Google contro il servire Markdown agli LLM?

John Mueller ha sostenuto che gli LLM attuali sono stati addestrati su petabyte di dati presi da HTML "sporco" e che un modello "capisce" l'HTML meglio del Markdown. L'HTML porta con sé informazioni strutturali – gerarchie, relazioni spaziali, enfasi semantiche – che nel passaggio a Markdown vengono appiattite.

Quali altri problemi ha presentato l'approccio del "web parallelo"?

Ha presentato il problema della "deriva dei contenuti", dove due versioni della stessa risorsa tendono a divergere, portando a dati obsoleti per l'AI. Inoltre, c'erano preoccupazioni di sicurezza e fiducia, poiché la tecnica è storicamente usata dagli spammer, e il rischio di perdere la struttura di navigazione interna (link) per i bot AI in formati di testo semplici.

Perché Google e Bing si oppongono a un web "headless" per l'AI?

La questione è politica ed economica: consentire ai siti di servire una versione "solo dati" rende il web agnostico rispetto alla presentazione, trasformando ogni sito in un database pubblico facilmente consumabile e monetizzabile da terzi (compagnie di AI) senza traffico sulla pagina originale. Google e Bing, che vivono di traffico e pubblicità, difendono lo status quo in cui il contenuto è legato alla sua presentazione visiva.

Bing 1 month ago

Google e Microsoft vietano il web parallelo per AI: servire Markdown ai bot è cloaking

Q: Che cos'era il concetto di "web parallelo" proposto dagli sviluppatori per gli agenti AI?

Era una versione speculare dei propri siti servita esclusivamente in Markdown o JSON agli agenti AI. L'obiettivo era ridurre il consumo di token, velocizzare l'ingestione dei dati da parte dei Large Language Model (LLM) e fornire informazioni strutturate senza il peso del DOM, del CSS o degli script di tracciamento.

Q: Quali erano i benefici presunti del servire Markdown o JSON ai bot AI?

I benchmark iniziali mostravano una riduzione dell'uso dei token fino al 95% per pagina, che per chi gestisce infrastrutture LLM su larga scala si traduce in un risparmio economico significativo, oltre a una più rapida ingestione dei dati.

Q: Qual era la preoccupazione operativa di Microsoft riguardo ai contenuti separati per i bot?

Fabrice Canel ha evidenziato il problema del "crawl budget", spiegando che servire contenuti diversi in base allo User-Agent costringe i motori di ricerca a un doppio lavoro, scaricando sia la versione per gli utenti che quella per i bot, raddoppiando il carico di scansione.

Q: Che cos'era `llms.txt` e qual era la posizione di Google al riguardo?

`llms.txt` era una proposta del 2024 per standardizzare le preferenze dei contenuti per l'AI. Google ha chiarito che non supporterà protocolli specifici per LLM, ribadendo che gli standard web esistenti (HTML, Sitemap, Robots.txt) sono sufficienti e preferibili.

Questa decisione ha stroncato il sogno degli sviluppatori di creare versioni in Markdown o JSON dei siti web per alimentare gli algoritmi, considerandola una violazione delle policy invece che un’ottimizzazione intelligente.

C’è un certo fascino ingegneristico, quasi seducente, nell’idea di ripulire il web dal suo rumore visivo per darlo in pasto alle macchine.

Per mesi, una parte della comunità di sviluppatori — specialmente quelli che lavorano con architetture Next.js e sistemi RAG — ha cullato il sogno di creare un “web parallelo”: una versione speculare dei propri siti servita esclusivamente in Markdown o JSON agli agenti AI.

L’obiettivo era nobile, almeno sulla carta: ridurre il consumo di token, velocizzare l’ingestione dei dati da parte dei Large Language Model (LLM) e fornire informazioni strutturate senza il peso del DOM, del CSS o degli script di tracciamento.

Sembrava una soluzione elegante, efficiente, tecnicamente ineccepibile. Ma il 5 febbraio 2026, Google e Microsoft hanno deciso di chiudere bruscamente questa porta, trasformando quella che sembrava un’ottimizzazione intelligente in una violazione delle policy.

La sentenza è arrivata chiara: servire pagine diverse agli umani e ai bot non è “ottimizzazione per l’AI”, è cloaking.

E nel mondo dei motori di ricerca, il cloaking è un peccato capitale.

Questa presa di posizione, apparentemente conservatrice, nasconde in realtà una verità tecnica che molti di noi sviluppatori tendiamo a dimenticare: le macchine che stiamo cercando di “aiutare” sono state addestrate proprio su quel disordine che stiamo cercando di nascondere.

L’illusione della purezza del dato

Per capire la frustrazione di chi scrive codice oggi, bisogna guardare al “peso” di una moderna pagina web. Tra l’idratazione lato client, librerie di terze parti e markup semantico spesso abusato, il rapporto segnale/rumore dell’HTML contemporaneo è disastroso.

L’idea di intercettare lo User-Agent di un bot (come GPTBot o ClaudeBot) tramite un middleware e servire un file Markdown pulito nasceva da un’esigenza di efficienza.

I benchmark iniziali erano promettenti. Alcuni test mostravano una riduzione dell’uso dei token fino al 95% per pagina, un dato che per chi gestisce infrastrutture LLM su larga scala si traduce in un risparmio economico massiccio.

Se un bot deve leggere milioni di pagine per aggiornare il suo indice o per rispondere a una query in tempo reale, perché costringerlo a parsare migliaia di righe di HTML inutile?

La risposta di Google, tuttavia, è stata tagliente. John Mueller, Search Advocate di Google, non si è limitato a sconsigliare la pratica, ma ne ha smontato la premessa tecnica con un sarcasmo raro per i canali ufficiali di Mountain View.

Convertire le pagine in markdown è un’idea così stupida. Sapevate che gli LLM possono leggere le immagini? PERCHÉ NON TRASFORMARE TUTTO IL VOSTRO SITO IN UN’IMMAGINE?

— John Mueller, Search Advocate presso Google

Dietro la provocazione c’è una realtà tecnica fondamentale: gli LLM attuali non sono parser XML rigidi degli anni 2000. Sono reti neurali addestrate su petabyte di dati presi dal Common Crawl, che è essenzialmente una discarica di HTML sporco, rotto e malformato.

Un modello come Gemini o GPT-4 “capisce” l’HTML meglio di quanto capisca il Markdown, perché l’HTML porta con sé informazioni strutturali — gerarchie, relazioni spaziali, enfasi semantiche — che nel passaggio a Markdown vengono inevitabilmente appiattite.

Il costo nascosto dell’infrastruttura

Se Google attacca sulla semantica, Microsoft, tramite Bing, punta il dito sull’insostenibilità operativa. Fabrice Canel, dirigente di Microsoft, ha sollevato un problema che demolisce l’argomentazione dell’efficienza: il crawl budget.

L’idea di servire contenuti diversi in base allo User-Agent costringe i motori di ricerca a un doppio lavoro. Devono scaricare la versione per utenti (per verificare cosa vedono le persone e garantire la sicurezza) e poi, potenzialmente, la versione per bot.

Invece di risparmiare risorse, stiamo chiedendo all’infrastruttura globale di ricerca di raddoppiare le richieste HTTP verso i nostri server per verificare che non stiamo mentendo.

Fabrice Canel mette in guardia contro le pagine markdown separate per gli LLM, citando il raddoppio del carico di scansione e i rischi legati alle policy.

— Fabrice Canel, Principal Program Manager presso Microsoft

Inoltre, c’è il problema della “deriva dei contenuti”. Chiunque abbia mantenuto un sistema software complesso sa che due versioni della stessa risorsa tenderanno inevitabilmente a divergere. La pagina HTML viene aggiornata dal team di marketing, mentre il template Markdown generato dal backend rimane indietro.

Il risultato?

L’AI risponde con dati obsoleti mentre l’utente vede dati aggiornati. Per un motore di ricerca che basa la sua reputazione sulla freschezza e l’accuratezza, questo disallineamento è inaccettabile.

È interessante notare come questo dibattito si colleghi al fallimento di iniziative precedenti come llms.txt, proposta nel 2024 per standardizzare le preferenze dei contenuti per l’AI. Anche in quel caso, Google ha chiarito che non supporterà protocolli specifici per LLM, ribadendo che gli standard web esistenti (HTML, Sitemap, Robots.txt) sono sufficienti e preferibili.

Oltre il codice: la battaglia per il controllo

La vera questione, però, non è solo tecnica.

È politica ed economica.

Consentire ai siti web di servire una versione “solo dati” del proprio contenuto significa rendere il web agnostico rispetto alla presentazione. Significa trasformare ogni sito in un database pubblico, facilmente consumabile, remixabile e monetizzabile da terzi senza che l’utente debba mai atterrare sulla pagina originale.

Google e Bing, che vivono di traffico e di ecosistemi visuali (dove risiedono le pubblicità), non hanno alcun interesse a incentivare un web “headless”, privo di interfaccia. La loro insistenza sull’HTML non è solo purismo tecnico; è una difesa dello status quo in cui il contenuto è indissolubilmente legato alla sua presentazione visiva.

C’è poi un aspetto di sicurezza e fiducia. La tecnica di mostrare una cosa al bot e un’altra all’utente è, storicamente, lo strumento preferito dagli spammer. Anche se le intenzioni degli sviluppatori oggi sono benigne, il meccanismo è identico a quello utilizzato per nascondere malware o siti di gambling illegale.

I motori di ricerca non possono permettersi di fare distinzioni basate sulle “buone intenzioni” dichiarate in un thread su Reddit o Bluesky.

John Mueller ha sollevato dubbi tecnici sulla capacità degli LLM di seguire i link in file di testo, evidenziando come la struttura di navigazione interna rischi di andare persa in una conversione brutale verso il Markdown. Se un bot AI riceve solo un blocco di testo, come può comprendere la gerarchia del sito o l’importanza relativa delle pagine collegate?

La lezione per noi sviluppatori è amara ma necessaria. Spesso cerchiamo di reingegnerizzare il mondo per renderlo più “pulito” per i nostri algoritmi, dimenticando che la resilienza del web sta proprio nella sua ridondanza e nella sua natura visiva.

L’HTML, con tutti i suoi difetti, rimane la lingua franca. Tentare di creare corsie preferenziali per l’AI non solo viola le regole del gioco, ma paradossalmente sottovaluta proprio l’intelligenza di quelle macchine che stiamo cercando di facilitare.

Se un’AI non riesce a estrarre valore da una pagina HTML ben formattata, forse il problema non è il formato, ma l’AI stessa.

O forse, più inquietante, il problema è che stiamo cercando di risolvere con l’ingegneria quello che è essenzialmente un conflitto di interessi tra chi produce contenuti e chi li consuma automaticamente.

Scritto da Luca Verdi

Developer e tech writer. Spiega la tecnologia dal punto di vista tecnico senza perdere di vista l'accessibilità. Ex software engineer, ora si dedica al giornalismo tech.

Amazon dichiara guerra ai 12 minuti di noia: così Fire TV e il nuovo Ember Artline vogliono cambiare le nostre serate

Il paradosso Amazon: vetrina chiusa, pubblicità a pagamento

Doppiaggio AI: Il Compromesso tra Ritmo e Significato

Fan-out: la tecnica distribuita che sta monopolizzando la ricerca visiva

Categories

Pages

Newsletter

Non perdere nemmeno un articolo.

Google e Microsoft vietano il web parallelo per AI: servire Markdown ai bot è cloaking

Questa decisione ha stroncato il sogno degli sviluppatori di creare versioni in Markdown o JSON dei siti web per alimentare gli algoritmi, considerandola una violazione delle policy invece che un’ottimizzazione intelligente.

L’illusione della purezza del dato

Il costo nascosto dell’infrastruttura

Oltre il codice: la battaglia per il controllo

Questa decisione ha stroncato il sogno degli sviluppatori di creare versioni in Markdown o JSON dei siti web per alimentare gli algoritmi, considerandola una violazione delle policy invece che un’ottimizzazione intelligente.

L’illusione della purezza del dato

Il costo nascosto dell’infrastruttura

Oltre il codice: la battaglia per il controllo

Articoli correlati

Il Patrimonio di Rasheeda Frost: Analisi della Sua Strategia Imprenditoriale nel 2025

L’Intelligenza Artificiale Pettegola: Quando i Chatbot Rivelano i Nostri Segreti

Microsoft: il bilancio del 2026 sarà un referendum sull’ia e Activision