File Markdown: Google e Bing preoccupati per carico crawl e qualità.
Google e Bing condannano il Markdown per l'AI, definendolo "una stupidata". Avvertono su raddoppio del crawl e cloaking, spingendo per l'HTML standard.
I due principali motori di ricerca, Google e Bing, hanno infatti alzato la voce per condannare questa pratica, spiegando come possa raddoppiare il carico di crawling, sfiorare politiche anti-cloaking e togliere contesto ai loro avanzati sistemi AI.
La corsa per essere “amici dell’AI” ha appena incontrato un muro di mattoni.
Dopo mesi in cui alcuni consulenti SEO e sviluppatori suggerivano di creare versioni semplificate in Markdown dei propri siti per facilitare il crawling da parte dei grandi modelli linguistici, i due principali motori di ricerca hanno alzato la voce per dire che si tratta di una pessima idea.
Anzi, secondo le parole usate da John Mueller, Search Advocate di Google, è proprio “una stupidata”.
Dall’altra parte, Fabrice Canel, Principal Program Manager di Microsoft Bing, ha lanciato un avvertimento altrettanto netto, sottolineando come questa pratica possa raddoppiare il carico di crawling e sfiorare politiche anti-cloaking.
Ma perché due giganti che competono ferocemente nel campo dell’intelligenza artificiale si trovano improvvisamente alleati nel condannare una pratica che, in teoria, dovrebbe agevolare proprio i loro sistemi AI?
La risposta, come spesso accade, ha più a che fare con il controllo, i costi infrastrutturali e la difesa di un ecosistema consolidato che con la pura efficienza tecnica.
L’idea alla base del “Markdown per l’AI” sembrava, in superficie, geniale: perché far faticare i crawler degli LLM a estrarre testo da complessi template HTML, con menu, footer, widget e script, quando si può servire loro un file pulito, leggero e privo di fronzoli?
Alcuni, come Cloudflare, hanno persino iniziato a offrire strumenti per convertire automaticamente l’HTML in Markdown proprio con questo scopo.
La promessa implicita era un vantaggio competitivo: fornendo un pasto più digeribile agli AI bot, il proprio contenuto avrebbe potuto essere citato più accuratamente, o magari più spesso, nelle risposte generate da ChatGPT, Copilot o Gemini.
Un sogno per ogni publisher in cerca di visibilità nel nuovo web guidato dagli assistenti conversazionali.
Peccato che Google e Bing, che di quei bot sono i principali creatori e utilizzatori, non siano d’accordo.
Anzi, vedono in questa tendenza un potenziale incubo operativo.
Perché i motori di ricerca odiano il Markdown “speciale”
Le obiezioni tecniche sollevate da Mueller e Canel sono multiple e vanno oltre il semplice gusto personale.
Il primo e più pragmatico problema è il carico di crawl.
Immaginate di avere un sito con diecimila pagine.
Se ne create una versione speculare in Markdown, per i motori di ricerca diventano ventimila URL da scansionare.
Fabrice Canel di Bing ha spiegato senza mezzi termini che il loro sistema dovrebbe comunque eseguire il crawling di entrambe le versioni per verificarne la somiglianza.
Questo non solo raddoppia il lavoro per i loro server, ma intacca il cosiddetto “crawl budget” dei siti web – la quantità di pagine che un motore è disposto a scandagliare in un dato periodo.
Risultato: risorse sprecate per scoprire contenuti duplicati, a scapito forse della scoperta di contenuti nuovi e genuini.
Il secondo, e più insidioso, problema è il cloaking.
Per decenni, i motori di ricerca hanno combattuto la pratica di mostrare contenuti diversi ai bot rispetto agli utenti umani, una tecnica fraudolenta per manipolare le classifiche.
Servire una pagina HTML completa a un visitatore e una versione Markdown stripped-down a un crawler AI rasenta pericolosamente questa linea.
Anche se l’intento non è ingannare, la differenza tecnica esiste.
Mueller ha ironizzato sulla cosa, chiedendosi perché mai un LLM dovrebbe voler vedere una pagina che nessun utente vede.
La sua argomentazione è che i modelli linguistici si sono addestrati sul web così com’è, HTML compreso, e sono perfettamente in grado di gestirlo.
Privarli della struttura – i tag di intestazione, la navigazione, i link interni – significa in realtà togliere contesto e significato.
Un link in un menu di navigazione dice qualcosa sulla relazione tra le pagine; lo stesso link in un blocco di testo Markdown piatto, molto meno.
Lily: vuoi davvero raddoppiare il carico di crawl? Noi eseguiremo comunque il crawling per verificare la somiglianza. Le versioni non per utenti (AJAX crawlable e simili) sono spesso trascurate, rotte. Gli occhi umani aiutano a sistemare i contenuti visti dalle persone e dai bot. A noi piace lo Schema nelle pagine. L’AI ci rende bravissimi a comprendere le pagine web. In SEO, meno è più!
— Fabrice Canel, Principal Program Manager, Microsoft Bing
C’è poi una questione di mantenimento e decadimento.
Canel osserva acutamente che le versioni di contenuti create “per i bot” tendono a essere trascurate.
Mentre un team si concentra sull’aggiornare il sito principale visibile agli utenti, la copia in Markdown può facilmente diventare obsoleta, contenere link rotti o non riflettere aggiornamenti.
Questo crea un’esperienza scadente per l’AI che la consuma e, indirettamente, per l’utente finale che riceve una risposta basata su informazioni datate.
In un’epoca in cui l’accuratezza è la nuova valuta del web, è un rischio non da poco.
Il vero conflitto: chi controlla l’accesso alla conoscenza?
Al di là delle giustificazioni tecniche, le dichiarazioni di Google e Bing svelano una tensione più profonda nel panorama digitale attuale.
Per due decenni, Google ha dettato le regole del gioco della visibilità online attraverso il suo algoritmo di ricerca.
Ora, con l’ascesa degli LLM che sintetizzano informazioni invece di limitarsi a elencare link, quel controllo è minacciato.
L’idea che i publisher possano “ottimizzare” direttamente per i modelli AI, magari bypassando alcuni dei segnali tradizionali su cui Google ha costruito il suo impero, è destabilizzante.
Consigliando di attenersi al classico HTML “pulito”, Google e Bing riaffermano la centralità del formato web standard che i loro sistemi sanno analizzare e, soprattutto, monetizzare meglio.
Inoltre, c’è una questione di costi e di equità.
Il crawling massiccio da parte dei bot AI sta già mettendo sotto pressione le infrastrutture del web.
Secondo dati di Cloudflare, il traffico dei crawler è cresciuto del 18% tra il 2024 e il 2025, con i bot AI che arrivano a circa 50 miliardi di richieste al giorno sulla loro rete.
Se ogni sito iniziasse a servire un set duplicato di pagine in Markdown, questo carico esploderebbe.
Chi dovrebbe sostenere il costo?
I publisher, per l’hosting e la banda?
O i giganti tech, per il crawling e l’elaborazione?
La posizione di Google e Bing sembra dire: “Non create ulteriore lavoro inutile per i nostri sistemi. Noi siamo già bravi a estrarre quello che ci serve”.
È ironico che l’argomentazione chiave dei promotori del Markdown – l’efficienza nel ridurre i “token” processati – venga ribaltata dai motori di ricerca.
Mueller smonta l’idea che la riduzione dei token equivalga a una migliore visibilità AI.
Per loro, la struttura è informazione.
Un titolo racchiuso in un tag <h1> non è solo testo; è una dichiarazione esplicita di importanza che un algoritmo può comprendere immediatamente.
Un “##” in Markdown è più ambiguo.
Le linee guida ufficiali di Bing sottolineano proprio l’importanza di creare contenuti chiari, unici, di alta qualità, rilevanti e facili da trovare, presupponendo un formato standard che permetta tutto ciò.
Cosa succede ora? Il ritorno all’html (con rabbia)
L’avvertimento è chiaro e le implicazioni per chi fa SEO sono immediate: abbandonate i piani per directory /markdown-for-ai/.
Il rischio non è solo di non ottenere benefici, ma di attirare guai, dallo spreco del crawl budget a potenziali penalizzazioni per cloaking.
La strada maestra indicata dai due rivali è sorprendentemente tradizionale: fare un buon sito web, in HTML, per gli umani.
Un sito veloce, ben strutturato, con una gerarchia di intestazioni chiara e un sistema di link interni solido che aiuti sia gli utenti che i bot a navigare.
In altre parole, le buone pratiche SEO di sempre.
Ma questa unanimità tra Google e Bing non dovrebbe farci dormire sonni tranquilli.
Piuttosto, solleva una domanda inquietante: se anche le aziende che costruiscono gli AI più avanzati ci dicono che non servono formati speciali, significa che il loro controllo sull’estrazione e l’interpretazione della conoscenza dal web è già totale?
Stanno forse dicendo: “Non provate a facilitare il lavoro ai nostri competitor (o a voi stessi), perché tanto il nostro sistema è così potente che non ne avete bisogno”?
Oppure, più semplicemente, stanno cercando di evitare un caos infrastrutturale di cui poi sarebbero loro stessi, in parte, vittime?
La verità probabilmente sta nel mezzo.
Ma una cosa è certa: nella nuova guerra per l’attenzione dell’AI, il primo colpo è stato sparato non da uno startup innovativa, ma dai guardiani del vecchio ordine, che hanno deciso che le regole del gioco, per ora, non cambiano.