Cyrus Shepard scherza, ma Google e Bing: Markdown per AI è “idea stupida”
Cyrus Shepard ironizza sul Markdown per l'AI. I motori di ricerca faticano a indicizzarlo, mentre i LLM lo preferiscono. Google e Bing avvertono contro versioni separate.
Il dibattito tecnico si accende sul perché i motori di ricerca globali, nonostante l’avanzamento dell’IA, faticano con il Markdown, mentre i modelli linguistici lo preferiscono per la sua semplicità.
La scherzata di Cyrus Shepard, esperto di marketing digitale, è stata una di quelle che fanno ridere ma anche riflettere. In un post su Zapier, ha ironicamente suggerito che per ottenere traffico dai motori di ricerca alimentati da intelligenza artificiale, forse bisognerebbe convertire ogni pagina web in un file Markdown.
Il sottotesto era chiaro: se i grandi modelli linguistici (LLM) che sempre più spesso rispondono direttamente alle nostre ricerche preferiscono la semplicità del Markdown, perché non darglielo?
La battuta, però, ha toccato un nervo scoperto in un dibattito tecnico già in corso tra sviluppatori e, soprattutto, ha fatto eco a una serie di dichiarazioni imbarazzanti provenienti direttamente dalle stanze dei bottoni di Google e Microsoft.
Perché, a quanto pare, i motori di ricerca più potenti del mondo hanno qualche difficoltà con il Markdown, un formato di testo semplice e diffusissimo tra sviluppatori, scrittori tecnici e piattaforme come GitHub.
Non si tratta di una semplice preferenza estetica, ma di un problema di parsing – il processo con cui un software interpreta e struttura un documento – che ha implicazioni dirette su come l’informazione viene scoperta, compresa e infine restituita agli utenti.
Mentre l’IA avanza promettendo comprensione semantica profonda, un blocco di base come un file .md sembra poter creare intoppi inaspettati.
I webmaster si scontrano con file “fantasma” e avvertenze ufficiali
La questione è emersa in modo pratico nelle community di webmaster. Alcuni si sono accorti che file Markdown venivano regolarmente scandagliati dai crawler di Google, ma finivano in una sorta di limbo, categorizzati come “scansionati – attualmente non indicizzati”.
La risposta ufficiale è stata che Google non indicizza contenuti Markdown di per sé, ma potrebbe comunque scansionare i file .md perché alcuni siti servono effettivamente pagine HTML con quell’estensione.
È una spiegazione che lascia un alone di ambiguità: il sistema è costretto a controllare per non perdersi contenuti validi, ma poi non sa bene cosa farsene di molti di quei file.
L’aspetto più significativo, però, è arrivato sotto forma di avvertimento esplicito. Sia John Mueller di Google che Fabrice Canel di Microsoft Bing hanno preso posizione pubblicamente contro una pratica che stava iniziando a circolare: creare versioni separate dei contenuti, in Markdown o JSON, dedicate esclusivamente ai crawler degli LLM.
L’idea, in teoria, era di agevolare questi agenti IA con un formato più pulito e leggero rispetto all’HTML pieno di tag. La reazione dei due tecnici è stata di netta contrarietà.
Mueller non ha usato mezzi termini, definendo l’idea di servire file Markdown semplificati per i bot invece delle normali pagine HTML come un’idea discutibile. I suoi dubbi erano tecnici e pratici: i bot degli LLM sono in grado di interpretare correttamente i link in Markdown? Cosa succede alla struttura di navigazione interna quando si rimuovono header e menu?
Il rischio, implicito, è che invece di aiutare, si crei confusione e si rompa l’esperienza che l’IA cerca di ricostruire.
Dall’altra parte, Fabrice Canel di Bing ha aggiunto un altro tassello cruciale, legato all’efficienza e alla policy. Creare una versione duplicata per i bot, ha spiegato, raddoppia sostanzialmente il carico di scansione per i crawler, che comunque dovranno verificare la similarità con la versione per umani per scongiurare pratiche ingannevoli.
Ma il punto chiave è stato un altro: fornire una versione diversa – anche se più “pulita” – agli agenti AI rispetto agli utenti umani rasenta il cloaking, una violazione delle linee guida per i webmaster che può portare a penalizzazioni.
La sua raccomandazione è stata di usare gli strumenti a disposizione, come Bing Webmaster Tools, per monitorare le prestazioni del sito e capire come utenti e motori interagiscono con i contenuti, senza creare percorsi separati.
Il paradosso tecnico: l’ia ama il Markdown, i motori di ricerca faticano
Qui si arriva al cuore del paradosso. Da una parte, c’è un movimento tecnico che vede nel Markdown il formato ideale per l’era dell’IA. La sua eleganza sta nella semplicità: sintassi leggera, struttura chiara (titoli, liste, grassetti) senza il rumore di tag HTML annidati e boilerplate.
Per un modello linguistico che deve estrarre significato, un documento in Markdown è un pasto più digeribile. Alcuni agenti AI, come Claude Code, sono noti per cercare attivamente versioni Markdown dei siti web.
Piattaforme e CMS tecnici – da Jekyll a Hugo – hanno costruito interi ecosistemi attorno al Markdown, proprio perché garantisce un HTML finale pulito, semantico e coerente.
La filosofia, come spiegava il creatore del formato John Gruber, è sempre stata quella della massima leggibilità, sia nel codice sorgente che nel rendering.
Dall’altra parte, i motori di ricerca tradizionali, anche quelli che ora integrano IA, sono costruiti su decenni di infrastrutture ottimizzate per l’HTML. I loro crawler, gli indicizzatori e gli algoritmi di ranking sono tarati per interpretare il markup HTML, valutarne la struttura semantica, misurare l’esperienza utente attraverso metriche come i Core Web Vitals.
Un file .md è, per loro, un oggetto estraneo.
Bing, nella sua documentazione, ammette che i suoi crawler non preferiscono uno standard di dati strutturati rispetto a un altro, ma questo vale per formati come JSON-LD o Microdata all’interno di HTML, non per file di testo grezzo con estensione .md.
Il problema non è quindi che i motori non possano leggere il Markdown – tecnicamente, è testo semplice – ma che il loro processo di indicizzazione e valutazione della qualità si inceppa quando lo incontra fuori dal contesto di una pagina HTML renderizzata.
Manca il contesto del layout, della navigazione, degli elementi interattivi che contribuiscono a giudicare l’esperienza utente.
Inoltre, come sottolineano sia Google che Bing, la proliferazione di file .md accessibili pubblicamente può creare problemi di contenuto duplicato e sprecare prezioso crawl budget, la quota di pagine che un motore è disposto a scansionare su un sito in un dato periodo.
La tensione è palpabile: da un lato, l’entusiasmo per un formato che sembra fatto apposta per la comunicazione macchina-macchina nell’era dei LLM; dall’altro, la realtà di infrastrutture di ricerca colossali che faticano ad adattarsi a qualcosa di più semplice, ma anche di più opaco per i loro metrici tradizionali.
È un po’ come se due lingue molto simili, ma non identiche, stessero cercando di diventare il lingua franca del web, con gli interpreti ufficiali – i motori di ricerca – che ancora esitano sulla direzione da prendere.
La soluzione, per ora, non sembra essere la creazione di un web parallelo in Markdown per i bot. Piuttosto, la strada maestra indicata dai big della ricerca è il doppio binario dell’ottimizzazione classica e della semantica avanzata.
Da una parte, continuare a produrre HTML solido, veloce, accessibile e ben strutturato, che funzioni sia per gli umani che per i bot.
Dall’altra, implementare dati strutturati (schema markup) per aiutare esplicitamente i motori – e di riflesso i sistemi IA che attingono da loro – a comprendere il contesto e il significato dei contenuti.
Strumenti come Bing Webmaster Tools offrono funzionalità per monitorare come i contenuti vengono scoperti e indicizzati, suggerendo che la trasparenza e il controllo siano più utili di un tentativo di “ingannare” il sistema con formati alternativi.
La battuta di Shepard, in definitiva, ha messo il dito su un conflitto di transizione.
Mentre l’IA promette di rivoluzionare la ricerca comprendendo il linguaggio naturale, i suoi stessi facilitatori si scontrano con la difficoltà di gestire un formato di linguaggio naturale strutturato, il Markdown, che è già qui.
La domanda che resta aperta è se i motori di ricerca sceglieranno di potenziare i loro sistemi per abbracciare nativamente formati come il Markdown, riconoscendone il valore per l’ecosistema IA, o se continueranno a trattarli come cittadini di seconda classe, costringendo la rete a parlare la sola lingua che loro comprendono perfettamente: l’HTML del ventesimo secolo.