Cos'è llms.txt e qual era il suo scopo originale?

llms.txt era un file di testo in formato Markdown, da posizionare nella root di un sito web, con l'intento di fungere da 'mappa cortese' per gli agenti di intelligenza artificiale. L'idea era di fornire agli LLM (Large Language Models) un elenco dei contenuti migliori e più rilevanti del sito, puliti e pronti per l'ingestione, evitando che i crawler sprecassero risorse su contenuti meno importanti.

Perché llms.txt non ha avuto il successo sperato?

llms.txt non è diventato uno standard perché i grandi modelli di linguaggio (LLM) tendono a ingerire l'intero corpus di un sito web, piuttosto che fidarsi della 'curatela' del proprietario. Le compagnie di AI preferiscono elaborare direttamente i dati grezzi, poiché i loro sistemi sono progettati per digerire grandi quantità di informazioni senza bisogno di indicazioni specifiche.

Qual è stata la reazione di Google all'idea di llms.txt?

Google ha criticato l'utilità tecnica di llms.txt, paragonandolo al vecchio tag meta keywords, considerato obsoleto. Google ha affermato che i motori di ricerca moderni sono in grado di valutare il contenuto di un sito web senza bisogno di auto-dichiarazioni da parte del webmaster, sottolineando come non ci si debba fidare degli input dell'utente quando si hanno le capacità di verificare i dati grezzi.

Cosa è successo con i file llms.txt apparsi sui domini di documentazione di Google?

I file llms.txt apparsi sui domini di documentazione di Google hanno generato confusione e sono stati interpretati come un segnale di adozione da parte di Google. Tuttavia, l'analisi tecnica ha rivelato che si trattava di artefatti di un cambio di CMS interno e non di una strategia di 'discovery' per gli LLM.

Qual è il paradosso attuale riguardante llms.txt?

Il paradosso è che, invece di discutere su come utilizzare llms.txt per migliorare la visibilità di un sito, si discute su come nasconderlo per evitare che finisca negli indici di ricerca e confonda gli utenti umani. John Mueller ha suggerito di utilizzare la direttiva noindex per evitare l'indicizzazione indesiderata di questi file.

Qual è la conclusione sull'utilità di llms.txt?

Investire tempo nella creazione di un llms.txt oggi è considerato simile all'ottimizzazione per browser obsoleti. È un tentativo di imporre ordine a macchine che si basano sulla quantità grezza di dati e sull'inferenza statistica. La spinta verso llms.txt potrebbe essere vista come il desiderio di avere ancora controllo su come i nostri dati vengono consumati, in un'era in cui il processo è diventato una 'scatola nera'.

Google 2 months ago

Llms.txt: un protocollo obsoleto nell’era dell’intelligenza artificiale?

Tra aspettative disattese e log del server, un’analisi impietosa di un protocollo nato per dialogare con l’intelligenza artificiale, ma ignorato dai giganti del settore.

Nel mondo dello sviluppo software, c’è una tensione costante tra come vorremmo che le cose funzionassero e come funzionano realmente. L’idea dietro llms.txt era tecnicamente seducente nella sua semplicità: un file di testo in formato Markdown, posizionato nella root del sito, che agisse da “mappa cortese” per gli agenti di intelligenza artificiale.

“Ehi, crawler di OpenAI o Anthropic, ecco i miei contenuti migliori, puliti e pronti per essere ingeriti, per favore ignora il rumore di fondo”.

Oggi, all’inizio del 2026, possiamo guardare a questa proposta con il disincanto necessario. Quella che doveva essere la stretta di mano standardizzata tra editori e Large Language Models (LLM) si è rivelata, nella pratica, un esercizio di stile ignorato dai giganti tecnologici e frainteso dagli addetti ai lavori.

La promessa di un web semantico “curato” per le macchine si è scontrata con la realtà brutale della forza computazionale: agli LLM non serve che noi gli spieghiamo cosa è importante.

Lo sanno già, e spesso ci ignorano.

L’illusione del controllo e la realtà dei log

L’eleganza di llms.txt risiedeva nel tentativo di replicare il successo storico del robots.txt, il protocollo di esclusione che governa il web dagli anni ’90. Ma mentre robots.txt è un cancello con un lucchetto (o almeno un cartello di divieto che i crawler educati rispettano), llms.txt è sempre stato solo un suggerimento turistico.

La specifica tecnica proponeva di fornire percorsi URL e descrizioni concise, idealmente per risparmiare token e tempo di elaborazione ai modelli.

Tuttavia, chiunque abbia passato del tempo ad analizzare i log del server nell’ultimo anno ha notato un dettaglio imbarazzante: quasi nessuno bussa a quella porta. Le grandi compagnie di AI addestrano i loro modelli ingerendo l’intero corpus di un sito, non fidandosi della “curatela” del proprietario.

L’idea che un file statico potesse influenzare il training di modelli da miliardi di parametri si è scontrata con l’architettura stessa di questi sistemi.

Progettati per digerire il caos, non per chiedere permesso.

La critica più feroce a questo approccio è arrivata da Google stessa, che ha smontato l’utilità tecnica del file paragonandolo a vestigia archeologiche del web 1.0. In una mossa che ha raffreddato gli entusiasmi, Google ha paragonato esplicitamente l’uso di questo file al vecchio e obsoleto tag meta keywords, sottolineando come i motori moderni siano perfettamente in grado di valutare il contenuto senza bisogno di auto-dichiarazioni da parte dei webmaster.

Questa posizione ha evidenziato un principio fondamentale dell’ingegneria del search: mai fidarsi dell’input dell’utente quando si ha la capacità di verificare i dati grezzi.

Il malinteso dei file fantasma

La confusione ha raggiunto il picco verso la fine del 2024 e l’inizio del 2025, quando file llms.txt sono apparsi misteriosamente su vari domini di documentazione di Google. La comunità SEO e dev ha interpretato questo fatto come un segnale di adozione segreta, una sorta di approvazione implicita.

Se Big G lo usa, allora deve essere lo standard, giusto?

Sbagliato.

L’analisi tecnica successiva ha rivelato che quei file non erano segnali per crawler esterni, ma artefatti di un cambio di CMS interno. Google non stava comunicando con le AI del mondo; stava semplicemente facendo pulizia nei suoi server.

John Mueller, Search Advocate di Google, è dovuto intervenire più volte per chiarire che la presenza di quei file non indicava una strategia di “discovery” per gli LLM.

Per me, è paragonabile al meta tag keywords – questo è ciò che il proprietario di un sito sostiene che il suo sito riguardi… (Il sito è davvero così? Beh, puoi controllarlo. A quel punto, perché non controllare direttamente il sito?)

— John Mueller, Search Advocate presso Google

Questo episodio è emblematico di come l’industria tenda a sovra-interpretare segnali tecnici in assenza di documentazione chiara. La presenza di un file in una directory non implica una funzionalità attiva.

Nel codice, come nella vita, a volte un file dimenticato è solo un file dimenticato.

Un protocollo per nessuno

La situazione è diventata paradossale quando si è iniziato a discutere non di come usare llms.txt per farsi trovare, ma di come nasconderlo. Essendo file di testo pubblico, rischiavano di finire negli indici di ricerca tradizionali, apparendo nelle SERP e confondendo gli utenti umani che cercavano informazioni e si trovavano davanti a righe di codice Markdown.

La soluzione proposta ha trasformato uno strumento di “visibilità” in un problema di gestione. Per mitigare il rischio di inquinamento dei risultati di ricerca, John Mueller ha suggerito di applicare la direttiva noindex proprio per evitare indicizzazioni indesiderate di questi file tecnici.

Ci troviamo quindi di fronte a un protocollo che:

Le principali AI non richiedono né controllano attivamente nei log.
I motori di ricerca consigliano di nascondere.
Serve principalmente a placare l’ansia dei proprietari dei siti che vogliono “sentirsi pronti” per l’era dell’AI.

Tecnicamente parlando, investire tempo nella creazione di un llms.txt oggi è simile all’ottimizzazione per browser che non esistono più.

È un tentativo di imporre ordine, una qualità umana, a macchine che prosperano sulla quantità grezza e sull’inferenza statistica.

Resta da chiedersi se la spinta verso llms.txt non fosse altro che il desiderio collettivo di avere ancora voce in capitolo su come i nostri dati vengono consumati, in un’epoca in cui il “come” è diventato una scatola nera inaccessibile anche agli ingegneri che l’hanno costruita.

Scritto da Luca Verdi

Developer e tech writer. Spiega la tecnologia dal punto di vista tecnico senza perdere di vista l'accessibilità. Ex software engineer, ora si dedica al giornalismo tech.

Addio alle mappe, benvenuto all’assistente digitale: come Google sta rivoluzionando la guida

Il Marketing B2B nell’Era AI: Proprietà del Percorso vs. Declino del Traffico Organico

Da Codificatori ad Architetti: Come l’AI Riscrive il Ruolo degli Ingegneri

Amazon Shop Direct e la guerra degli standard nell’e-commerce

Categories

Pages

Newsletter

Non perdere nemmeno un articolo.

Llms.txt: un protocollo obsoleto nell’era dell’intelligenza artificiale?

Tra aspettative disattese e log del server, un’analisi impietosa di un protocollo nato per dialogare con l’intelligenza artificiale, ma ignorato dai giganti del settore.

L’illusione del controllo e la realtà dei log

Il malinteso dei file fantasma

Un protocollo per nessuno

Tra aspettative disattese e log del server, un’analisi impietosa di un protocollo nato per dialogare con l’intelligenza artificiale, ma ignorato dai giganti del settore.

L’illusione del controllo e la realtà dei log

Il malinteso dei file fantasma

Un protocollo per nessuno

Articoli correlati

Actual SEO Media: l’intent-first con AI ridefinisce la strategia Google Ads.

L’IA allucina numeri di telefono e ruba traffico: il costo nascosto della ‘verità’ probabilistica

Google contro Humanze.ai: la corsa all’autenticità dei contenuti AI