Llms.txt: un protocollo obsoleto nell'era dell'intelligenza artificiale?

Llms.txt: un protocollo obsoleto nell’era dell’intelligenza artificiale?

Tra aspettative disattese e log del server, un’analisi impietosa di un protocollo nato per dialogare con l’intelligenza artificiale, ma ignorato dai giganti del settore.

Nel mondo dello sviluppo software, c’è una tensione costante tra come vorremmo che le cose funzionassero e come funzionano realmente. L’idea dietro llms.txt era tecnicamente seducente nella sua semplicità: un file di testo in formato Markdown, posizionato nella root del sito, che agisse da “mappa cortese” per gli agenti di intelligenza artificiale.

“Ehi, crawler di OpenAI o Anthropic, ecco i miei contenuti migliori, puliti e pronti per essere ingeriti, per favore ignora il rumore di fondo”.

Oggi, all’inizio del 2026, possiamo guardare a questa proposta con il disincanto necessario. Quella che doveva essere la stretta di mano standardizzata tra editori e Large Language Models (LLM) si è rivelata, nella pratica, un esercizio di stile ignorato dai giganti tecnologici e frainteso dagli addetti ai lavori.

La promessa di un web semantico “curato” per le macchine si è scontrata con la realtà brutale della forza computazionale: agli LLM non serve che noi gli spieghiamo cosa è importante.

Lo sanno già, e spesso ci ignorano.

L’illusione del controllo e la realtà dei log

L’eleganza di llms.txt risiedeva nel tentativo di replicare il successo storico del robots.txt, il protocollo di esclusione che governa il web dagli anni ’90. Ma mentre robots.txt è un cancello con un lucchetto (o almeno un cartello di divieto che i crawler educati rispettano), llms.txt è sempre stato solo un suggerimento turistico.

La specifica tecnica proponeva di fornire percorsi URL e descrizioni concise, idealmente per risparmiare token e tempo di elaborazione ai modelli.

Tuttavia, chiunque abbia passato del tempo ad analizzare i log del server nell’ultimo anno ha notato un dettaglio imbarazzante: quasi nessuno bussa a quella porta. Le grandi compagnie di AI addestrano i loro modelli ingerendo l’intero corpus di un sito, non fidandosi della “curatela” del proprietario.

L’idea che un file statico potesse influenzare il training di modelli da miliardi di parametri si è scontrata con l’architettura stessa di questi sistemi.

Progettati per digerire il caos, non per chiedere permesso.

La critica più feroce a questo approccio è arrivata da Google stessa, che ha smontato l’utilità tecnica del file paragonandolo a vestigia archeologiche del web 1.0. In una mossa che ha raffreddato gli entusiasmi, Google ha paragonato esplicitamente l’uso di questo file al vecchio e obsoleto tag meta keywords, sottolineando come i motori moderni siano perfettamente in grado di valutare il contenuto senza bisogno di auto-dichiarazioni da parte dei webmaster.

Questa posizione ha evidenziato un principio fondamentale dell’ingegneria del search: mai fidarsi dell’input dell’utente quando si ha la capacità di verificare i dati grezzi.

Il malinteso dei file fantasma

La confusione ha raggiunto il picco verso la fine del 2024 e l’inizio del 2025, quando file llms.txt sono apparsi misteriosamente su vari domini di documentazione di Google. La comunità SEO e dev ha interpretato questo fatto come un segnale di adozione segreta, una sorta di approvazione implicita.

Se Big G lo usa, allora deve essere lo standard, giusto?

Sbagliato.

L’analisi tecnica successiva ha rivelato che quei file non erano segnali per crawler esterni, ma artefatti di un cambio di CMS interno. Google non stava comunicando con le AI del mondo; stava semplicemente facendo pulizia nei suoi server.

John Mueller, Search Advocate di Google, è dovuto intervenire più volte per chiarire che la presenza di quei file non indicava una strategia di “discovery” per gli LLM.

Per me, è paragonabile al meta tag keywords – questo è ciò che il proprietario di un sito sostiene che il suo sito riguardi… (Il sito è davvero così? Beh, puoi controllarlo. A quel punto, perché non controllare direttamente il sito?)

— John Mueller, Search Advocate presso Google

Questo episodio è emblematico di come l’industria tenda a sovra-interpretare segnali tecnici in assenza di documentazione chiara. La presenza di un file in una directory non implica una funzionalità attiva.

Nel codice, come nella vita, a volte un file dimenticato è solo un file dimenticato.

Un protocollo per nessuno

La situazione è diventata paradossale quando si è iniziato a discutere non di come usare llms.txt per farsi trovare, ma di come nasconderlo. Essendo file di testo pubblico, rischiavano di finire negli indici di ricerca tradizionali, apparendo nelle SERP e confondendo gli utenti umani che cercavano informazioni e si trovavano davanti a righe di codice Markdown.

La soluzione proposta ha trasformato uno strumento di “visibilità” in un problema di gestione. Per mitigare il rischio di inquinamento dei risultati di ricerca, John Mueller ha suggerito di applicare la direttiva noindex proprio per evitare indicizzazioni indesiderate di questi file tecnici.

Ci troviamo quindi di fronte a un protocollo che:

  1. Le principali AI non richiedono né controllano attivamente nei log.
  2. I motori di ricerca consigliano di nascondere.
  3. Serve principalmente a placare l’ansia dei proprietari dei siti che vogliono “sentirsi pronti” per l’era dell’AI.

Tecnicamente parlando, investire tempo nella creazione di un llms.txt oggi è simile all’ottimizzazione per browser che non esistono più.

È un tentativo di imporre ordine, una qualità umana, a macchine che prosperano sulla quantità grezza e sull’inferenza statistica.

Resta da chiedersi se la spinta verso llms.txt non fosse altro che il desiderio collettivo di avere ancora voce in capitolo su come i nostri dati vengono consumati, in un’epoca in cui il “come” è diventato una scatola nera inaccessibile anche agli ingegneri che l’hanno costruita.

Facebook X Network Pinterest Instagram
🍪 Impostazioni Cookie