Llms.txt: il file fantasma che non piace alle intelligenze artificiali

Llms.txt: il file fantasma che non piace alle intelligenze artificiali

Nonostante sia stato implementato da quasi un milione di siti, `llms.txt` sembra essere ignorato dai giganti dell’AI, alimentando un dibattito sulla fiducia e il controllo dei dati nel web.

C’è un vecchio adagio nel mondo della tecnologia che dice: se costruisci un’autostrada, le macchine arriveranno.

Ma cosa succede se costruisci l’autostrada, metti i cartelli, dipingi le strisce e le macchine… continuano a passare attraverso i campi di grano ignorandoti completamente?

Benvenuti nel curioso caso di llms.txt, il file fantasma che sta facendo impazzire gli sviluppatori web in questo inizio 2026.

Immaginate llms.txt come un “biglietto da visita” evoluto per il vostro sito web, pensato specificamente per le Intelligenze Artificiali.

L’idea, sulla carta, è geniale: invece di lasciare che i bot di Google o OpenAI scansionino a caso le vostre pagine, fornite loro un file di testo pulito, ordinato, che dice: “Ehi, le cose importanti sono qui, prendi queste”.

È un concetto che promette ordine nel caos del web scraping.

Tuttavia, c’è un problema fondamentale che sta emergendo con forza in queste settimane: stiamo parlando con un muro.

O meglio, stiamo lasciando bigliettini gentili a un bulldozer.

L’illusione del controllo

Per capire perché questo standard proposto sta fallendo, dobbiamo guardare alla storia del web.

Negli anni ’90, usavamo i “meta keywords” per dire ai motori di ricerca di cosa parlavano i nostri siti. Era un sistema basato sulla fiducia.

E come è finita? Lo spam ha ucciso quella fiducia, e Google ha smesso di guardarli decenni fa.

Oggi, la situazione con llms.txt è inquietantemente simile.

Nonostante l’entusiasmo della comunità open source e di oltre 800.000 siti web che hanno già implementato questo file, i giganti del settore sembrano non volerne sapere.

La posizione di Mountain View è stata cristallina fin dall’inizio, quando John Mueller ha paragonato llms.txt ai vecchi meta tag keywords ormai obsoleti, avvertendo che si tratta di uno sforzo inutile per i proprietari dei siti.

La logica è spietata ma sensata: perché un’IA dovrebbe fidarsi di ciò che voi dite essere importante, quando può analizzare tutto e decidere da sola?

È una questione di potere.

robots.txt (il file che blocca i bot) funziona perché è un divieto, e legalmente le aziende tendono a rispettarlo.

llms.txt è un suggerimento, e nel mondo dell’addestramento dei modelli linguistici, i suggerimenti valgono quanto la carta straccia se non portano un vantaggio immediato all’addestratore.

Eppure, proprio quando la questione sembrava chiusa, un “errore di sistema” ha riacceso le speranze, creando uno dei cortocircuiti comunicativi più interessanti degli ultimi mesi.

Il grande equivoco di dicembre

Lo scorso dicembre, la comunità SEO ha avuto un sussulto collettivo. Diversi file llms.txt sono apparsi improvvisamente su alcuni sottodomini ufficiali di Google, inclusi quelli dedicati alla documentazione per sviluppatori.

Sembrava la “pistola fumante”: Google dice pubblicamente di ignorare il file, ma segretamente lo usa sui propri siti?

La realtà, come spesso accade nella tecnologia, era molto meno cospiratoria e molto più burocratica.

Non era un cambio di rotta strategico, ma l’effetto collaterale di un aggiornamento dei CMS (i sistemi di gestione dei contenuti) usati internamente, che generavano quei file di default.

La reazione è stata immediata: il team di ricerca di Google ha rimosso rapidamente i file dalla documentazione per evitare di inviare segnali contrastanti.

Questo episodio ci insegna quanto sia fragile l’ecosistema dell’informazione attuale.

Basta un file di testo generato automaticamente per scatenare speculazioni su strategie aziendali globali. John Mueller, Search Advocate di Google, ha dovuto ribadire il concetto con una chiarezza disarmante, stroncando sul nascere ogni teoria del complotto:

A quanto mi risulta, nessuno dei servizi AI ha dichiarato di utilizzare LLMs.TXT (e si può vedere guardando i log del server che non lo controllano nemmeno). Per me, è paragonabile al meta tag keywords: è quello che il proprietario di un sito dichiara essere il contenuto del sito… (Il sito è davvero così? Beh, puoi controllarlo. A quel punto, perché non controllare direttamente il sito?)

— John Mueller, Search Advocate presso Google

Se l’azienda che indicizza il mondo intero ti dice che non sta guardando il tuo file, probabilmente dovresti crederle.

Ma questo ci porta a un paradosso ancora più grande.

Un dialogo tra sordi

Perché, nonostante le smentite, quasi un milione di siti continua a implementare questo standard?

La risposta risiede nel bisogno umano di fare qualcosa.

Di fronte all’avanzata inarrestabile delle IA che “mangiano” i nostri contenuti per addestrarsi, sentirsi parte di un processo di curatela ci dà l’impressione di avere ancora il volante in mano.

È un effetto placebo digitale.

Investiamo tempo (si stima da 1 a 4 ore per un’implementazione corretta) per creare percorsi di lettura ottimizzati per macchine che non li percorreranno mai.

La dura verità tecnica è che nessun sistema di intelligenza artificiale utilizza attualmente questo standard, rendendo il file llms.txt un esercizio di stile, una lettera spedita senza indirizzo.

Gary Illyes, analista di Google, è stato ancora più diretto sulla questione, togliendo ogni dubbio residuo sulla posizione del colosso di Mountain View:

Google non supporta LLMs.txt e non ha intenzione di farlo.

— Gary Illyes, Analyst presso Google

La resistenza delle grandi aziende tech a standard proposti “dal basso” non è nuova, ma qui c’è in gioco la qualità dei dati.

Se tutti iniziassero a usare llms.txt per nascondere i contenuti mediocri e mostrare solo quelli eccellenti, le IA verrebbero addestrate su una versione idealizzata del web, non su quella reale.

E per quanto possa sembrare bello, un modello che non conosce la “spazzatura” del web non saprà riconoscerla quando l’utente gliela chiederà.

Siamo quindi di fronte a un bivio.

Da una parte, la comunità web che cerca di imporre educatamente delle regole di ingaggio; dall’altra, i giganti dell’AI che preferiscono il “buffet libero” del crawling tradizionale, regolato solo dai divieti espliciti.

In conclusione, l’adozione di massa di llms.txt nel 2026 assomiglia più a una superstizione tecnologica che a una strategia tecnica.

Continuiamo a scriverlo sperando che funzioni, un po’ come soffiare nelle cartucce del Nintendo.

Ma la domanda che dovremmo porci non è se Google un giorno lo supporterà, bensì: stiamo cercando di civilizzare le macchine con le regole degli umani, o stiamo solo urlando nel vuoto mentre loro hanno già imparato tutto quello che c’era da sapere?

Facebook X Network Pinterest Instagram
🍪 Impostazioni Cookie