Gli agenti AI leggono il tuo sito in tre modi diversi
Gli agenti AI leggono i siti in tre modi: screenshot, HTML grezzo e albero di accessibilità. La combinazione determina l'efficacia dell'interazione.
Le tre modalità con cui un agente AI analizza una pagina web e le loro differenze strutturali
Quando un agente AI accede al tuo sito, non sperimenta la pagina come la vedi tu nel browser. Secondo le linee guida di web.dev su UX e agenti AI , esistono tre modalità distinte con cui un agente può leggere un sito: screenshot, HTML grezzo e albero di accessibilità. Non sono equivalenti. Ognuna restituisce una rappresentazione radicalmente diversa della stessa pagina, e la scelta — o la combinazione — tra queste modalità determina se l’agente riesce a portare a termine un’azione o rimane bloccato davanti a un pulsante invisibile.
I tre occhi dell’agente
Lo screenshot è la modalità più intuitiva da immaginare: l’agente “vede” la pagina come un’immagine e usa un modello vision per interpretare layout, colori, posizioni degli elementi. È potente per cogliere contesto visivo e gerarchie spaziali, ma fragile davanti a elementi molto piccoli o visivamente ambigui. Ecco perché esiste la soglia degli 8 pixel quadrati: qualsiasi elemento interattivo necessario al percorso utente con un’area visibile inferiore a quella soglia rischia semplicemente di essere filtrato e ignorato dall’analisi visiva.
L’HTML grezzo offre invece una visione strutturale: l’agente legge il markup direttamente, analizzando tag, attributi, classi. Il problema è il rumore. Una pagina web moderna può contenere centinaia di elementi, script inline, commenti, attributi ridondanti. Estrarre l’informazione rilevante richiede parsing non banale, e un HTML scritto male — pieno di <div> annidati senza semantica — è quasi opaco quanto un’immagine compressa.
L’albero di accessibilità (accessibility tree) è la rappresentazione più pulita. È la struttura che il browser costruisce internamente a partire dal DOM, pensata originariamente per i lettori di schermo: contiene solo gli elementi significativi, con ruoli, etichette e stati espliciti. Un pulsante è un pulsante, non un <div> con un event listener. Per un agente che deve capire cosa può fare su una pagina — dove cliccare, cosa compilare, cosa leggere — è la fonte più affidabile. Ma da sola non basta: non trasmette il contesto visivo, la disposizione spaziale, le relazioni percettive tra elementi.
Ed è qui che la situazione diventa interessante. Gli agenti moderni non scelgono una sola modalità: le combinano. Usano il DOM e l’albero di accessibilità per ottenere una lista strutturata degli elementi interattivi, poi la incrociano con il rendering visivo per capire layout, raggruppamenti e indicazioni percettive. È un approccio multimodale che rispecchia, in qualche misura, come funziona la cognizione umana: incrociare più canali informativi per costruire una rappresentazione coerente. La domanda aperta è: come gestiscono questa fusione i grandi player?
Perché adesso
La risposta a quella domanda è arrivata con forza negli ultimi mesi. A gennaio 2025, OpenAI ha lanciato l’agente Operator, capace di navigare il web in autonomia per eseguire compiti per conto dell’utente. Ad ottobre 2024, Anthropic aveva già rilasciato in beta pubblica la funzionalità Computer Use su Claude 3.5 Sonnet — il primo modello frontier a offrire questa capacità: guardare uno schermo, muovere il cursore, cliccare pulsanti, digitare testo, esattamente come farebbe un umano. A marzo 2025, Amazon ha presentato Nova Act, un agente general-purpose che prende il controllo di un browser web per eseguire azioni in modo indipendente, posizionandosi direttamente in competizione con Operator e Computer Use.
Nel mezzo di questa accelerazione, Google ha percorso la sua traiettoria. Già a dicembre 2024, stando a quanto riportato da TechCrunch, Project Mariner era il progetto diretto dietro le linee guida per i siti “agent-friendly”. L’esperimento di Google è stato chiuso il 4 maggio scorso, tre giorni fa. Ma il punto non è la fine di un singolo progetto: è che in meno di un anno si è passati da prototipi di laboratorio a prodotti commerciali distribuiti su larga scala. Gli sviluppatori web che costruiscono siti oggi lo fanno in un contesto dove una quota crescente del traffico proviene non da esseri umani che leggono, ma da agenti che agiscono.
Cosa cambia per chi sviluppa
Tradurre le tre modalità di visione in scelte di sviluppo concrete non richiede stravolgimenti architetturali. Il punto di partenza è la semantica HTML. Usare <button> e <a> invece di <div> e <span> modificati con JavaScript non è solo una buona pratica di accessibilità: è la condizione necessaria perché un agente riconosca correttamente il ruolo di un elemento nell’albero di accessibilità. Un <div onclick="..."> che visivamente sembra un pulsante può ingannare un umano, ma non sopravvive all’ispezione dell’accessibility tree: lì non ha ruolo, non ha etichetta, è rumore.
Le dimensioni fisiche degli elementi interattivi diventano un parametro tecnico esplicito. La soglia degli 8 pixel quadrati per l’area visibile non è arbitraria: è il limite sotto cui l’analisi visiva degli agenti filtra gli elementi come irrilevanti. Pulsanti troppo piccoli, icone senza label, link nascosti nel footer con font da 10px — tutto questo diventa invisibile non solo per gli utenti su mobile, ma per qualsiasi agente che usa la modalità screenshot. Il problema non è estetico: è funzionale. Un agente che non vede il pulsante “Continua” in un checkout non completa l’acquisto.
C’è però una dimensione più sottile, che riguarda la progettazione dei percorsi utente. Un agente che combina accessibilità tree e rendering visivo cerca coerenza tra le due rappresentazioni: un elemento che esiste nel DOM ma è visivamente nascosto, o un elemento visivo che non ha corrispondenza semantica, genera ambiguità. Progettare per agenti significa ridurre quella distanza — rendere esplicito ciò che oggi è implicito nel markup. La buona notizia, come notano le stesse linee guida, è che tutto ciò che rende un sito leggibile per un agente lo rende anche più usabile per un essere umano: struttura chiara, elementi etichettati correttamente, percorsi privi di ambiguità. Non è un compromesso, è una convergenza. Secondo l’analisi di Forbes sugli AI browser agents, questi strumenti rappresentano il passaggio da strumenti di ricerca passivi ad assistenti attivi che navigano, compiono azioni e completano compiti per conto degli utenti. Ignorare questa transizione equivale a costruire un negozio senza vetrine: sei lì, ma nessuno ti vede.