Googlebot legge solo i primi 2 MB di una pagina: un limite che rivoluziona la SEO

Googlebot legge solo i primi 2 MB di una pagina: un limite che rivoluziona la SEO

Questa soglia, sebbene esistente da tempo, è stata di recente ribadita con forza e sta spingendo gli sviluppatori a ripensare la struttura delle pagine per assicurare che i contenuti importanti non vengano ignorati dal motore di ricerca.

Da anni, chi si occupa di siti web sa che Google non legge le pagine infinite. Ma pochi immaginavano che il limite fosse così stringente.

In una documentazione tecnica aggiornata di recente, Google ha chiarito una regola che potrebbe costringere migliaia di sviluppatori e SEO a rivedere i propri progetti: quando il suo crawler, Googlebot, esplora il web per l’indicizzazione nella Ricerca, legge solo i primi 2 megabyte di un file HTML o di testo.

Tutto ciò che supera quella soglia viene semplicemente ignorato.

È come se un bibliotecario smettesse di catalogare un libro dopo il secondo capitolo, indipendentemente da quanto sia importante il finale.

La notizia, segnalata dall’esperta SEO Aleyda Solis, ha fatto rapidamente il giro della comunità tecnica. Non si tratta di una novità assoluta – il limite esisteva già da prima del 2020 – ma la sua esplicita conferma e l’enfasi nella documentazione ufficiale suonano come un campanello d’allarme.

In un’epoca in cui le pagine web sono sempre più ricche di script, widget e contenuti multimediali, 2 MB possono essere un confine stretto.

Per fare un paragone, è lo spazio necessario per contenere questo stesso articolo circa 400 volte.

Ma per una pagina web moderna, piena di codice JavaScript, CSS e dati, è un tetto che si tocca più spesso di quanto si creda.

La domanda sorge spontanea: perché proprio 2 MB?

La motivazione ufficiale ruota attorno all’efficienza e alla gestione delle risorse. Google deve scandagliare trilioni di pagine; ogni kilobyte in più moltiplicato per miliardi di URL si traduce in costi di archiviazione e potenza di calcolo esponenziali. Limitare la dimensione del fetch è una scelta pragmatica per tenere sotto controllo questi costi.

Come spiegato nella documentazione sul budget di crawl e sull’efficienza dell’indicizzazione, Google deve bilanciare la completezza con il rispetto per la capacità dei server altrui.

In sostanza, è un compromesso necessario per mantenere l’indicizzazione del web sostenibile e veloce.

Cosa succede quando una pagina è troppo “pesante”

Il meccanismo è brutale nella sua semplicità. Googlebot inizia a scaricare il file HTML della pagina. Appena raggiunti i 2 MB di dati non compressi, interrompe la connessione. Non legge oltre, non salta a piè pari, si ferma.

Il contenuto già scaricato viene inviato ai sistemi di indicizzazione, mentre tutto ciò che segue – che sia un paragrafo cruciale, un link importante in fondo alla pagina o uno schema tecnico per i dati strutturati – scompare nel nulla, invisibile a Google.

È importante notare che questo limite vale per il singolo file.

Risorse esterne come fogli di stile CSS o script JavaScript vengono scaricate separatamente, ma sono a loro volta soggette allo stesso tetto di 2 MB, creando un effetto a catena.

L’impatto pratico è chiaro: se il contenuto più importante del tuo sito – le keyword, i link interni fondamentali, i dati strutturati – si trova dopo il secondo megabyte di codice HTML, rischia di non essere mai visto da Google.

Questo cambia le regole del gioco per i siti particolarmente complessi, come le single-page application (SPA) che fanno molto affidamento su grandi bundle JavaScript, o per quei portali che caricano enormi quantità di contenuto in-linea.

Non è un problema per il blog medio, il cui HTML pesa qualche decina di kilobyte, ma può essere un ostacolo significativo per piattaforme e-commerce, strumenti web sofisticati o siti con template molto pesanti.

Quando esegue il crawling per la Ricerca Google, Googlebot esegue il crawling dei primi 2 MB di un tipo di file supportato e dei primi 64 MB di un file PDF.

— Documentazione ufficiale di Google Search Central

La reazione di Google a queste preoccupazioni è stata rassicurante, ma non risolutiva. John Mueller, Search Advocate di Google, ha più volte sottolineato che è “estremamente raro” che un sito incontri problemi con questo limite. Il punto, secondo lui, non è la dimensione in byte, ma se i passaggi importanti della pagina vengono indicizzati.

Tuttavia, questa rarità statistica è poca consolazione per il singolo sito che scopre di essere finito proprio in quella percentuale minuscola.

Inoltre, la mossa di Google arriva in un momento preciso: mentre il peso mediano delle pagine web per dispositivi mobili ha ormai sfiorato i 2 MB, secondo dati del 2022.

Il limite non è più un confine teorico e lontano, ma un muro che si sta avvicinando alla normalità.

Come gli altri motori di ricerca gestiscono il “peso” del web

La scelta di Google non è universale. Altri attori del web hanno politiche diverse, che dipingono un panorama variegato di come il contenuto viene selezionato e archiviato.

Prendiamo Bing, il principale concorrente. La sua documentazione per webmaster si concentra più sul controllo della velocità di scansione tramite file robots.txt, piuttosto che su limiti di dimensione fissi per i file HTML. Questo suggerisce un approccio diverso, forse più flessibile o basato su altri parametri.

Ancora più interessante è il caso di Common Crawl, l’organizzazione no-profit che crea archivi pubblici del web utilizzati da ricercatori e aziende. Recentemente, ha aumentato la sua soglia di troncamento da 1 a 5 megabyte, muovendosi cioè nella direzione opposta a Google, per catturare più contenuto.

Questa divergenza di strategie mostra come non esista una risposta univoca al problema della scala.

C’è chi, come Google, stringe i cordoni della borsa per efficienza, e chi, come Common Crawl, li allenta per completezza.

Per i proprietari di siti, significa che lo stesso contenuto potrebbe essere indicizzato in modo diverso a seconda del motore di ricerca che lo analizza.

La riduzione da un precedente limite generale di 15 MB a soli 2 MB per la Ricerca – un taglio dell’87% – non è solo una questione tecnica. È anche una mossa economica. Processare e archiviare meno dati per ogni URL significa risparmiare milioni di dollari in costi operativi quando questi numeri vengono moltiplicati per la scala di Google.

È un ottimizzazione infrastrutturale che ha un effetto collaterale diretto su come il web viene percepito e classificato.

In un certo senso, Google sta dicendo al web: “Se vuoi essere trovato, sii conciso, almeno nel codice”. Sta premiando implicitamente l’efficienza e penalizzando la pesantezza, spingendo lo sviluppo web verso una maggiore lean production.

Le strategie per restare sotto il limite (e perché fanno bene a tutti)

Fortunatamente, superare questo limite non è una condanna senza appello. Anzi, le tecniche per ottimizzare le pagine e restare sotto i 2 MB sono le stesse che migliorano l’esperienza utente e le prestazioni generali di un sito. Google stessa promuove da anni queste best practice.

La prima arma è il lazy loading, una tecnica che carica immagini, video o contenuti solo quando l’utente sta per scorrerli nella viewport, invece di caricarli tutti all’apertura della pagina.

Questo non solo riduce il peso iniziale dell’HTML, ma rende la pagina molto più veloce da visualizzare.

La documentazione di Google offre linee guida dettagliate su come implementare correttamente il lazy loading in modo che anche Googlebot possa “vedere” i contenuti caricati in modo differito.

Un’altra strategia potente è la paginazione intelligente. Invece di servire un catalogo di 10.000 prodotti in una singola, interminabile pagina, si suddivide il contenuto in più pagine collegate logicamente. Questo è fondamentale per i siti di e-commerce e per qualsiasi piattaforma con grandi dataset.

Google fornisce raccomandazioni specifiche su come strutturare la paginazione per garantire che tutte le pagine vengano scoperte e indicizzate correttamente.

Infine, c’è tutta l’arte dell’ottimizzazione tecnica: comprimere le immagini, minificare il codice CSS e JavaScript, utilizzare la compressione GZIP per il testo.

Strumenti come PageSpeed Insights, che aiutano a rendere il tuo sito più veloce, diventano alleati preziosi non solo per un punteggio di performance, ma per la stessa visibilità sui motori di ricerca.

Alla fine, la storia del limite dei 2 MB è un perfetto esempio di come le esigenze infrastrutturali di un gigante del tech modellino silenziosamente l’ecologia dell’intero web.

Google, nel suo ruolo di principale catalizzatore del traffico online, non si limita a riflettere il web: lo plasma, definendo attraverso i suoi limiti tecnici cosa è “indicizzabile” e cosa no.

La domanda che resta aperta è se questo processo di ottimizzazione forzata, per quanto comprensibile dal punto di vista ingegneristico ed economico, rischi di appiattire la diversità del web.

Stiamo costruendo un internet dove solo i contenuti che si adattano a certi parametri di efficienza hanno la garanzia di essere trovati?

Oppure, questa pressione verso la leggerezza è semplicemente l’evoluzione naturale verso un web più veloce e fruibile per tutti?

Per ora, la risposta per sviluppatori e publisher è concreta: controllate il peso delle vostre pagine, perché da oggi, ogni kilobyte conta il doppio.

Facebook X Network Pinterest Instagram
🍪 Impostazioni Cookie