Screaming Frog: La Crawl Retention automatizzata e la Governance dei dati
Dalla gestione file alla governance dei dati: la nuova frontiera dell’analisi SEO automatizzata
Chiunque lavori con la SEO tecnica da più di un decennio ricorda perfettamente i “tempi eroici” tra il 2010 e il 2013, quando lanciare una scansione con Screaming Frog significava pregare che la RAM del proprio portatile non alzasse bandiera bianca a metà strada. Se il computer si spegneva o il software andava in crash, i dati erano persi per sempre.
Era un’epoca brutale, ma semplice.
Oggi, gennaio 2026, la situazione si è completamente ribaltata: non soffriamo più per la scarsità di risorse, ma affoghiamo nell’abbondanza. Con dischi SSD da svariati terabyte e la modalità “Database Storage” che salva ogni singolo byte su disco, siamo diventati tutti accumulatori seriali digitali.
Ed è proprio qui che l’ultimo aggiornamento del celebre “Ragno SEO” cambia le carte in tavola, trasformando un problema di gestione file in una questione di governance dei dati.
La nuova gestione automatizzata della “Crawl Retention” non è solo una funzione di pulizia: è il segnale che gli strumenti per l’analisi tecnica stanno finalmente maturando verso standard aziendali, costringendoci a ripensare il valore che diamo allo storico dei nostri audit.
La novità, apparentemente banale, risolve un paradosso tecnologico che affliggeva i professionisti da anni. Da quando il software ha permesso di salvare scansioni gigantesche su disco, le cartelle dei progetti SEO sono diventate cimiteri di dati obsoleti: audit di tre anni fa, scansioni parziali interrotte, test dimenticati.
File pesanti gigabyte che intasano le macchine e rallentano i flussi di lavoro.
La soluzione introdotta con la versione 23.0 interviene proprio su questo caos entropico.
L’automazione delle pulizie di primavera
Il concetto alla base è tanto semplice quanto potente: l’automazione del ciclo di vita del dato. Non siamo più noi a dover decidere manualmente quando cancellare un vecchio file; è il sistema a farlo per noi, basandosi su regole preimpostate.
Questo approccio, comune nei sistemi di backup enterprise o nei server cloud, sbarca finalmente sul desktop del consulente SEO.
Dan Sharp, fondatore di Screaming Frog, ha spiegato chiaramente la logica dietro questa mossa, sottolineando come l’obiettivo sia togliere il peso della manutenzione dalle spalle dell’utente:
Con la conservazione delle scansioni attivata, il SEO Spider può gestire lo spazio di archiviazione automaticamente in background, così non devi eliminare manualmente le vecchie scansioni.
— Dan Sharp, Fondatore e Direttore presso Screaming Frog
L’impatto pratico è immediato. Immaginate di gestire il monitoraggio settimanale di un e-commerce con due milioni di URL. Fino a ieri, dovevate ricordarvi periodicamente di entrare nella cartella dei progetti ed eliminare i file vecchi per non saturare l’SSD. Oggi, impostando una regola di retention a 30 giorni, il software elimina silenziosamente ciò che non serve più.
Questa automazione, tuttavia, solleva un sopracciglio tra i puristi del controllo totale.
Affidare a un algoritmo la cancellazione dei dati fa paura.
E se il software cancellasse l’unico audit pre-migrazione che dimostra il crollo del traffico di un cliente?
Qui entra in gioco la psicologia del design del software: l’automazione funziona solo se l’utente si sente al sicuro.
Il lucchetto digitale
Per mitigare l’ansia da cancellazione automatica, è stata introdotta una funzione di “Lock” (blocco), che agisce come un’ancora di salvezza.
È il corrispettivo digitale del mettere un oggetto prezioso in cassaforte prima che arrivi l’impresa di pulizie. Sebbene il sistema sia programmato per distruggere tutto ciò che è più vecchio di una certa data, i progetti contrassegnati col lucchetto restano intoccabili.
Dan Sharp ha illustrato questa dinamica evidenziando come la flessibilità sia necessaria per adattarsi ai diversi metodi di lavoro dei team:
Puoi scegliere di non eliminare mai le scansioni, oppure di rimuoverle automaticamente dopo 7 giorni, 30 giorni o un periodo personalizzato, a seconda di come lavori con i progetti.
— Dan Sharp, Fondatore e Direttore presso Screaming Frog
Questa dualità — distruzione automatica e protezione selettiva — segna un passaggio culturale importante.
Ci obbliga a decidere subito cosa è importante, invece di accumulare tutto “perché non si sa mai”. In un contesto dove le agenzie si trovano a gestire volumi di dati sempre più massicci, la capacità di discernere immediatamente tra un dato transitorio (utile solo per un report mensile) e un dato strutturale (da conservare per anni) diventa una competenza professionale.
Non è un caso che questa funzione arrivi ora. Negli ultimi anni, l’adozione della modalità di archiviazione su database ha permesso di gestire progetti che prima erano impensabili, ma ha anche creato nuovi colli di bottiglia.
La community tecnica ha accolto con favore queste novità, tanto che l’agenzia Fattoretto ha evidenziato come la combinazione di cancellazione programmata e funzione Lock permetta di gestire la memoria senza rischiare di perdere dati importanti.
Ma c’è un aspetto meno evidente, che va oltre la semplice gestione dello spazio su disco, e riguarda la sicurezza e la privacy dei dati che raccogliamo quotidianamente.
I rischi nascosti dell’accumulo dati
Siamo abituati a pensare ai crawler come strumenti neutri, ma ogni scansione è una fotografia istantanea che può contenere dati sensibili: indirizzi email esposti per errore nel codice sorgente, file di staging non protetti, o metadati di clienti che nel frattempo hanno esercitato il diritto all’oblio.
Mantenere questi dati “per sempre” su un disco rigido non crittografato non è solo cattiva igiene digitale; è un potenziale rischio legale.
L’introduzione di policy di retention automatica aiuta, forse involontariamente, a migliorare la conformità alle normative sulla privacy. Eliminare i vecchi crawl riduce la superficie di attacco. Se il vostro laptop venisse rubato oggi, quanti dati di clienti di tre anni fa sarebbero accessibili?
La cancellazione programmata diventa quindi uno strumento di security by design.
Inoltre, c’è la questione delle performance pure. Un database di Screaming Frog gonfio di migliaia di vecchi progetti frammentati rallenta le operazioni di lettura e scrittura, rendendo l’interfaccia meno reattiva.
È un problema noto a chiunque utilizzi il software per operazioni su larga scala, dove l’integrazione con l’intelligenza artificiale per audit di migliaia di pagine richiede risorse hardware sempre più performanti.
Mantenere il database snello non è vanità, è efficienza operativa.
Resta aperta una riflessione critica sul futuro di questi strumenti. Mentre ci muoviamo verso un ecosistema sempre più cloud-based, dove i dati vivono su server remoti (si pensi ai competitor SaaS come DeepCrawl o OnCrawl), Screaming Frog rimane un baluardo del software desktop. Questa mossa di “autonomia gestionale” è forse un tentativo di colmare il divario di comodità con il cloud?
In definitiva, la funzione di Crawl Retention ci insegna una lezione preziosa per il 2026: i dati non sono vino, non migliorano invecchiando.
Nella maggior parte dei casi, una scansione tecnica di sei mesi fa è solo rumore di fondo che ci distrae dai problemi attuali del sito.
La vera domanda che dovremmo porci non è “quanto spazio ho sul disco?”, ma piuttosto: abbiamo davvero il coraggio di lasciare che sia una macchina a decidere cosa dimenticare?