Ahrefs e la persistenza dei dati Seo: una mossa strategica
La mossa di Ahrefs riscrive le regole del gioco SEO, ma solleva interrogativi sulla proprietà dei dati e la dipendenza dalle piattaforme.
C’è un vecchio adagio nel mondo dello sviluppo software che riguarda i dati: la portabilità è una promessa che i vendor fanno volentieri, ma mantengono con estrema riluttanza. Nel settore SEO, questo si traduce nel “costo di switching”.
Chiunque abbia gestito un’infrastruttura di monitoraggio per il posizionamento sui motori di ricerca sa che cambiare strumento significa, quasi invariabilmente, accettare una “morte cerebrale” temporanea dei propri grafici.
Si passa da un tool all’altro e si riparte da zero, con una linea piatta che inizia il giorno della migrazione.
O almeno, così è stato fino a oggi.
La recente mossa di Ahrefs di automatizzare l’importazione dei dati storici dal Site Explorer direttamente nel Rank Tracker non è solo una feature di “comodità” (quality of life), come potrebbe sembrare da una lettura superficiale delle note di rilascio.
È una manovra architetturale che risolve un problema di persistenza dei dati sfruttando una ridondanza tecnica che l’azienda aveva in casa da anni, ma che non aveva mai collegato in modo così esplicito. In termini ingegneristici, hanno trasformato un database passivo in una pipeline attiva di onboarding.
Tuttavia, per capire la portata reale di questa modifica, bisogna guardare sotto il cofano di come funzionano questi indici, perché la soluzione tecnica adottata solleva questioni interessanti sulla sovranità dei dati e sulla dipendenza dalle piattaforme proprietarie.
L’eleganza del riciclo dei dati
Tecnicamente, la distinzione tra “Site Explorer” (lo strumento di analisi generale) e “Rank Tracker” (il monitoraggio specifico di un progetto) è sempre stata una barriera artificiale, dettata più da logiche di fatturazione e allocazione risorse che da reali limitazioni del database.
Il Site Explorer scansiona il web indiscriminatamente, accumulando petabyte di serie temporali sulle keyword; il Rank Tracker, invece, è un’istanza dedicata che interroga le SERP su richiesta specifica dell’utente.
Fino a poco tempo fa, questi due flussi di dati vivevano in silos separati. Se aggiungevi una keyword al Rank Tracker, il sistema iniziava a registrare da quel momento (t=0), ignorando completamente il fatto che il crawler principale di Ahrefs potesse aver visto quel sito posizionarsi per quella parola chiave per mesi o anni.
Gli utenti chiedevano da tempo la possibilità di importare storici dai competitor o tramite file CSV per colmare questo vuoto, una richiesta che evidenziava la frustrazione di dover scegliere tra strumenti migliori e la conservazione della propria storia analitica.
La soluzione implementata aggira la necessità di importare dati esterni sporchi o mal formattati (un incubo per qualsiasi ingegnere dei dati) e sceglie la via dell’eleganza interna: il backfilling.
Quando si inizializza un nuovo progetto, il sistema esegue una query sul dataset storico del Site Explorer e “pre-popola” i grafici del Rank Tracker. Non è magia, è un’operazione di JOIN tra due enormi tabelle che prima non si parlavano.
Fino a che punto indietro nel tempo è possibile visualizzare la cronologia del ranking dipende da quando hai aggiunto per la prima volta la parola chiave nel Rank Tracker. Questo può essere antecedente ai dati storici…
— Ahrefs Support Team, Autori della documentazione ufficiale
Questa precisazione tecnica è fondamentale: non stiamo importando dati creati dall’utente altrove, stiamo sbloccando dati che il provider aveva già raccolto “in background”.
È un cambio di paradigma: i dati non sono più solo ciò che l’utente monitora attivamente, ma tutto ciò che la piattaforma ha osservato passivamente.
Il costo della migrazione e il lock-in invisibile
Dal punto di vista strategico, questa implementazione è un attacco diretto alla concorrenza, mascherato da funzionalità utente. Il più grande deterrente all’abbandono di piattaforme come Semrush o Moz è sempre stato la perdita dello storico.
Offrendo un grafico che si popola “magicamente” al momento della configurazione, Ahrefs elimina l’ansia del foglio bianco.
Tuttavia, c’è un dettaglio implementativo che merita attenzione. La documentazione ufficiale chiarisce che la disponibilità dei dati dipende da quando Ahrefs ha iniziato a tracciare l’URL, il che introduce una variabile di incertezza.
Se il sito in questione era piccolo o di nicchia e non rientrava nelle priorità di crawling del Site Explorer, il backfilling sarà parziale o nullo. Non è quindi una soluzione universale come l’importazione di un CSV, che è “agnostica” rispetto alla fonte. È una soluzione “Ahrefs-centrica”.
Questo approccio premia i siti già ben visibili nell’indice dell’azienda, creando un circolo virtuoso (o vizioso, a seconda dei punti di vista) dove l’utilità dello strumento è direttamente proporzionale a quanto lo strumento stesso ha già “spiato” il tuo sito in passato.
È interessante notare come questo si colleghi agli sviluppi dell’anno scorso, in particolare il lancio di nuovi endpoint API per l’automazione dei progetti, che aveva già posto le basi infrastrutturali per gestire grandi volumi di interrogazioni storiche in modo programmatico.
C’è un ulteriore vantaggio nel grafico della cronologia delle posizioni, dove è possibile alternare tra i ranking Desktop e Mobile.
— Ahrefs Support Team, Autori della documentazione ufficiale
La capacità di distinguere retroattivamente tra mobile e desktop è un altro flex tecnico notevole. Ricostruire questa granularità ex post richiede che i dati grezzi originali siano stati archiviati con metadati precisi riguardanti lo User-Agent del crawler, una best practice di data engineering che qui paga dividendi a distanza di anni.
Non è tutto oro quel che luccica (o che importa)
Bisogna però mantenere uno spirito critico. Se da un lato l’ingegnerizzazione è solida, dall’altro questa mossa non risolve il problema della portabilità dei dati, anzi, lo aggrava in una nuova direzione.
Se l’utente si affida al backfilling proprietario di Ahrefs invece di mantenere i propri archivi (magari esportati dai tool precedenti), si lega indissolubilmente alla “verità” secondo Ahrefs.
I dati di ranking non sono assoluti; sono sempre un’approssimazione statistica basata su datacenter, geolocalizzazione e momento della scansione. Unire lo storico di un altro tool con i dati attuali di Ahrefs avrebbe creato discontinuità nei grafici (un problema noto come “data mismatch”).
La scelta di Ahrefs di usare solo i propri dati storici garantisce coerenza e integrità del dato – i grafici non avranno picchi strani dovuti a metodologie di calcolo diverse – ma chiude l’ecosistema.
Siamo di fronte a un classico caso di “Walled Garden” (giardino recintato) costruito con mattoni di eccellente qualità. L’utente ottiene un’esperienza utente superiore e una continuità immediata, ma al prezzo di rinunciare all’idea che i propri dati storici siano qualcosa che si può “portare in spalla” da un fornitore all’altro.
In un’era in cui l’Open Source e gli standard aperti faticano a imporsi nel SaaS enterprise, la comodità vince quasi sempre sulla sovranità del dato.
Resta da chiedersi: stiamo analizzando la nostra storia o stiamo solo noleggiando l’accesso alla memoria di qualcun altro?