Google contro SerpApi: La Guerra dello Scraping e il Futuro del Web
Una battaglia legale che solleva interrogativi sul futuro dell’accesso ai dati e sul controllo dell’informazione nel web moderno.
C’è una certa, inevitabile ironia nel vedere l’azienda che ha indicizzato l’intero web — costruendo un impero sulla scansione sistematica dei contenuti altrui — trascinare in tribunale un’altra azienda per aver fatto esattamente la stessa cosa.
Eppure, ridurre lo scontro legale tra Google e SerpApi a un semplice caso di “il bue che dice cornuto all’asino” sarebbe un errore di superficialità tecnica.
La causa depositata a fine 2025 presso la Corte Distrettuale della California non riguarda il semplice atto di leggere una pagina web, ma tocca i fondamenti stessi di come le macchine interagiscono tra loro nel moderno ecosistema digitale.
Al centro della disputa non c’è solo il diritto d’autore, ma una sofisticata partita a scacchi tra misure di protezione crittografica e ingegneria inversa.
Per anni, lo scraping è stato un’area grigia, tollerata come un male necessario dell’infrastruttura di internet. Uno sviluppatore scriveva uno script in Python, magari usando librerie come Beautiful Soup o Selenium, inviava richieste HTTP e parsava l’HTML risultante.
Google, tuttavia, ha deciso che l’era del libero accesso ai suoi dati strutturati è finita.
La mossa decisiva è arrivata con l’introduzione di “SearchGuard” nel gennaio 2025, un sistema che ha trasformato le pagine dei risultati di ricerca (SERP) da semplici documenti statici a complesse applicazioni dinamiche protette da sfide JavaScript.
Non si tratta più di ignorare un file robots.txt — che tecnicamente è una richiesta di cortesia, non un blocco fisico — ma di forzare una serratura digitale.
La guerra dei browser fantasma
Tecnicamente, SearchGuard opera come un Technological Protection Measure (TPM). Quando un client richiede una pagina di ricerca, il server non restituisce immediatamente i dati. Invia invece un codice JavaScript offuscato che il browser deve eseguire per generare un token di accesso valido.
È un handshake crittografico che verifica se dall’altra parte dello schermo c’è un browser legittimo controllato da un umano o un bot.
Google ha implementato SearchGuard come misura di protezione tecnologica specificamente progettata per limitare l’accesso automatizzato alle pagine dei risultati e ai contenuti protetti da copyright in esse contenuti.
La risposta di SerpApi è stata prevedibilmente ingegnosa dal punto di vista ingegneristico, anche se legalmente rischiosa. Non potendo più usare semplici richieste HTTP, hanno dovuto industrializzare la simulazione umana.
Non parliamo di script banali, ma di batterie di browser “headless” (senza interfaccia grafica) che ruotano migliaia di indirizzi IP residenziali per apparire come utenti normali sparsi per il mondo.
È qui che Google ha tracciato la linea rossa, spostando l’accusa dalla violazione dei termini di servizio alla violazione della Sezione 1201 del DMCA (Digital Millennium Copyright Act), che proibisce espressamente l’elusione delle misure tecnologiche di controllo dell’accesso.
La posizione di Mountain View è netta e punta a stabilire un precedente giuridico che potrebbe rendere illegale gran parte dell’industria dell’estrazione dati.
Abbiamo intentato una causa oggi contro la società di scraping SerpApi per aver eluso le misure di sicurezza che proteggono i contenuti protetti da copyright di altri che appaiono nei risultati di ricerca di Google.
— Halimah DeLaine Prado, General Counsel presso Google
Questa distinzione è cruciale: Google non sta difendendo solo i suoi link blu, ma i contenuti che essa stessa ha licenziato e pagato.
Il paradosso del “free riding”
L’architettura delle SERP moderne è cambiata drasticamente. Non sono più elenchi di link; sono dashboard ricche di informazioni estratte (i cosiddetti Knowledge Panels), dati in tempo reale su voli, finanza e sport, e immagini.
Molti di questi dati provengono da accordi commerciali onerosi che Google ha stretto con fornitori terzi o editori (si pensi ai recenti accordi con Reddit o testate giornalistiche).
Quando SerpApi estrae questi dati e li rivende tramite API a terzi, tecnicamente sta “rivendendo” merce che Google ha acquistato, bypassando la transazione originale.
In un documento legale depositato recentemente, Google accusa SerpApi di violare il DMCA aggirando SearchGuard attraverso metodi come l’uso di browser falsificati e la rotazione degli indirizzi IP per mascherare le proprie attività.
Per un tecnico, l’eleganza della soluzione di SerpApi è innegabile: hanno creato un livello di astrazione che rende il web “leggibile dalle macchine” nonostante gli sforzi contrari dei giganti tech. Tuttavia, l’accusa cita le parole dello stesso fondatore di SerpApi, usate come prova dell’intenzionalità dell’elusione.
Il fondatore di SerpApi ha recentemente descritto il processo come “creazione di falsi browser utilizzando una moltitudine di indirizzi IP che Google vede come utenti normali”.
— Citato nel reclamo legale di Google
Questo scenario crea un collo di bottiglia pericoloso per l’innovazione.
Le startup di intelligenza artificiale, che necessitano di enormi quantità di dati freschi per il grounding dei loro modelli (ovvero per evitare che l’AI allucini fatti vecchi), si affidano spesso a servizi come SerpApi perché non possono permettersi le API ufficiali di Google, che sono costose e spesso limitate nel rate-limit.
Oltre il copyright: il controllo dell’infrastruttura
Se guardiamo sotto il cofano, questa battaglia segna la fine del web come “biblioteca pubblica” e l’inizio del web come “giardino murato protetto da API”.
Fino a pochi anni fa, se un dato era pubblico su una pagina web, si assumeva che fosse leggibile. Ora, la leggibilità è un privilegio concesso tramite autenticazione crittografica.
Il colosso di Mountain View ha presentato ufficialmente denuncia contro SerpApi sottolineando come queste pratiche di scraping malevolo violino le scelte dei siti web e dei titolari dei diritti su chi debba avere accesso ai loro contenuti.
La strategia legale di Google è astuta: non attaccano lo scraping in sé (che potrebbe ritorcersi contro il loro stesso modello di business), ma l’atto di scassinare la serratura digitale (SearchGuard).
Se la corte dovesse dare ragione a Google, ogni sviluppatore che utilizza Puppeteer o Playwright per aggirare un captcha o un controllo di integrità del browser potrebbe teoricamente essere passibile di denuncia penale o civile sotto il DMCA.
Siamo di fronte a un bivio fondamentale per l’architettura di internet.
Da una parte c’è la visione di un web semantico aperto, dove i dati fluiscono liberamente e possono essere riorganizzati da terzi per creare nuovo valore. Dall’altra, c’è la realtà di un web transazionale, dove ogni byte di informazione ha un proprietario, un prezzo e un lucchetto digitale.
La domanda che questo processo lascia aperta non è se SerpApi abbia violato la legge, ma se vogliamo costruire un futuro digitale in cui l’unico modo legittimo per leggere il web sia chiedere il permesso a chi possiede il browser.