Qual è l'ironia nella causa tra Google e SerpApi?

C'è un'ironia nel vedere Google, che ha costruito un impero indicizzando il web, citare in giudizio SerpApi per aver fatto la stessa cosa. Tuttavia, la causa riguarda più della semplice scansione di pagine web; tocca i fondamenti di come le macchine interagiscono nell'ecosistema digitale.

Cos'è SearchGuard e come ha cambiato l'accesso ai dati di Google?

SearchGuard è un sistema introdotto da Google nel gennaio 2025 che trasforma le pagine dei risultati di ricerca (SERP) in complesse applicazioni dinamiche protette da sfide JavaScript. Funziona come una misura di protezione tecnologica (TPM), richiedendo ai browser di eseguire codice JavaScript offuscato per generare un token di accesso valido, verificando se dall'altra parte c'è un browser legittimo controllato da un umano o un bot.

Come ha risposto SerpApi a SearchGuard?

SerpApi ha risposto industrializzando la simulazione umana, utilizzando batterie di browser "headless" che ruotano migliaia di indirizzi IP residenziali per apparire come utenti normali. Questo ha spinto Google ad accusare SerpApi di violare la Sezione 1201 del DMCA (Digital Millennium Copyright Act), che proibisce l'elusione delle misure tecnologiche di controllo dell'accesso.

Perché Google ha fatto causa a SerpApi?

Google ha fatto causa a SerpApi per aver eluso SearchGuard, una misura di sicurezza che protegge i contenuti protetti da copyright nei risultati di ricerca di Google. Google sostiene di non difendere solo i propri link, ma i contenuti che ha licenziato e pagato.

Qual è il paradosso del "free riding" nella causa?

SerpApi estrae dati da Knowledge Panels e altre fonti che Google ha ottenuto tramite accordi commerciali onerosi. Rivendendo questi dati tramite API, SerpApi sta tecnicamente "rivendendo" merce che Google ha acquistato, bypassando la transazione originale.

Quali sono le implicazioni della causa per l'innovazione e le startup di intelligenza artificiale?

Le startup di intelligenza artificiale spesso si affidano a servizi come SerpApi per ottenere dati freschi per il grounding dei loro modelli. Se Google vincesse la causa, potrebbe creare un collo di bottiglia per l'innovazione, poiché queste startup potrebbero non potersi permettere le API ufficiali di Google.

Cosa significa questa battaglia legale per il futuro del web?

Questa battaglia segna potenzialmente la fine del web come "biblioteca pubblica" e l'inizio del web come "giardino murato protetto da API". La leggibilità dei dati potrebbe diventare un privilegio concesso tramite autenticazione crittografica, e il modo legittimo per leggere il web potrebbe essere quello di chiedere il permesso ai proprietari dei browser.

Google 2 months ago

Google contro SerpApi: La Guerra dello Scraping e il Futuro del Web

Una battaglia legale che solleva interrogativi sul futuro dell’accesso ai dati e sul controllo dell’informazione nel web moderno.

C’è una certa, inevitabile ironia nel vedere l’azienda che ha indicizzato l’intero web — costruendo un impero sulla scansione sistematica dei contenuti altrui — trascinare in tribunale un’altra azienda per aver fatto esattamente la stessa cosa.

Eppure, ridurre lo scontro legale tra Google e SerpApi a un semplice caso di “il bue che dice cornuto all’asino” sarebbe un errore di superficialità tecnica.

La causa depositata a fine 2025 presso la Corte Distrettuale della California non riguarda il semplice atto di leggere una pagina web, ma tocca i fondamenti stessi di come le macchine interagiscono tra loro nel moderno ecosistema digitale.

Al centro della disputa non c’è solo il diritto d’autore, ma una sofisticata partita a scacchi tra misure di protezione crittografica e ingegneria inversa.

Per anni, lo scraping è stato un’area grigia, tollerata come un male necessario dell’infrastruttura di internet. Uno sviluppatore scriveva uno script in Python, magari usando librerie come Beautiful Soup o Selenium, inviava richieste HTTP e parsava l’HTML risultante.

Google, tuttavia, ha deciso che l’era del libero accesso ai suoi dati strutturati è finita.

La mossa decisiva è arrivata con l’introduzione di “SearchGuard” nel gennaio 2025, un sistema che ha trasformato le pagine dei risultati di ricerca (SERP) da semplici documenti statici a complesse applicazioni dinamiche protette da sfide JavaScript.

Non si tratta più di ignorare un file robots.txt — che tecnicamente è una richiesta di cortesia, non un blocco fisico — ma di forzare una serratura digitale.

La guerra dei browser fantasma

Tecnicamente, SearchGuard opera come un Technological Protection Measure (TPM). Quando un client richiede una pagina di ricerca, il server non restituisce immediatamente i dati. Invia invece un codice JavaScript offuscato che il browser deve eseguire per generare un token di accesso valido.

È un handshake crittografico che verifica se dall’altra parte dello schermo c’è un browser legittimo controllato da un umano o un bot.

Google ha implementato SearchGuard come misura di protezione tecnologica specificamente progettata per limitare l’accesso automatizzato alle pagine dei risultati e ai contenuti protetti da copyright in esse contenuti.

La risposta di SerpApi è stata prevedibilmente ingegnosa dal punto di vista ingegneristico, anche se legalmente rischiosa. Non potendo più usare semplici richieste HTTP, hanno dovuto industrializzare la simulazione umana.

Non parliamo di script banali, ma di batterie di browser “headless” (senza interfaccia grafica) che ruotano migliaia di indirizzi IP residenziali per apparire come utenti normali sparsi per il mondo.

È qui che Google ha tracciato la linea rossa, spostando l’accusa dalla violazione dei termini di servizio alla violazione della Sezione 1201 del DMCA (Digital Millennium Copyright Act), che proibisce espressamente l’elusione delle misure tecnologiche di controllo dell’accesso.

La posizione di Mountain View è netta e punta a stabilire un precedente giuridico che potrebbe rendere illegale gran parte dell’industria dell’estrazione dati.

Abbiamo intentato una causa oggi contro la società di scraping SerpApi per aver eluso le misure di sicurezza che proteggono i contenuti protetti da copyright di altri che appaiono nei risultati di ricerca di Google.

— Halimah DeLaine Prado, General Counsel presso Google

Questa distinzione è cruciale: Google non sta difendendo solo i suoi link blu, ma i contenuti che essa stessa ha licenziato e pagato.

Il paradosso del “free riding”

L’architettura delle SERP moderne è cambiata drasticamente. Non sono più elenchi di link; sono dashboard ricche di informazioni estratte (i cosiddetti Knowledge Panels), dati in tempo reale su voli, finanza e sport, e immagini.

Molti di questi dati provengono da accordi commerciali onerosi che Google ha stretto con fornitori terzi o editori (si pensi ai recenti accordi con Reddit o testate giornalistiche).

Quando SerpApi estrae questi dati e li rivende tramite API a terzi, tecnicamente sta “rivendendo” merce che Google ha acquistato, bypassando la transazione originale.

In un documento legale depositato recentemente, Google accusa SerpApi di violare il DMCA aggirando SearchGuard attraverso metodi come l’uso di browser falsificati e la rotazione degli indirizzi IP per mascherare le proprie attività.

Per un tecnico, l’eleganza della soluzione di SerpApi è innegabile: hanno creato un livello di astrazione che rende il web “leggibile dalle macchine” nonostante gli sforzi contrari dei giganti tech. Tuttavia, l’accusa cita le parole dello stesso fondatore di SerpApi, usate come prova dell’intenzionalità dell’elusione.

Il fondatore di SerpApi ha recentemente descritto il processo come “creazione di falsi browser utilizzando una moltitudine di indirizzi IP che Google vede come utenti normali”.

— Citato nel reclamo legale di Google

Questo scenario crea un collo di bottiglia pericoloso per l’innovazione.

Le startup di intelligenza artificiale, che necessitano di enormi quantità di dati freschi per il grounding dei loro modelli (ovvero per evitare che l’AI allucini fatti vecchi), si affidano spesso a servizi come SerpApi perché non possono permettersi le API ufficiali di Google, che sono costose e spesso limitate nel rate-limit.

Oltre il copyright: il controllo dell’infrastruttura

Se guardiamo sotto il cofano, questa battaglia segna la fine del web come “biblioteca pubblica” e l’inizio del web come “giardino murato protetto da API”.

Fino a pochi anni fa, se un dato era pubblico su una pagina web, si assumeva che fosse leggibile. Ora, la leggibilità è un privilegio concesso tramite autenticazione crittografica.

Il colosso di Mountain View ha presentato ufficialmente denuncia contro SerpApi sottolineando come queste pratiche di scraping malevolo violino le scelte dei siti web e dei titolari dei diritti su chi debba avere accesso ai loro contenuti.

La strategia legale di Google è astuta: non attaccano lo scraping in sé (che potrebbe ritorcersi contro il loro stesso modello di business), ma l’atto di scassinare la serratura digitale (SearchGuard).

Se la corte dovesse dare ragione a Google, ogni sviluppatore che utilizza Puppeteer o Playwright per aggirare un captcha o un controllo di integrità del browser potrebbe teoricamente essere passibile di denuncia penale o civile sotto il DMCA.

Siamo di fronte a un bivio fondamentale per l’architettura di internet.

Da una parte c’è la visione di un web semantico aperto, dove i dati fluiscono liberamente e possono essere riorganizzati da terzi per creare nuovo valore. Dall’altra, c’è la realtà di un web transazionale, dove ogni byte di informazione ha un proprietario, un prezzo e un lucchetto digitale.

La domanda che questo processo lascia aperta non è se SerpApi abbia violato la legge, ma se vogliamo costruire un futuro digitale in cui l’unico modo legittimo per leggere il web sia chiedere il permesso a chi possiede il browser.

Scritto da Luca Verdi

Developer e tech writer. Spiega la tecnologia dal punto di vista tecnico senza perdere di vista l'accessibilità. Ex software engineer, ora si dedica al giornalismo tech.

L’India è il nuovo campo di battaglia dell’IA, e i giganti tech americani stanno scaricando miliardi per conquistarla

Mentre tutti inseguono i giganti, NVIDIA scommette sui modelli piccoli: Nemotron 3 Nano arriva su Amazon Bedrock

Amazon dichiara guerra ai 12 minuti di noia: così Fire TV e il nuovo Ember Artline vogliono cambiare le nostre serate

Il paradosso Amazon: vetrina chiusa, pubblicità a pagamento

Categories

Pages

Newsletter

Non perdere nemmeno un articolo.

Google contro SerpApi: La Guerra dello Scraping e il Futuro del Web

Una battaglia legale che solleva interrogativi sul futuro dell’accesso ai dati e sul controllo dell’informazione nel web moderno.

La guerra dei browser fantasma

Il paradosso del “free riding”

Oltre il copyright: il controllo dell’infrastruttura

Una battaglia legale che solleva interrogativi sul futuro dell’accesso ai dati e sul controllo dell’informazione nel web moderno.

La guerra dei browser fantasma

Il paradosso del “free riding”

Oltre il copyright: il controllo dell’infrastruttura

Articoli correlati

ChatGPT e Google Shopping: la dipendenza nascosta nelle raccomandazioni AI

Il Dipartimento di Giustizia Usa e la riscittura delle regole Dei tramite il False Claims Act

Aeo e geo: microsoft riscrive le regole della seo