Google Fa Causa a SerpApi per Data Scraping: Una Guerra per il Controllo dei Dati Web

Google Fa Causa a SerpApi per Data Scraping: Una Guerra per il Controllo dei Dati Web

Un’azione legale che mette in discussione il confine tra scraping lecito e furto di dati, aprendo un dibattito sulla sovranità digitale nell’era dell’intelligenza artificiale

C’è una certa ironia, tecnicamente deliziosa e politicamente complessa, nel vedere il più grande crawler della storia dell’umanità fare causa a qualcuno perché sta facendo crawling sui suoi dati.

Ieri, 19 dicembre 2025, Google ha depositato una denuncia formale contro SerpApi, un servizio ben noto nella community di noi sviluppatori, accusandolo di estrarre sistematicamente dati dai risultati di ricerca.

A prima vista potrebbe sembrare la solita scaramuccia legale tra giganti e parassiti digitali. Ma se apriamo il cofano di questa vicenda, ci troviamo davanti a un cambio di paradigma nell’architettura stessa del web.

Per chi non bazzica i repository di GitHub o le documentazioni API, SerpApi è un servizio che risolve un problema frustrante: ottenere i risultati di ricerca di Google in un formato strutturato (JSON) utilizzabile da un software. Google offre le sue API ufficiali, certo, ma sono limitate, costose e spesso non restituiscono esattamente ciò che un utente vede a schermo (le cosiddette SERP, Search Engine Results Pages).

SerpApi colma questo vuoto facendo il “lavoro sporco”: simula ricerche umane, parsifica l’HTML risultante e lo rivende agli sviluppatori. Google, tuttavia, non la vede come una feature mancante del suo ecosistema, ma come un attacco su scala industriale alla sua infrastruttura.

Non stiamo parlando di qualche script in Python lanciato da un laptop in un dormitorio.

Secondo l’accusa, l’infrastruttura di SerpApi gestisce volumi di traffico spaventosi, progettati per aggirare sistematicamente le difese che gli ingegneri di Mountain View hanno eretto negli ultimi vent’anni. E qui la questione diventa puramente tecnica: non è solo una violazione dei termini di servizio, è una corsa agli armamenti tra sistemi di rilevamento bot e reti di offuscamento sempre più sofisticate.

L’ingegneria dell’inganno

Per capire la gravità della situazione, dobbiamo guardare ai numeri. Nella documentazione legale depositata, Google sostiene che SerpApi invii centinaia di milioni di richieste di ricerca artificiali ogni giorno, sovraccaricando i server e degradando l’esperienza per gli utenti reali.

Ma come si fa a inviare una tale mole di richieste senza essere bannati istantaneamente?

La risposta risiede in quella che potremmo definire “ingegneria dell’inganno”.

Un server web, quando riceve una richiesta, analizza vari parametri: l’indirizzo IP, l’User-Agent (la stringa che identifica il browser), i cookie, e persino i pattern comportamentali (mouse movement, velocità di digitazione). SerpApi, secondo l’accusa, non si limita a fare richieste cURL.

Utilizza reti di proxy residenziali — indirizzi IP che appartengono a connessioni domestiche reali, spesso all’insaputa dei proprietari — per mascherare la propria origine. Ruotano questi IP costantemente, rendendo impossibile per i firewall di Google bloccare una singola fonte (IP Ban) senza rischiare di bloccare utenti legittimi.

Inoltre, c’è l’aspetto del “cloaking”. Le botnet moderne utilizzano browser headless (come versioni di Chrome o Firefox senza interfaccia grafica controllate via codice) per eseguire JavaScript e renderizzare la pagina esattamente come farebbe un utente reale. Questo serve a superare i controlli anti-bot che verificano se il client è in grado di eseguire script complessi.

Google accusa SerpApi di perfezionare costantemente queste tecniche per eludere i CAPTCHA e i token di sicurezza, in un gioco del gatto col topo che consuma risorse computazionali immense da entrambe le parti.

I cosiddetti ‘scraper’ utilizzano tattiche ingannevoli per nascondere la loro vera identità, impiegando reti di bot per inondare i siti web con traffico artificiale, spesso mascherato da traffico umano legittimo.

— Google Security Blog, Team Trust & Safety

Questa citazione evidenzia il nodo centrale: la distinzione tra un “utente” e un “programma” sul web è diventata così sfumata da essere quasi indistinguibile a livello di rete, costringendo le piattaforme a misure sempre più drastiche.

Ma perché Google ha deciso di premere il grilletto legale proprio ora?

La risposta non risiede solo nel fastidio tecnico, ma in un cambiamento fondamentale della giurisprudenza americana e nella pressione dell’intelligenza artificiale.

Il paradosso del parassita

Per anni, la difesa legale contro lo scraping è stata basata sul Computer Fraud and Abuse Act (CFAA), una legge anti-hacking statunitense un po’ datata. Tuttavia, la sentenza storica HiQ Labs v. LinkedIn ha stabilito un precedente pericoloso per le piattaforme: lo scraping di dati pubblicamente accessibili non costituisce “hacking”.

Se metti un dato in vetrina, non puoi denunciare qualcuno perché lo trascrive sul suo taccuino, anche se quel qualcuno è un robot. Questo ha lasciato Google e altri giganti con le armi spuntate.

La nuova strategia legale di Mountain View, che emerge chiaramente in questo caso, è un capolavoro di riposizionamento. Non potendo più gridare “all’hacker”, Google sta spostando il focus sulla violazione contrattuale e, soprattutto, sulla tutela del diritto d’autore di terzi.

Google ha delineato una strategia più ampia per combattere lo scraping illegale in cui si erge non solo a difensore dei propri server, ma a custode dei contenuti dei publisher.

L’argomentazione è sottile: quando SerpApi estrae i “featured snippet” (i riquadri con le risposte dirette) o i riassunti delle notizie, non sta rubando a Google; sta aggirando le misure di sicurezza che Google ha implementato per rispettare le volontà dei creatori di contenuti originali.

È una mossa astuta. Google sta dicendo ai tribunali: “Noi indicizziamo il web seguendo le regole (robots.txt), ma questi attori aggirano le nostre difese per mercificare contenuti che non appartengono nemmeno a noi”. Questo allinea Google con gli editori e i creatori di contenuti, categorie che storicamente sono state spesso in conflitto con il gigante della ricerca.

In un’era in cui l’AI generativa (come ChatGPT o Perplexity) ha fame di dati freschi e strutturati, SerpApi non è più solo un tool per sviluppatori SEO, ma un potenziale fornitore di dati non autorizzati per l’addestramento o il funzionamento in tempo reale di modelli concorrenti.

E non è un caso isolato. Reddit ha recentemente avviato azioni legali contro operatori simili, segnalando che l’intero settore tech sta alzando le barricate. Il messaggio è chiaro: i dati generati dagli utenti o curati dagli algoritmi sono l’asset più prezioso del decennio, e l’accesso via API non ufficiale non sarà più tollerato.

Una questione di sovranità digitale

Da sviluppatore, c’è una parte di me che ammira l’audacia tecnica di SerpApi. Mantenere un tasso di successo alto nel crawling di Google è una sfida ingegneristica notevole. Significa gestire la rotazione di migliaia di proxy, risolvere CAPTCHA in tempo reale, decifrare le continue modifiche al DOM (la struttura HTML della pagina) che Google implementa proprio per “rompere” i parser, e farlo con una latenza accettabile per i clienti finali. È un lavoro di reverse engineering continuo e brutale.

Tuttavia, c’è un lato oscuro in questa efficienza. L’uso massiccio di proxy residenziali è eticamente grigio: spesso questi IP appartengono a utenti ignari che hanno installato VPN gratuite o estensioni del browser malevole che trasformano i loro dispositivi in nodi di uscita per il traffico di scraping.

Google, nel suo ruolo di “poliziotto” della sua rete, deve spendere risorse enormi per filtrare questo rumore dal segnale, risorse che altrimenti andrebbero a migliorare il servizio.

Inoltre, c’è l’ipocrisia di fondo dell’intero ecosistema. Google è diventata ciò che è esattamente facendo quello che fa SerpApi: visitando ogni pagina web del mondo, copiandone il contenuto, indicizzandolo e presentandolo in un formato proprietario. La differenza, sostengono a Mountain View, è nel valore aggiunto e nel rispetto dei protocolli standard come robots.txt.

Ma quando Google presenta la risposta a una domanda direttamente nella pagina dei risultati (togliendo un click al sito originale), sta facendo qualcosa di molto diverso da ciò che SerpApi fa con i dati di Google?

Stiamo assistendo a un tentativo sistematico di appropriazione indebita del valore creato dagli editori e dalle piattaforme, riconfezionato e venduto senza autorizzazione.

— Sundar Pichai, CEO di Google

La tensione è palpabile. Se Google vince, si consolida l’idea che i dati pubblici su una piattaforma proprietaria non sono davvero “pubblici” nel senso di “liberamente riutilizzabili via macchina”.

Si stabilisce che l’accesso automatizzato è un privilegio concesso tramite contratto (API ufficiali), non un diritto tecnico.

La mossa contro SerpApi potrebbe essere l’inizio della fine per l’era del “Wild West” dello scraping. Per noi sviluppatori, questo significa che costruire applicazioni sopra i dati di terze parti senza un accordo commerciale esplicito diventerà sempre più rischioso, sia legalmente che tecnicamente. Le “API non ufficiali” che tanto amiamo per la loro flessibilità potrebbero presto diventare reliquie di un passato in cui il web era più caotico, ma forse anche più libero.

Mentre aspettiamo di vedere come risponderà SerpApi — probabilmente invocando l’interoperabilità e la natura pubblica dei dati — una cosa è certa: il confine tra “navigare” e “rubare” non è più definito dal codice, ma dagli avvocati.

E in un mondo dove l’informazione è la valuta, chi controlla l’API controlla la realtà.

Resta da chiedersi: in un web blindato da attestazioni crittografiche e accessi autenticati, ci sarà ancora spazio per l’innovazione permissionless che ha reso internet quello che è oggi?

Facebook X Network Pinterest Instagram
🍪 Impostazioni Cookie