Cosa ha annunciato Google riguardo all'API Gemini?

Google ha introdotto due nuovi livelli di servizio per la sua API Gemini: Flex Inference, economico ma lento, e Priority Inference, veloce ma costoso, affiancandoli al livello Standard esistente.

Cos'è il livello Flex Inference e quali sono le sue caratteristiche?

Flex Inference è un livello ottimizzato per i costi, progettato per carichi di lavoro tolleranti alla latenza. Offre uno sconto del 50% rispetto al prezzo standard, ma le richieste sono meno affidabili e hanno una latenza target compresa tra 1 e 15 minuti.

Chi potrebbe beneficiare del livello Flex Inference?

Potrebbero beneficiarne le organizzazioni che lavorano su processi batch non urgenti, come analisi notturne, elaborazione di documenti o generazione di contenuti non urgenti, purché progettino le applicazioni per gestire attese fino a 15 minuti.

Quali sono le potenziali implicazioni di questa segmentazione del mercato?

La stratificazione per qualità del servizio potrebbe portare a una disuguaglianza digitale, dove la qualità dell'AI ottenuta dall'utente finale dipende dal valore economico del servizio che utilizza. Questo solleva questioni che i regolatori, come quelli europei nell'ambito dell'AI Act, potrebbero dover considerare.

Google 3 hours ago

Google ha dimezzato il prezzo dell’AI per chi può aspettare.

Q: Cos'è il livello Priority Inference e a chi è rivolto?

Priority Inference è un livello premium che instrada le richieste verso code di calcolo ad alta criticità, offrendo prestazioni prevedibili e veloci per applicazioni rivolte agli utenti. È riservato agli utenti con progetti a pagamento di Tier 2 o Tier 3 e ha un prezzo più elevato.

Q: Quale problema tecnico risolvono i nuovi livelli secondo Google?

Secondo Google, i nuovi livelli colmano il divario tra carichi di lavoro sincroni e asincroni, permettendo di instradare i lavori in background verso Flex e quelli interattivi verso Priority, entrambi attraverso endpoint sincroni standard, senza dover gestire due architetture separate.

Google introduce Flex Inference per Gemini API con sconto del 50%, ma latenza target di 1-15 minuti. Priority offre prestazioni veloci a prezzo premium, segmentando il mercato AI.

La nuova offerta prevede tempi di attesa fino a 15 minuti per chi sceglie il servizio scontato, mentre quello premium

Cosa succede quando un’azienda ti offre uno sconto del 50% su uno dei suoi prodotti più ambiti, ma la condizione è che quel prodotto funzioni peggio? Oggi Google ha risposto a questa domanda con un annuncio preciso: secondo l’annuncio ufficiale di Flex e Priority Inference, l’azienda introduce due nuovi livelli di servizio per la sua API Gemini — uno economico ma lento, l’altro veloce ma costoso. Il messaggio è chiaro. La domanda scomoda è un’altra: a chi conviene davvero?

Il paradosso del risparmio

Il nuovo livello si chiama Flex Inference. Google lo descrive come un tier “ottimizzato per i costi, progettato per carichi di lavoro tolleranti alla latenza senza l’overhead dell’elaborazione batch”. In pratica: paghi la metà del prezzo standard, ma le tue richieste vengono deliberatamente rese meno affidabili e più lente. Quanto più lente? La documentazione ufficiale parla di una latenza target tra 1 e 15 minuti. Non secondi — minuti. Nel mondo dell’intelligenza artificiale applicata, dove la differenza tra una risposta in due secondi e una in due minuti può significare la differenza tra un’applicazione utilizzabile e una inutilizzabile, questo non è un dettaglio tecnico. È una scelta di mercato.

Il risparmio del 50% esiste, ma viene acquistato abbassando esplicitamente la “criticità” della richiesta. È Google stessa a usare questo termine: “Pay half the price of the Standard API by downgrading criticality of your request (making them less reliable, and adding latency)”. Tradotto: stai pagando meno perché stai accettando un servizio peggiore. Il che lascia aperta la domanda più interessante — quella che Google preferisce non mettere al centro del comunicato stampa: per chi è davvero pensato questo livello? E chi, invece, sarà costretto a pagare di più?

Strategia di segmentazione

All’altro estremo c’è Priority Inference. Secondo la documentazione del livello Priority Inference, questo tier instrada le richieste verso “code di calcolo ad alta criticità”, offrendo “prestazioni prevedibili e veloci per applicazioni rivolte agli utenti”. Il meccanismo principale è un downgrade lato server — cioè, se il traffico supera i limiti dinamici, la richiesta viene declassata a elaborazione standard anziché fallire. Il tutto a un prezzo che la stessa Google definisce “premium”, riservato agli utenti con progetti a pagamento di Tier 2 o Tier 3. Non è un prodotto per tutti. È un prodotto per chi può permetterselo.

Quello che emerge guardando i due livelli insieme è una struttura a tre piani — Flex sotto, Standard nel mezzo, Priority sopra — che segmenta gli utenti in fasce di spesa ben distinte. Google sostiene che fino ad oggi chi voleva supportare sia carichi di lavoro sincroni che asincroni era costretto a gestire due architetture separate: l’API standard per il tempo reale e la Batch API per i lavori in background. Flex e Priority, dice l’azienda, “colmano questo divario”, permettendo di instradare i lavori in background verso Flex e quelli interattivi verso Priority, entrambi attraverso endpoint sincroni standard. È una semplificazione tecnica reale. Ma è anche, non a caso, una semplificazione che richiede di scegliere a quale livello di servizio appartenere — e quindi quanto spendere.

Vale la pena chiedersi perché questa mossa arrivi adesso. Il mercato delle API per modelli linguistici è sotto una pressione competitiva crescente: OpenAI, Anthropic, Mistral e altri offrono livelli simili a prezzi aggressivi. Differenziare per qualità del servizio — e non solo per qualità del modello — è un modo per fidelizzare le fasce alte della clientela, quelle enterprise che non possono permettersi latenze variabili, e contemporaneamente attrarre sviluppatori con budget limitati che altrimenti andrebbero altrove. È segmentazione di mercato classica, e non c’è nulla di illegale in questo. Ma vale la pena notare che la narrazione pubblica — “rendiamo l’AI più accessibile” — e la logica commerciale sottostante non coincidono perfettamente. Rendere qualcosa accessibile abbassandone deliberatamente le prestazioni non è la stessa cosa che abbassarne il costo mantenendo la qualità.

Vincitori e perdenti

Chi guadagna da questa architettura? Le aziende e gli sviluppatori che possono permettersi Priority ottengono qualcosa di concreto: stabilità garantita, prestazioni prevedibili, e un meccanismo di fallback che evita i crash in produzione. Per loro, il prezzo premium ha una giustificazione tecnica precisa. Chi lavora su processi batch — analisi notturne, elaborazione di documenti, generazione di contenuti non urgenti — trova in Flex uno strumento economicamente sensato, a patto di progettare le proprie applicazioni intorno a tempi di attesa fino a un quarto d’ora.

Il problema è la fascia di mezzo: gli sviluppatori indipendenti, le startup early-stage, le piccole imprese che hanno bisogno di risposte ragionevolmente veloci ma non possono giustificare i costi di Priority. Per loro, il livello Standard rimane l’unica opzione praticabile, ma il fatto stesso che esista un livello superiore a pagamento introduce una pressione implicita: se la concorrenza usa Priority, tu cosa stai usando? In mercati dove la velocità di risposta dell’AI è parte dell’esperienza utente, questa non è una domanda retorica.

Rimane una questione più larga, che nessun annuncio aziendale affronterà mai direttamente: la stratificazione del mercato AI per qualità del servizio ha implicazioni che vanno oltre il portafoglio degli sviluppatori. Se le applicazioni premium — quelle usate dai consumatori finali di servizi costosi — girano su Priority, e quelle economiche girano su Flex, stiamo costruendo un’infrastruttura in cui la qualità dell’AI che ottieni dipende da quanto vale il servizio che stai usando. È una forma di diseguaglianza digitale sottile, difficile da regolamentare, ma non impossibile da interrogare. I regolatori europei, già impegnati nell’applicazione dell’AI Act, dovrebbero almeno porsi la domanda. Il prezzo dell’accessibilità all’intelligenza artificiale potrebbe essere più alto di quanto il 50% di sconto faccia sembrare.

Scritto da Giulia Bianchi

Giornalista investigativa specializzata in privacy, sicurezza digitale e regolamentazione tech. Scettica per natura, crede nel giornalismo che fa domande scomode.

Google può generare video pubblicitari per te

NVIDIA ha nascosto il vero consumo energetico dell’IA.

Le aziende stanno costruendo mondi paralleli per addestrare l’IA.

Apple ha aggiunto dieci lingue indiane all’App Store

Categories

Pages

Newsletter

Non perdere nemmeno un articolo.

Google ha dimezzato il prezzo dell’AI per chi può aspettare.