Perché la scelta dell'harness è importante nella valutazione di un modello agentico?

Secondo il playbook per valutazioni affidabili di OpenAI, l'harness non è un dettaglio implementativo trascurabile ma la lente attraverso cui il modello viene interrogato. Una lente sbagliata può produrre numeri che raccontano una storia incompleta, influenzando profondamente i risultati delle valutazioni, specialmente per sistemi che agiscono su traiettorie lunghe come gli agenti AI.

Cosa si intende per 'sotto-elicitazione evitabile'?

Il playbook definisce la sotto-elicitazione evitabile come un fallimento di misurazione puro e semplice. Si verifica quando l'harness o il budget di calcolo impediscono al sistema di mostrare un comportamento che altrimenti produrrebbe, portando a un punteggio che non misura la capacità dichiarata del modello.

In che modo il test-compute influenza la valutazione di un modello come Gemini 3.5 Flash?

OpenAI suggerisce che aumentare il tempo di test-compute (budget di calcolo concesso durante l'inferenza) può cambiare drasticamente quale capacità viene misurata. Per Gemini 3.5 Flash, pubblicizzato per efficienza e velocità, se testato con un budget ridotto le sue reali abilità agentiche potrebbero emergere solo parzialmente, rendendo la capacità dipendente dalle risorse e non una quantità fissa.

Quale domanda dovrebbe porsi ogni sviluppatore secondo il testo?

La domanda che ogni sviluppatore dovrebbe porsi è: stiamo misurando la vera capacità del modello, o solo ciò che l'harness ci lascia vedere? Il testo sottolinea che fidarsi ciecamente dei numeri senza conoscere la configurazione di valutazione è rischioso.

Editorials Pick's 2 months ago

I modelli AI nascondono la loro vera potenza

Q: Quale messaggio operativo viene dato alla community degli sviluppatori?

Il messaggio operativo è: quando valuti un modello per un agente, costruisci il tuo harness, varia il test-compute e verifica che le affermazioni del fornitore siano state ottenute in condizioni oneste. Senza questa trasparenza, i numeri sono solo rumore.

Il playbook OpenAI rivela che harness e test-compute distortono le valutazioni dei modelli agentici, come Gemini 3.5 Flash.

Il playbook di OpenAI avverte che harness e risorse di calcolo distortono le metriche

Quando si valuta un modello per compiti agentici, la scelta del cosiddetto harness — l’infrastruttura software che orchestra il flusso di input, output e strumenti — non è un dettaglio implementativo trascurabile. È la lente attraverso cui il modello viene interrogato, e come ci ricorda il playbook per valutazioni affidabili di OpenAI, una lente sbagliata può produrre numeri che raccontano una storia incompleta.

Mentre Google spinge Gemini 3.5 Flash come modello predefinito per agenti e ricerca, la domanda che ogni sviluppatore dovrebbe porsi è: stiamo misurando la vera capacità del modello, o solo ciò che l’harness ci lascia vedere?

Google ha iniziato a distribuire gli aggiornamenti Search I/O 2026 in cui Gemini 3.5 Flash diventa il modello predefinito di AI Mode per tutti gli utenti globali. Le demo ufficiali mostrano video di Gemini 3.5 Flash che eseguono compiti di coding e navigazione web complessa con una fluidità impressionante. Il modello viene descritto come ideale per compiti agentici a lungo orizzonte, come si vede nelle dimostrazioni di Gemini Omni. Con l’annuncio che Google annuncia Gemini 3.5 Flash come modello predefinito per l’app Gemini e per AI Mode in Search, si consolida la sua adozione su scala. Inoltre, entro l’estate 2026, le capacità di UI generativa in Search saranno disponibili gratuitamente per tutti.

Il problema nascosto: l’harness non è neutrale

OpenAI ha pubblicato a fine maggio 2026 il playbook per valutazioni affidabili di terze parti, un documento che smonta l’idea ingenua che un benchmark standardizzato basti a fotografare le capacità di un modello. La configurazione che circonda il modello — battezzata concetto di harness — influenza profondamente i risultati. Il playbook sottolinea che la scelta dell’harness è determinante per ottenere valutazioni rappresentative. Per sistemi che agiscono su traiettorie lunghe, come gli agenti AI, il ruolo dell’harness diventa ancora più critico: il playbook evidenzia l’importanza dell’harness nelle valutazioni per traiettorie estese. In pratica, se l’harness non è progettato per elicitare il meglio dal modello, i punteggi che leggiamo potrebbero essere sistematicamente sottostimati — o, peggio, sovrastimati se la configurazione premia scorciatoie superficiali.

Capacità non assolute, ma dipendenti dalle risorse

Il punto centrale del playbook è che le affermazioni sulle capacità di un modello non possono prescindere dal contesto di valutazione. Aumentare il tempo di test-compute — cioè il budget di calcolo concesso al modello durante l’inferenza — può cambiare drasticamente quale capacità viene misurata. OpenAI suggerisce di considerare il test-compute per valutazioni come una variabile da dichiarare esplicitamente. La conclusione è inequivocabile: la capacità dipende dalle risorse secondo il playbook, non è una quantità fissa misurabile una volta per tutte. Questo è particolarmente rilevante per Gemini 3.5 Flash, che viene pubblicizzato per la sua efficienza e velocità: se il modello viene testato con un budget di calcolo ridotto, le sue reali abilità agentiche potrebbero emergere solo parzialmente.

Sotto-elicitazione: il fallimento di misura che mina le affermazioni

Il playbook introduce un concetto tagliente: la sotto-elicitazione evitabile è un fallimento di misurazione puro e semplice. Se l’harness o il budget impediscono al sistema di mostrare un comportamento che altrimenti produrrebbe, il punteggio non misura la capacità dichiarata. Questo significa che quando Google afferma che Gemini 3.5 Flash è il migliore per agenti, dovremmo chiedere: con quale harness? Con quale budget di test-compute? Le metriche attuali dei benchmark pubblici non rispondono a queste domande. Per chi costruisce agenti basati su questo modello, la lezione è chiara: fidarsi ciecamente dei numeri senza conoscere la configurazione di valutazione è rischioso. La vera potenza di Gemini 3.5 Flash — o di qualsiasi modello — rimane un mistero fino a quando non viene elicitata correttamente.

Il messaggio per la community degli sviluppatori è operativo: quando valuti un modello per un agente, costruisci il tuo harness, varia il test-compute, e verifica che le affermazioni del fornitore siano state ottenute in condizioni oneste. Senza questa trasparenza, i numeri sono solo rumore.

Scritto da Luca Verdi

Developer e tech writer. Spiega la tecnologia dal punto di vista tecnico senza perdere di vista l'accessibilità. Ex software engineer, ora si dedica al giornalismo tech. | Autore AI KronosWire

Startup

Editorials Pick's

Amazon

Apple

Categories

Pages

Newsletter

Non perdere nemmeno un articolo.

I modelli AI nascondono la loro vera potenza

Il playbook di OpenAI avverte che harness e risorse di calcolo distortono le metriche

Il problema nascosto: l’harness non è neutrale

Capacità non assolute, ma dipendenti dalle risorse

Sotto-elicitazione: il fallimento di misura che mina le affermazioni

Il playbook di OpenAI avverte che harness e risorse di calcolo distortono le metriche

Il problema nascosto: l’harness non è neutrale

Capacità non assolute, ma dipendenti dalle risorse

Sotto-elicitazione: il fallimento di misura che mina le affermazioni

Articoli correlati

L’attacco a OpenAI ha cambiato le regole della sicurezza

Da Mappa a Mente: Come Google Sta Trasformando Maps in un Cervello Digitale per la Città

Google punisce chi usa i suoi stessi strumenti